那些没有充分投资于数据科学技术的企业将很快被竞争对手抛在后面。
数据科学家到底在做什么,以提供变革性的商业利益?数据科学应用程序利用机器学习(ML)和大数据来开发深度见解和新功能,包括预测分析、图像和对象识别、对话AI系统等。数据科学领域包含以下关键组成部分:
- 统计和数学方法,用于准确提取可量化数据。
- 技术和算法方法,以处理大型数据集。
- 高级分析技术和方法,从科学角度处理数据分析。
- 工程工具和方法,将大量数据转换为获得高质量见解的格式。
数据科学家使用的很多常见的统计和分析技术都源于数学和统计学,并得到新技术的增强。了解和部署这些技术将帮助企业带来战略和竞争优势,以与竞争对手抗衡。
数据科学如何发现数据之间的关系
在识别数据中有价值信息时,数据科学家必须辨别不同的数据元素之间的关系。想象一下,图表上绘制了一堆数据点。这些要点可能意味着以下内容:
- 数据表示两个或更多变量之间的关系。在这种情况下,可绘制一条线或多维平面,以最佳方式描述关系。
- 数据代表具有某种关联的聚类群体。
- 数据代表不同的类别。
确定这些关系为随机数据赋予意义。然后,数据科学家可以分析和可视化数据,为企业提供决策或计划战略所需的信息。
分类技术
数据科学家使用各种数据科学技术和方法来进行数据分析。他们试图解答分类问题:这些数据属于哪个类别?
对数据进行分类的原因有很多。如果数据是手写图像,你可能想知道它代表什么字母或数字。如果数据代表贷款申请,你可能需要确定它们是否应该被批准或拒绝。其他分类侧重于确定患者治疗或电子邮件是否为垃圾邮件。
数据科学家使用以下算法和方法将数据过滤成类别。
- 决策树。这是分支逻辑结构,通过使用包含参数和值的机器生成决策树,将数据分类为定义的类别。
- 贝叶斯分类器。使用概率,贝叶斯分类器有助于将数据归入简单的类别。
- 支持向量机(SVM)。SVM绘制一条具有宽边距的线或平面,将数据分为不同的类别。
- K近邻算法。该技术使用简单的“懒惰决策”方法来识别数据点应该属于的类别。这个决定是基于数据集中最近邻的类别。
- 逻辑回归。这种分类技术将数据拟合到一条线上,以区分两侧的不同类别。线的形状是数据在类别之间移动,而不是允许更多的流动相关性。
- 神经网络。这种方法使用经过训练的人工神经网络,特别是那些采用具有多个隐藏层的深度学习的神经网络。神经网络通过广泛的训练数据集表现出深刻的分类能力。
回归技术
团队可能想知道数据点之间的关系,而不是试图找出数据属于哪个类别。回归旨在找到数据的预测值。它来自“回归到平均值”的统计思想。
回归可以是很简单(在一个独立变量和一个因变量之间),也可以是多维的,它试图找到多个变量之间的关系。
有些分类技术(例如决策树、SVM和神经网络)也可以进行回归。其他回归技术包括以下内容:
- 线性回归。这种方法是使用最广泛的数据科学方法之一,它试图根据两个变量之间的相关性找到最适合分析数据的线。
- Lasso回归。该技术通过在最终模型中使用数据子集来提高线性回归模型的预测精度。Lasso是“最小绝对收缩和选择算子”的缩写。
- 多元回归。该技术涉及识别与多个数据维度对齐的线或平面,这些线或平面可能包含多个变量。
聚类和关联分析技术
聚类和关联帮助数据科学家确定数据如何形成组,以及不同的数据点属于哪些组。
聚类
相关数据点的聚类具有各种特征。它们为分析应用程序提供了宝贵的见解。聚类方法及其用途包括以下内容:
- K均值聚类。K均值算法确定数据集中一定数量的聚类,并找到确定聚类位置的重心。数据点被分配给最近的一个。
- 均值漂移聚类。这是另一种基于重心的聚类技术。单独使用它是可能的,但它也可以通过移动指定的重心来改善k均值聚类。
- DBSCAN。这种发现聚类的技术使用一种更先进的方法,通过对数据点进行分组并将离群值标记为噪声来识别聚类密度。DBSCAN是“基于密度的带有噪声的空间聚类”的缩写。
- 高斯混合模型。GMM使用高斯分布来查找聚类,将数据分组在一起,而不是将数据视为奇异点。
- 分层聚类。与决策树类似,该技术使用分层分支方法来查找聚类。
关联分析
关联分析是一种相关但独立的技术。它找到了描述不同数据点之间共性的关联规则。像聚类一样,它查找数据所属的组。
然而,在聚类中,目标是将大型数据集分离成可识别的组。关联分析衡量数据点之间的关联程度。它试图确定数据点何时一起发生,而不是事后识别聚类。
数据科学应用示例
企业可将上述方法和技术应用于特定的分析问题、提问和可用数据,以解决它们。优秀的数据科学家了解手头问题的性质(聚类、分类或回归)以及根据数据特征得出理想答案的最佳算法方法。这就是为什么数据科学是一个科学过程,而不是一套硬性规则。
通过使用这些技术,数据科学家可以处理各种应用,其中很多应用在各种行业和组织中都很常见。下面有几个例子。
异常检测
识别预期或“正常”数据的模式可以更轻松地找到不符合模式的数据点。金融服务、医疗保健、零售和制造业等不同行业的公司经常使用各种数据科学方法来识别其数据中的异常情况。用例包括欺诈检测、客户分析、网络安全和IT系统监控。异常检测还可以从数据集中消除离群值,以提高分析准确性。
二进制和多类分类
分类技术的主要应用是确定数据是否属于特定类别。这被称为二进制分类。一个实用的商业应用程序使用图像识别来识别成堆的文件中的合同或发票。
在多类分类中,数据科学家希望在数据集中的很多类别中确定最适合的数据点。例如,美国劳工统计局使用它对工作场所伤害进行自动分类。
个性化
希望个性化互动或推荐产品和服务的企业必须首先根据共享特征将个人分组到数据桶中。有效的数据科学使企业能够根据个人的特定需求和偏好定制网站、营销优惠等。他们可以使用推荐引擎和超个性化系统,匹配人们详细个人资料中的数据,以实现这一目标。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
掌握这些技能以谋求合适的数据科学家职位
如果你具备数据科学所需的技术和软技能,在就业市场,你会是有吸引力的求职者。对于希望提高技能以谋求数据科学家职位 […]
-
在业务中使用模拟模型的最佳做法
模拟模型指导数百万美元的库存决策、影响患者护理的人员配置模式和管理养老基金的投资策略。然而,很多企业仍然将它们 […]
-
实时边缘分析用例
在业务场景中,几秒钟的时间都很重要。 在实时分析中,机器故障或买家犹豫等信息会带来宝贵的商业见解。大多数企业仍 […]
-
在业务分析中使用模拟预测
模拟预测整合模拟建模与预测分析,帮助企业掌控不确定性,并做出更明智的数据驱动决策。 通过使用真实或合成数据对复 […]