比起传统分析应用程序,建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。 越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构,这些架构逐渐改变着数据管道以及数据准备步骤。 独立顾问和行业分析师Dave Wells说:“过去我们接触到的都是直接进入数据仓库的数据流,数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱,数据来源也变得越来越丰富。
处理数据的方式呈现多样化,而且现在的数据管道也是多向的。” 总之,严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。 美国一家医疗保健管理……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
比起传统分析应用程序,建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。
越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构,这些架构逐渐改变着数据管道以及数据准备步骤。
独立顾问和行业分析师Dave Wells说:“过去我们接触到的都是直接进入数据仓库的数据流,数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱,数据来源也变得越来越丰富。处理数据的方式呈现多样化,而且现在的数据管道也是多向的。”
总之,严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。
美国一家医疗保健管理咨询公司Geneia的数据科学家Jin On表示,预测分析的性质改变了分析人员处理数据的方式。“刚参加工作的时候,我建立的分析模型更多地是关于描述性统计。比如想要知道有多少人患糖尿病,经过调查就会得到具体的数据。”
她补充说,她在工作中接触过一个应用程序,旨在预测个体患者需要重新住院的可能性。 “对于这种类型的分析,你需要更多的创造力。必须首先查看实际数据,看看应用程序关于重新住院的可能性中最重要的属性。”
关于数据准备
On的工作涉及到一下机器学习的领域,这通常需要原始数据保持原样,然后以不同的方式过滤以满足特定的分析需求。她说,在评估可用数据的特征之后,下一步是查看可用于提高计划模型预测精度的机器学习算法的类型。
On使用SAS软件准备数据和构建预测模型,制定的数据需求可能随不同的机器学习算法而变化。比如随机森林算法对某些类别的数据变量可以具有的级别数量进行限制,这通常意味着需要完成额外的数据准备步骤。她说:“在这种情况下,你必须做好数据准备工作,使其适用于特定的算法,这是我开始探索之前首先进行数据检查的一个原因。”
“垃圾是放错地方的资源”
分析咨询和培训服务公司The Modeling Agency的CEO Eric King表示,对于数据管理员而言,为支持先进的分析需求,探索数据准备的新方法是非常必要。
即使是计算中最久经考验的概念之一也可能需要重做:垃圾输入,垃圾输出(GIGO),这意味着用户永远不会从坏数据中获得更多价值。 King表示,他的公司教授关于数据准备预测分析的课程。规定的数据准备步骤通常涉及大量的分箱,平滑和拟合,其中许多步骤意味着丢弃异常数据从而分离出有价值的数据。
“在大数据环境中,这样的清理可能并不是数据科学家或成功的预测建模师想要的,”King说,“新算法可以处理一大堆数据垃圾,但过度清理数据可能造成浪费。但是当准备数据用于分析使用时,有时需要采取一些步骤是明智的。”
相关推荐
-
数据丰富的企业将重点转向道德数据挖掘
随着数据泄露事件席卷Facebook、Equifax等公司,越来越多的公司开始谈论道德数据挖掘。虽然大部分讨论 […]
-
Tableau新功能包含NLP、AI和机器学习
Tableau Software公司在Tableau 2019中为其BI和数据可视化平台新增一系列智能功能,其 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]