搞定预测分析你需要在数据准备上“做文章”

比起传统分析应用程序，建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构，这些架构逐渐改变着数据管道以及数据准备步骤。独立顾问和行业分析师Dave Wells说：“过去我们接触到的都是直接进入数据仓库的数据流，数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱，数据来源也变得越来越丰富。

处理数据的方式呈现多样化，而且现在的数据管道也是多向的。” 总之，严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。美国一家医疗保健管理……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

比起传统分析应用程序，建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。

越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构，这些架构逐渐改变着数据管道以及数据准备步骤。

独立顾问和行业分析师Dave Wells说：“过去我们接触到的都是直接进入数据仓库的数据流，数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱，数据来源也变得越来越丰富。处理数据的方式呈现多样化，而且现在的数据管道也是多向的。”

总之，严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。

美国一家医疗保健管理咨询公司Geneia的数据科学家Jin On表示，预测分析的性质改变了分析人员处理数据的方式。“刚参加工作的时候，我建立的分析模型更多地是关于描述性统计。比如想要知道有多少人患糖尿病，经过调查就会得到具体的数据。”

她补充说，她在工作中接触过一个应用程序，旨在预测个体患者需要重新住院的可能性。 “对于这种类型的分析，你需要更多的创造力。必须首先查看实际数据，看看应用程序关于重新住院的可能性中最重要的属性。”

关于数据准备

On的工作涉及到一下机器学习的领域，这通常需要原始数据保持原样，然后以不同的方式过滤以满足特定的分析需求。她说，在评估可用数据的特征之后，下一步是查看可用于提高计划模型预测精度的机器学习算法的类型。

On使用SAS软件准备数据和构建预测模型，制定的数据需求可能随不同的机器学习算法而变化。比如随机森林算法对某些类别的数据变量可以具有的级别数量进行限制，这通常意味着需要完成额外的数据准备步骤。她说：“在这种情况下，你必须做好数据准备工作，使其适用于特定的算法，这是我开始探索之前首先进行数据检查的一个原因。”

“垃圾是放错地方的资源”

分析咨询和培训服务公司The Modeling Agency的CEO Eric King表示，对于数据管理员而言,为支持先进的分析需求，探索数据准备的新方法是非常必要。

即使是计算中最久经考验的概念之一也可能需要重做：垃圾输入，垃圾输出（GIGO），这意味着用户永远不会从坏数据中获得更多价值。 King表示，他的公司教授关于数据准备预测分析的课程。规定的数据准备步骤通常涉及大量的分箱，平滑和拟合，其中许多步骤意味着丢弃异常数据从而分离出有价值的数据。

“在大数据环境中，这样的清理可能并不是数据科学家或成功的预测建模师想要的，”King说，“新算法可以处理一大堆数据垃圾，但过度清理数据可能造成浪费。但是当准备数据用于分析使用时，有时需要采取一些步骤是明智的。”

作者

: Jack Vaughan

TechTarget新闻记者和网站编辑，主要关注数据管理领域的技术趋势和动态。

翻译

: 乔俊婧

关注商务智能及虚拟化领域技术发展，专注网站内容策划、组稿和编辑，负责《数据价值》电子杂志的策划和撰稿。喜欢桌游，热爱音乐，吃货一枚。

搞定预测分析你需要在数据准备上“做文章”

取消回复

关于数据准备

“垃圾是放错地方的资源”

作者

Jack Vaughan

翻译

乔俊婧

相关推荐

数据丰富的企业将重点转向道德数据挖掘

Tableau新功能包含NLP、AI和机器学习

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

搞定预测分析 你需要在数据准备上“做文章”

取消回复

关于数据准备

“垃圾是放错地方的资源”

作者

Jack Vaughan

翻译

乔俊婧

相关推荐

数据丰富的企业将重点转向道德数据挖掘

Tableau新功能包含NLP、AI和机器学习

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

搞定预测分析你需要在数据准备上“做文章”