分析模型中的大数据与小数据之争

大数据环境给数据科学家和其他职业分析师提供了大量的数据。但很多情况下，经验丰富的数据分析师和咨询师认为，在大数据分析应用中部署有效分析模型的关键不是“大”，而是“小”。

旅游网站运营商TripAdvisor业务部门的数据分析总监Michael Berry表示，大数据并不会改变预测分析和数据挖掘的分析建模的本质属性。在2013年预测分析全球大会的主题演讲中，Berry认为通过分析样本就可以把隐藏在大数据中的类型和关系发掘出来，不需要去梳理整个的数据。

Berry表示：“我一般不在分析模型中使用太多的数据，因为样本足以揭示规律，而且速度很快。如果你有足够的数据发现了一个模式，那么你添加再多的数据，结果也不会变。对于分析查询，用少量的时间分析少量的数据，效果反而好过用大量的时间分析大量的数据。”

咨询公司Rexer Analytics的总裁Karl Rexer也同意Berry的观点。他认为“样本分析很有效”。试想，一个大公司的分析团队在利用分析模型预测潜在客户流失的时候，它可能拥有成千上万的客户的海量的数据，“但是，真的要把所有的数据都用到吗?很多时候，他们不会。”

小样本，大本事

美国一家代理公司的高级顾问和培训总监Tony Rathburn透露，他为客户搭建预测模型的时候，虽然可用的信息有很多,但他经常只用五千个数据记录。大多数预测分析应用只需要分析样本，就能满足分析人员识别客户行为和其他参数的需要。相反，如果把大量的数据不加以分类就放到分析模型中，会增加“噪声”，影响结果的精确度。

存储技术供应商NetApp从它在客户的产品中自动收集性能检测数据，大约有1PB的数据存储在Hadoop集群中，设备传感器每周都会发送1TB的新数据。Shiv Patil是其中AutoSupport团队的高级数据仓库架构师兼业务分析师，他和他的同事负责使用这些数据，预测设备故障，防止停机和中断带给客户的损失。

Patil表示，AutoSupport分析团队在搭建预测模型时使用的是样本数据集，而不是整个数据集。团队只需要找到他们需要的样本，不需要全部的数据。创建样本会花费精力，需要反复试验，但一旦样本建立，之后就只要添加数据就可以了。

但并不是所有的大数据分析应用都可以通过样本完成。比如增值建模。它是预测分析模型的一种，旨在找到能够受宣传影响的潜在客户，而不是无论如何都会购买该产品的客户，这样市场部门就能更有效地锁定目标。广告代理商Carmichael就为客户斯巴鲁汽车使用了增值建模项目，它应用在线广告购买平台供应商Rocket Fuel开发的自动分析服务分析上百万的汽车经销商交易和其他数据记录。

充足的数据变量

Rocket Fuel的分析模型是通过每天监测到的大约三十万个变量来锁定潜在的斯巴鲁客户的，它从邮政编码和网站浏览活动提取诸如人口数据、性别、种族和当地天气类型等数据。在预测分析大会上，Carmichael Lynch的分析战略师Peter Amstutz介绍了斯巴鲁项目，他在接受采访时说：“我不知道使用数据是否有一个饱和点，或许也有其他的预测的方法。”

Rathburn除了建议使用小数据的方法安排和搭建分析模型外，还建议有一个完整的大数据集。“这类似于一个图书馆，你不需要读完所有的书籍，但在你需要的时候，你能找到要找的书”。

咨询公司Abbott Analytics的总裁Dean Abbott表示，拥有大数据能够扩大分析模型的应用范围。比如，因为数据足够多，所以人口数据可以细分到更小的地理单位。这样，“你就可以搭建更复杂的模型，也就是更精确可靠的模型了”。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号