大数据：无意义的显著性

IT从来是寂寞的，它没有鲜亮的外表和跌宕的故事供人消费。但借着“大数据”的东风，IT变得火热起来。各行各业都开始用“大数据告诉你……”来造句。顺着“所有公司都是IT公司”的逻辑，那么，“说什么都是在说大数据”。

大数据在受到热捧的同时，受到的批评也不少。近日，一篇《大数据、大安利》的文章总结了几点国外对大数据滥用的批评，原文附录如下：

1，无意义的显著性：没有理论的大数据是皮毛，只看到显著相关性，但不经检验，没有理论，这样的相关是没有意义的，或许是虚假。关键是：大数据的data point太多，在计算上找到两个矢量的显著关系极其容易，但正是因为数据量大，控制虚假关系反而更难，这是一个两难。我有一篇文章投出去，匿名评审说：样本很大，当然能找到显著相关，但是看不出意义。

2，采样方法问题：统计学家方凯撒总结了一个现象，谷歌、facebook等网络收集的数据，往往不具有同质性，是在不同的时间用不同的资源收集，随后把整个数据合并起来，结果大数据内部许多部分的数据根本不是用同样的方法收集的，统计抽样的基本假设都被推翻了。而且网络数据和线下数据的内容不一致，比如华尔街邮报的电子版和纸版就不一样，而且用户可以自定义内容。

3，机器语言不稳定：谷歌最开始用关键字预测感冒流行地区，开始说比疾控中心预测的还准，但后来越来越不准。有人认为这是谷歌的搜索算法在不停地改进，所以自动收集数据不稳定了。另外机器语言一旦被误导会越错越离谱，比如谷歌翻译是根据真实的文章总结的，但是有些网络的“真实”翻译其实是谷歌翻的，于是谷歌会把自己的翻译基于这些“真实”文章上。

当企业提到大数据的时候，往往希望把全部数据收集起来，加以分析，这也是理想场景下的大数据分析应用。但很多时候，企业会受到技术和成本的掣肘，仍然采用抽样分析。实际抽样中往往需要分层，分层抽样的情况下，后期统计运算都必须一个权重，权重是和该层被选择的概率成反比的。一个分层的权重高，在分析中就不可忽视。大数据的问题是它只能收集到权重低的数据。

现实生活中也是这样，最容易研究的对象往往最无聊，心理学经常上课找大学生做实验，所以现在以大学生为样本的文章很难发表了。因此，有时大数据虽然大，却往往不重要。

无独有偶，《黑天鹅》一书也说到，决定社会变革的大部分是帕累托分布，并不是钟形分布，这表面上看来暗合了“数据越大越不重要”的观点。但实际上是对大数据的使用者有了更高的要求，怎样在海量的数据里挑选出看似风马牛不相及的变量联系在一起得出结论。

大数据因为概念松散，理论欠缺，被填充进了太多的假象。如何结合具体的应用场景，满足业务需求才是企业内大数据技术落地的正确方向。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

作者

: 陈洪钰

取消回复

作者

陈洪钰

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求