说到大数据,不能不说大数据书籍,说到大数据书籍,不能不说《大数据时代》。
现在市面上有很多大数据书籍,但都是近两年“赶制”出来的。这本2012年首次出版的《大数据时代(生活、工作与思维的大变革)》虽然年代不久远,却是大数据书籍的发轫之作。两年来,围绕它的讨论也很多。有人追捧,有人贬斥,有人以为太过肤浅通俗,不屑评论……时人以“誉满天下,谤亦随之”评价胡适先生,如今这本书也当之无愧了。
全书260页,凡八章,但人们讨论最多的只有三句话,即作者提出的三个变革:
首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
样本分析中最重要的是样本的选择,然而人们面临的困境是无论如何选择样本,都会有所疏漏。样本永远无法完全反映整体。这里,舍恩伯格提出的方法很简单,也很理想化——不要样本。
分析整体当然要比分析样本更能得出正确的结论,提升洞察力。但能够完全收集、处理、分析一切想要的数据的“大数据时代”还没有到来,即便到来,组织还面临成本问题,并不是所有组织都有能力分析所有数据。一来受制于数据收集能力,二来受制于数据分析能力,目前组织更多地还是采取分析样本的方式,只是收集的样本更多了。
其次,我们乐于接受数据的纷繁复杂,而不去追求精确性。
传统数据仓库分析中,数据需要经过ETL(提取、转换和加载)的过程进行清洗。因为是样本分析,分析结果需要被放大,因此错误数据导致的微小的瑕疵也会被放大,最终误导决策。传统的数据分析依赖于小数据和精确性。
而大数据时代的到来宣告数据具备两个特征:从量上看,数据规模巨大;从质上看,非结构化数据和半结构化数据激增。书中指出“据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法识别利用,比如网页和视频资源”(P45)。这就要求组织接受数据的纷繁复杂。
同时,数据清洗导致数据分析延迟,传统的数据分析往往是隔天分析。而大数据时代数据变化速度快,社交媒体数据、传感器数据、监测数据等流数据都要求组织作出实时响应。这一点作者虽没有指出,但也是原因之一。
最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
最后一点是人们争论最多的。很多人不同意这种耸人听闻的说法,即便是该书译者周涛教授也认为舍恩伯格表达欠妥,他在序言中写道:“我本人对于《大数据时代》‘相关关系比因果关系更重要’这个观点就不认同……与其说大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的学习思路让我们变成这样。”
也许周涛的表述更严谨。不过值得注意的是,所有的人工智能都依赖各种各样的算法和模型,还不能像人脑一样思考。机器不知道为什么喜欢海明威的人也很可能喜欢菲茨杰拉德,但如果你在亚马逊购买一本海明威的书,它一定向你推荐菲茨杰拉德的书。
相关关系导致的直接结果就是预测分析。这是大数据应用的很重要的体现。成功的预测可以让组织降低风险、节省成本、调整战略。舍恩伯格认为:“建立在相关关系分析法基础上的预测是大数据的核心”(P50)。相关关系虽然不会改变人类求因果的欲望,但它会改变商业模式,改变人们利用大数据的方法。
数据“法西斯”
书中提出的三点变革太耀眼了,以至于让人们忽略了其他内容。其实作者在第七章指出了很重要的一点,即数据统治。
“我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是,我们可能会完全受限于我们的分析结果,即使这个结果理应受到质疑。或者说,我们会形成一种对数据的执迷,因而仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任”(P110)。
“大数据”愈炒愈热,导致很多组织迷信数据,一味收集数据。结果数据收集与数据分析相脱离,增加了数据存储的成本;数据分析与业务需求相脱离,不能贡献业务价值。数据被捧上了王位,组织无形中沦为了数据的奴隶。
该书难能可贵的一点是,不只站在商业角度考虑大数据变革,也站在个人角度关注了个人隐私保护。虽然观点鲜有建树,但却指出了大数据发展很重要的一面——捍卫隐私。
如果非要用一句话来评价这本书,那么窃以为,这是一本畅想大数据的科普书。所谓畅想,是指书中所言的大数据时代还是理想的情况,作者在预言大数据的发展方向。所谓科普,是指作者志在用通俗的语言、详实的示例将自己的观点生动地传达给普通读者,你要想在其中找Hadoop、NoSQL可就缘木求鱼了。
“先生之学说,或有时而可商”,不过作者对大数据的探索精神和独到见解还是能够给人以启发的。任何书中都没有“答案”,不可对书籍过于苛求。最后说一句,如果你经常做关于大数据的PPT和演讲,一定要拥有这本书,你懂的!
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]