言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大数据。数据库即服务公司MongoHQ的@Codepope最近在博客上探讨了这个问题,以及为何我们要存储这么多的数据,但无法从中获取相应的价值。
大数据实际上是范围极广、数量极大的,超乎你的想象。你也许认为维基百科的数据很大,但它也只是冰山一角而已。人们往往认为“很多的”数据就是所谓的“大”,因此他们无时无刻不在与大数据打交道。这种想法是不对的,我们从很早以前就已经有海量的数据了,那时候甚至还没有大数据的概念。那么大数据究竟是从哪里来的呢?为什么我们需要大数据呢?
时间倒退到上世纪90年代,人们开始认识到以数位的方式存储各种数据是非常便宜的,要比把它们保存在纸上便宜的多。而当某种事物变得足够便宜的时候,它就成为了一种标准。将所有信息都保存起来似乎成为了人类的一种本能,以便我们能够在未来需要的时候找到它。特别是在成本低廉的情况下,何乐而不为?
尤其是在科学领域,科学家们从很早以前就梦想能够把实验中的所有数据都妥善地保存起来。几十年前,美国的Peter Denning就阐述了NASA在保存哈勃空间望远镜的数据时所面对的难题:它每天生成的数据就需要2500张光盘来存储,这不仅对对网络和存储设备造成了极大压力,甚至已经超出了人类能够理解的范围。随着存储技术以及经济的飞速发展,现在想一想,要存储2500张光盘大小的数据,只需要几百元的普通硬盘就可以实现。
大数据的有限价值
现如今,我们已经能够保存下每个业务流程当中的数据,甚至已经可以保存下用户访问页面的数据或者观众观看哪些节目的数据。物联网的出现改变了游戏规则,为我们开启了一扇门。然而每一条数据、每一条记录的价值却在下降。
可以这样说,一条信用卡的交易记录是相对丰富的数据,它包含了人、地点、时间以及更多附加在数据上的价值,因此很自然我们想要收集这些数据,用来促进销售的循环。然而相比而言,一条用户在网上的浏览点击行为数据就没有那么“值钱”了。这些数据也许包含了用户的行为习惯信息,但单独拿出一条记录也许是没有任何价值的。你只有在想要分析用户的行为时,才会大量收集这样的数据。
而现在的情况是,存储这些数据的成本是比较低的,而且你收集越多的数据,通过比对不同的趋势,你就可能获得更多的价值。拿观众观看电视的数据来说,大量收集这些记录,然后与节目表和广告数据整合在一起进行分析,就能更好地理解观众喜欢什么样的节目,爱看什么样的电视剧,客户也可以更精准地投放广告。这时候大数据的价值就会凸显出来,就像最近火的一塌糊涂的《纸牌屋》。
因此我们可以判断,当应对大量的记录时,如果每一条单独记录越小(数据量,关联性),那么它是大数据的可能性就越大。而“大数据分析”所面临的挑战是,从这些信息的小小元素中提炼出意义,我们可能要把它们与上述的丰富的数据放到一起来提供上下文,识别其中隐藏着的模式。这算不上是大海捞针,更准确的说法应该是从一堆针头中找到你所需要的那一个。
大数据与“热”数据
还有一种常见的错误观点,即你不仅拥有很多数据,而且用户访问这些数据的频率很高,因此就需要我们用“大数据思维”来处理这些数据。
这些数据其实不一定是大数据,而是所谓的“热数据”,它们并不适用于处理大数据的方式。热数据是纯粹的扩展性问题,你需要把系统的性能调整到最佳,降低系统的延迟同时确保它能够被所有提出访问需求的用户访问到。
大数据与它正相反,我们可以说它是“冷数据”。也就是说,大数据并不是你频繁访问的数据,除了作为分析之用,甚至你从来不会去用到它。事实上,除了分析之外,我们可以把大数据“冷冻”起来。尽管有时候我们会把大数据与新鲜快速的记录一起进行分析,但大数据池至少需要从概念上与活动的热数据隔离开来。否则二者会互相造成不良的影响。将冷热数据分开存储是公认的最佳实践,无论是存储还是应用,它们都是完全不同的数据。
很不幸的是,有很多人并没有认清这一点,他们还在将大数据处理方式应用到各种各样的数据类型当中。最终的结果也就可想而知。
不要轻视其他数据的价值
现在,你需要从大数据的狂热中退一步思考,你现在最重要的数据也许并不是那些大数据,而是我们所说的热数据。你也许已经建立了大数据系统,时刻准备从大数据金矿上挖掘潜在的价值,但一定不要忽视其他数据的价值。你还有业务数据,它需要你快速、高效、一致地交付这些数据,同时要解决扩展性的问题。记住,大数据的最佳实践并不适合这些数据。你的数据也许这是一些重要的有价值的数据,它们并不是大数据。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]