流分析 为数据分析带来无限可能

日期: 2016-06-28 作者:Joel Shore翻译:张亮亮 来源:TechTarget中国 英文

“那些忘记过去的人注定要重蹈覆辙。”这句话虽然由西班牙散文家和哲学家George Santayana写于一个世纪以前,但是对于今天快速发展的基于云的流分析技术来说仍是金玉良言。 流分析可分为四类:知道发生了什么,理解它为什么发生,展望未来会发生什么,最终决定如何去影响未来所发生的事。这四种分析分别是描述,诊断,预测,规范,而且越来越难以实现和使用并回馈丰厚的商业利益。

要开始流分析,需要决定使用什么数据。随着数据量的倍增,收集,存储和筛选数据变得越发困难。去年十月,IDC重申了先前发布的研究,这项研究预测世界范围内每年创造的数据量会从2014年的4.4泽字节增长至2020年的44泽字节(440……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

“那些忘记过去的人注定要重蹈覆辙。”这句话虽然由西班牙散文家和哲学家George Santayana写于一个世纪以前,但是对于今天快速发展的基于云的流分析技术来说仍是金玉良言。

流分析可分为四类:知道发生了什么,理解它为什么发生,展望未来会发生什么,最终决定如何去影响未来所发生的事。这四种分析分别是描述,诊断,预测,规范,而且越来越难以实现和使用并回馈丰厚的商业利益。

要开始流分析,需要决定使用什么数据。随着数据量的倍增,收集,存储和筛选数据变得越发困难。去年十月,IDC重申了先前发布的研究,这项研究预测世界范围内每年创造的数据量会从2014年的4.4泽字节增长至2020年的44泽字节(4400吉字节),每年以40%的惊人增长率在增长。

就在几年前,这种级别的数字可能还是遥不可及的。很少有人知道拍字节这个词,更别说是泽字节了。请注意,从拍字节到泽字节我们跳过了艾字节。尧字节(10亿太字节)可能也为时不远了。

Weather Underground(最近由IBM收购的Weather Channel的一项数字资产)会在每15分钟从超过180000个站点收集美国的天气读数。这会每天产生100GB的数据,并实时进行传输和分析。

很可能你所在的企业与Weather Underground完全不同。对大多数人来说,真正用于传输和基于云的周期性分析所收集的数据比例是相当低的。John Bates是Adobe Analytics团队产品经理,他估计Adobe客户当前的数据访问率平均小于2%。Mike O’Rourke是IBM的业务分析副总,他认为对于他们公司的客户来说,该数据并没有那么高:“根据相关数据判断,这一比率完全小于1%。”

是因为这些企业撒网太广,还是因为它们将数据保存太久而不进行聚合和清除,或者是持续购买更多的存储空间的缘故?这要视情况而定。如果你正研究跨度近70年的心血管研究数据,那么保存好每一个字节都是至关重要的。但是在迪斯科盛行的1970年代,公司鞋子的日常销售数据就并不那么重要了。什么样的数据可以忽略可能是你需要做出的最重要的判断。

另一个挑战就是要确保提交用于分析的数据不会延迟。虽然Apache Spark作为一款分析处理器正日渐流行,但是它底层引擎微批处理传入的数据会导致高延时。如果你正在分析喷气发动机的性能或是尝试去击败其他股票交易人的交易,这样的延时性能可能就不够理想。Forrester Research 的分析师Mike Gualtieri说:“如果你不会或不能对数据做出即时响应,那么时间就这样溜走,然后窗口关闭,价值也随之减少。”Apache Flink是非常新的产品,大多数人对它并不熟悉,它是一款真正有着非常低延时的流引擎。

分析的范围远远超过了商业事务或是物联网传感器事件。Temple University的2015 Analytics Challenge(2015分析挑战赛)要求参赛者解决三个宽范围问题中的一个,问题涉及检查一款埃博拉病毒疫苗是否能够改变世界卫生状态;电视联盟和数字技术是否能够增加销售;一项关于随着典型客户年龄和门票销售的下降,哪些才是文化机构最忠实观众的研究。包括Campbell’s,Lockheed Martin,Merck,QVC和Walmart这些主要的大公司已经签署成为Temple的Institute for Business and Information Technology的成员。会员的福利之一包括对挑战赛的影响。在2015年,Merck感受到了这种裨益,埃博拉病毒的问题涉及到这家公司,而QVC则为电视和数字技术的挑战赛提供了数据。

很明显,流分析的流行度正在增长,技术正在发展,应用程序仅受限于我们的想象力,对分析人才的需求前所未有的高涨,而且高等院校也正加快步伐解决短板。这一切都令人兴奋。

本文节选自《数据价值》2016年6月刊·物联网发展的尴尬境况

作者

Joel Shore
Joel Shore

新闻作者

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐