在开始使用VoltDB的时候,我们很难想象今天会有这么多的快速数据源。从跟我交流过的每一个行业和客户来看,在短短的4年时间里,无论是在细分应用领域还是在全行业,新数据源数量激增已是不争的事实。很多研究都证明了物联网以及移动互联网产生了大量的数据,数据爆炸时代的额来临。比如EMC的数字宇宙研究、Mary Meeker的年度互联网趋势报告、Pew研究所的关于移动互联网的趋势和互联网近25年的影响的研究。
我认为数据爆炸得益于以下几点:处理能力增加,处理器小型化,以及成本也有所下降。这些变化的综合结果是,从我们的手表到冰箱,几乎都具有了处理能力。这就是快数据的例子。
为什么称这样的数据为快数据?有如下两个原因:
1)数以百万的终端节点推送流式数据。
2)数据更新频率的期望为分钟级,秒级更佳。
这些都是机器生成的数据。数据可以用来丰富用户体验,优化用户交互和提升企业洞察力。下一代应用程序能够破除快数据的限制,进而推动快数据的发展。对于传感器应用、日志记录管理或网站交互都是这样。
我将在本系列文章里,通过特定的客户案例来说明这一点。我们一直与一家从事贵重金属开采等固定资产管理的公司保持合作关系。该公司在特定的时间段内都使用传感器对矿井中近十万个设备进行监测。如果他们要寻找一把丢失的铲子,那么报告晚几分钟或几个小时都无所谓。但如果人体身上的传感器监测到心脏跳动停止,即使不要求立刻提示,也要尽快通知。如果我要建立一个系统来管理这些数据,我会让该系统快速的接收数据,而且要做到非常快。
但数据事件并不是孤立存在的。继续上面所说的例子。如果某仪器上的一个传感器获取数据的地点不在它的“授权区”,我不会关心这样的数据。如果某个传感器正要进入修理状态,这个时候采集的数据,我也不关心。在这种情况下,我会对这样的传感器事件进行过滤,使用其他数据辅助我的决策,因为系统中的数据是相互关联、相互依托的。(这是个业内小秘密:我们常称之为“交易”。)
进行计数、聚合、排序等或者实时分析操作后,数据同样拥有很大价值。我认为,对数据进行实时分析通常处于两种目的。
工作人员想从仪表盘了解矿井的实时状况,如多少传感器正在工作,多少传感器处于工作范围之外,总体使用率为多少等等类似的情况。
另外一类是实时分析应用于自动决策处理。比如说,如果某个工人身体上的传感器传出的信息表示某一时刻环境含氧量变低,这可能是传感器的异常反应。但是,如果系统监测到在过去5分钟之内同一区域内6个工人周围环境的含氧量都突然降低,那么这就是一个需要立即关注的紧急事件。
矿井的固定资产管理是快速数据应用于真实场景的一个实例,它告诉我们要管理快数据,需要什么样的系统。不过这只是一个例子。DDoS检测、日志文件管理、广告投放优化等也有各自对应的模式。
- 快速接入数据,以提供访问。
- 尽快处理数据,根据每个事件进行决策,以最大化利用事件价值。
- 对数据进行实时分析,以支持自动决策和易读的仪表盘。
如果你做到了这三点,就可以说真正利用了快数据,而且还让数据的应用更加智能。
企业数据架构建设需要直面快速数据,并能在新架构下的深度分析中获得所需的结果。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]