虽然大数据仍然没有明确的定义,但是至少我们可以把它分为两个类别——静止的大数据和活跃的大数据。
高容量、多样化和高速率的数据一直被视为大数据的特征,但是速率为静止大数据和活跃大数据的区分带来了特殊的挑战。
Gartner副总裁Roy Schulte指出:“活跃的大数据即流动的数据。关于静止的大数据,存储时会存在与持续分析相对的疑问。”
静止的大数据与传统数据仓库类似,即便数据(尤其是非结构化数据)的数量日益增长,但通过使用非关系型数据库技术(而不是传统关系型数据库)还是有可能将其“制服”。静止的大数据和数据仓库都注重于BI分析应用的需求。
然而,活跃的大数据更像是事件处理架构,注重于实时的运营智能应用,常作为社交媒体监控、传感器网络和网络应用用于华尔街的交易和欺诈识别。
在这些操作应用中,为了填满空缺的Hadoop和MapReduce大数据存储区,数据架构不得不与一系列高级中间件架构部件竞争,包括内存数据网格、复杂的事件处理器和流数据库等。
与传统数据仓库相比,Hadoop框架提供了改进后的分布式处理方式,不过却只能对数据进行批量处理,导致令人无法接受的延迟的产生。Schulte说:“一般来讲,当你引入数据、规划数据和缩减数据的时候,都需要时间。如果你引入的是全新的数据,在你提出第一个问题之前大概需要5到10分钟之久。如果所需的回复时间是毫秒、几秒或者是一分钟,Hadoop将无法胜任。”
活跃的大数据解决延迟性问题
你们有没有在大数据实施过程中遇到过活跃数据的问题?
怎样识别呢?LinkedIn首席主管工程师Jay Krebs提到:“活跃数据的问题很有可能会出现在延迟性中,一般人们不会每天关注。”对于某些操作应用,这一延迟性问题的出现是由于对答案快速的需求,这个时候分析引擎需要在查询前植入一整个数据集。
为达到实时,组织需要各种软件类型,包括事件处理引擎、快速信息系统和Hadoop分析工具等。同时,用户需要支持按日处理工作的报表系统,对延迟性又有不一样的要求。
Krebs还是Apache基金会中Kafka项目的committer。Kafka是一个分布式信息系统,与确定的数据仓库工具相比,级别相对较低,但能够以毫秒的速度实时和线下处理按日以记的工作。
大数据走向实时
可促生高速大数据馈送的架构软件十分多样化。类似Kafka信息系统这样的程序包在Flume集成框架中还有其他的开源系统,以植入Hadoop、AMQP信息系统和RabbitMQ。在厂商方面,IBM、Informatica、Real-Time Innovations Inc.、Red Hat Inc.、Solace Systems Inc.、Streambase、Terracotta、Tervela Inc.、Tibco Software Inc.和Vitria提供了各种低延迟性或者流软件工具。
一些用于活跃大数据的软件工具来源于华尔街交易市场。Tervela的创始人兼CTO Barry Thompson说道:“其实我们拥有大数据已经很长时间,只是没有意识到而已。”Tervela创建了一个数据织体或智能网格,以迁移数据;公司的Turbo数据织体从多种源收集并传输数据。2012年12月,该软件获得认证,与Cloudera Hadoop技术共同使用。
“载入Hadoop是一个挑战,也是一个瓶颈。如果你不介意丢失几篇日志文档还好说,但在华尔街,丢失现金流分析中的一个百分点可不得了。”Thompson和其他专家一样,都看到了Hadoop在操作应用中的问题。“现在,大部分大数据都在以小时或天计算;如果华尔街也这么计算,早就闹翻天了。”金融世界讲究的是非同一般的速度。
Tibco CEO Vivek Ranadive表示,企业在寻求实时大数据解决方法的同时,架构需求也随之改变。Tibco最近刚刚跨过了十亿大关的年营业额。Ranadive将事件处理器和极速信息系统归为被称为“快速大数据”中的重要架构元素。
无论你是一家银行还是一个球队,每家企业都以社交网络的视角重新定义业务。对于运营BI来讲,目标在于超前传输数据。Ranadive特别强调:“钱都飞了才发现诈骗有什么用!”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]