“活跃大数据”的用武之地

日期: 2013-01-13 作者:Jack Vaughan翻译:茶一峰 来源:TechTarget中国 英文

虽然大数据仍然没有明确的定义,但是至少我们可以把它分为两个类别——静止的大数据和活跃的大数据。

  高容量、多样化和高速率的数据一直被视为大数据的特征,但是速率为静止大数据和活跃大数据的区分带来了特殊的挑战。

  Gartner副总裁Roy Schulte指出:“活跃的大数据即流动的数据。关于静止的大数据,存储时会存在与持续分析相对的疑问。”

  静止的大数据与传统数据仓库类似,即便数据(尤其是非结构化数据)的数量日益增长,但通过使用非关系型数据库技术(而不是传统关系型数据库)还是有可能将其“制服”。静止的大数据和数据仓库都注重于BI分析应用的需求。

  然而,活跃的大数据更像是事件处理架构,注重于实时的运营智能应用,常作为社交媒体监控、传感器网络和网络应用用于华尔街的交易和欺诈识别。

  在这些操作应用中,为了填满空缺的Hadoop和MapReduce大数据存储区,数据架构不得不与一系列高级中间件架构部件竞争,包括内存数据网格、复杂的事件处理器和流数据库等。

  与传统数据仓库相比,Hadoop框架提供了改进后的分布式处理方式,不过却只能对数据进行批量处理,导致令人无法接受的延迟的产生。Schulte说:“一般来讲,当你引入数据、规划数据和缩减数据的时候,都需要时间。如果你引入的是全新的数据,在你提出第一个问题之前大概需要5到10分钟之久。如果所需的回复时间是毫秒、几秒或者是一分钟,Hadoop将无法胜任。”

  活跃的大数据解决延迟性问题

  你们有没有在大数据实施过程中遇到过活跃数据的问题?

  怎样识别呢?LinkedIn首席主管工程师Jay Krebs提到:“活跃数据的问题很有可能会出现在延迟性中,一般人们不会每天关注。”对于某些操作应用,这一延迟性问题的出现是由于对答案快速的需求,这个时候分析引擎需要在查询前植入一整个数据集。

  为达到实时,组织需要各种软件类型,包括事件处理引擎、快速信息系统和Hadoop分析工具等。同时,用户需要支持按日处理工作的报表系统,对延迟性又有不一样的要求。

  Krebs还是Apache基金会中Kafka项目的committer。Kafka是一个分布式信息系统,与确定的数据仓库工具相比,级别相对较低,但能够以毫秒的速度实时和线下处理按日以记的工作。

  大数据走向实时

  可促生高速大数据馈送的架构软件十分多样化。类似Kafka信息系统这样的程序包在Flume集成框架中还有其他的开源系统,以植入Hadoop、AMQP信息系统和RabbitMQ。在厂商方面,IBM、Informatica、Real-Time Innovations Inc.、Red Hat Inc.、Solace Systems Inc.、Streambase、Terracotta、Tervela Inc.、Tibco Software Inc.和Vitria提供了各种低延迟性或者流软件工具。

  一些用于活跃大数据的软件工具来源于华尔街交易市场。Tervela的创始人兼CTO Barry Thompson说道:“其实我们拥有大数据已经很长时间,只是没有意识到而已。”Tervela创建了一个数据织体或智能网格,以迁移数据;公司的Turbo数据织体从多种源收集并传输数据。2012年12月,该软件获得认证,与Cloudera Hadoop技术共同使用。

  “载入Hadoop是一个挑战,也是一个瓶颈。如果你不介意丢失几篇日志文档还好说,但在华尔街,丢失现金流分析中的一个百分点可不得了。”Thompson和其他专家一样,都看到了Hadoop在操作应用中的问题。“现在,大部分大数据都在以小时或天计算;如果华尔街也这么计算,早就闹翻天了。”金融世界讲究的是非同一般的速度。

  Tibco CEO Vivek Ranadive表示,企业在寻求实时大数据解决方法的同时,架构需求也随之改变。Tibco最近刚刚跨过了十亿大关的年营业额。Ranadive将事件处理器和极速信息系统归为被称为“快速大数据”中的重要架构元素。

  无论你是一家银行还是一个球队,每家企业都以社交网络的视角重新定义业务。对于运营BI来讲,目标在于超前传输数据。Ranadive特别强调:“钱都飞了才发现诈骗有什么用!”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐