数据处理哪家强?MapR Streams成新宠

日期: 2016-02-14 作者:Jack Vaughan翻译:张亮亮 来源:TechTarget中国 英文

随着大数据的发展日趋显著,新的数据管道工具也正接踵而来以应对这一浪潮,而最新的数据显示,这些工具使用的是MapR Technologies 公司的MapR Streams。该公司声称此软件可以每秒转发数十亿事件。 虽然在Kafka和MapR Streams间存在不同,但是,MapR软件会将其高可用性和数据恢复特性的品牌包含在内。同时,该公司表示,对于那些运行在Hadoop数据框架的MapR发行版之上的数据管道来说,MapR Streams可以作为其一部分紧密集成,这目前称之为MapR Converged Data Platform。

在Apache Hadoop生态系统软件的分类中,用于处理流……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

随着大数据的发展日趋显著,新的数据管道工具也正接踵而来以应对这一浪潮,而最新的数据显示,这些工具使用的是MapR Technologies 公司的MapR Streams。该公司声称此软件可以每秒转发数十亿事件。

虽然在Kafka和MapR Streams间存在不同,但是,MapR软件会将其高可用性和数据恢复特性的品牌包含在内。同时,该公司表示,对于那些运行在Hadoop数据框架的MapR发行版之上的数据管道来说,MapR Streams可以作为其一部分紧密集成,这目前称之为MapR Converged Data Platform。

在Apache Hadoop生态系统软件的分类中,用于处理流数据的有Apache Storm,Apache Flink,Apache Spark和Apache NiFi。诸如Kafka和MapR Streams之类的消息队列可以为这些工具提供数据。

MapR声称MapR Streams可以和Spark,Storm以及Flink协同工作。但是,尽管它与Kafka共享开发者API,但它对于Kafka的发明人本身来说并非开源软件,此人在社交媒体公司Linkedln工作时发明了该系统,随后便成立了Confluent并基于Kafka核心在上个月发布了它的第一款商业产品。

数据多样性和速度

Valence Health是位于伊利诺伊州芝加哥的MapR平台用户,它看到了MapR在有效性、数据管道工具上的价值,而不仅仅是用于快速数据处理。该公司大约是在一年前使用MapR的Hadoop发行版来处理大量与病患健康记录,免疫接种,药房盈利以及其他数据类型的。

Dan Blake是Valence Health的CTO,他说来自于数据多样性方面的挑战与来自速度方面的挑战不相上下。“我们想将所有的[数据元素]写在一起,这样一来所有事情就会自然而然地贯穿其中,”他说。

Blake说他的团队一直致力于改进数据攫取过程,他们青睐于Kafka,而且“会对MapR进行评估。”有着30多年技术经验的老手非常重视MapR对于Kafka APIs的使用,以及其与Converged Data Platform的整合计划。该方案要求在相同的Hadoop集群上处理多个工作负载的消息和流过程。

流和集群

MapR已经在新软件上采用了该方案,并将该方案应用在了Hadoop Distributed File System上,如此一来,它为高可用性的企业级运作带来了核心开源软件并进行了个性化定制。该公司指出,MapR Streams可以直接在Hadoop集群上进行安装。

分析师Robin Bloor强调说MapR Streams为大数据场景带来了一个新型的基础设施,因为它可以支持任何集群上的流。如今Kafka常常被单独用在像这样的数据处理上,这要求进行单独的配置,他说。

“你可以在Kafka中做同样的事,但是MapR Streams的配置则更加简洁,”他继续说。“它们允许你在任何MapR Hadoop集群上使用流。”

Bloor是The Bloor Group的首席分析师,他说MapR已经“在文件系统的基础上找准了自己的位置。”他说这样可以让MapR用户更好的实现λ架构。还有计划使用相同的数据管道来支持批量分析和实施操作。

大数据冲击将会持续

近年来,大数据处理程序已经转变为处理那些很大程度上由移动端,网络和云计算数据驱动的数据膨胀。据Cisco的Global Cloud Index估计,在直到2019年数据中心流量的全球增长达到25%(CAGR)的背景下,这一情形还会持续。

在大数据的冲击下,一系列新的数据处理和流框架应运而生。随着MapR这类产品的出现,似乎为流转化器提供数据的消息系统也会随之改变。

尽管如此,还是有一些需要注意的地方。Dan Blake是一名资深技术专家,他已经看到很多新技术的出现。他说,“任何时候都会有更好的技术存在。”

但是,他补充说,通常来说,很多这些新技术中多少会有些利用价值。“至少它们为讨论提供了更多的选项,”他说。

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐