Storm on YARN:通往企业级Hadoop

日期: 2013-09-08 作者:Jack Vaughan翻译:孙瑞 来源:TechTarget中国 英文

作为Hadoop生态系统当中冉冉升起的明星,Storm on YARN被视为大规模Web应用与传统企业应用之间的桥梁。

Storm on Yarn由雅虎研发,并在近期开放了源代码。它将Storm事件处理平台与YARN(Yet Another Resource Negotiator)应用管理框架进行了组合,为此前进行批处理的Hadoop应用提供了低延迟的处理能力。

这一组合对支持大规模应用有着不错的潜力,然而对目前许多企业来说,Storm on Yarn只是一个不错的选择,而非必需品。

即便对于“顽固分子”来说,如今Hadoop相关项目的开销也是非常大的。而对于许多企业IT部门来说,使用任何新的Hadoop组件都意味着需要进行大量的知识储备。

业界在解决大数据问题上的热情是毋庸置疑的,许多组织在设计新的开源软件来处理大数据。然而Hadoop生态系统的蓬勃发展让不少企业越来越踯躇不前,等待更成熟的时机来接触新的技术。毕竟Hadoop的方方面面需要更专业化的Java技能,这在传统的企业数据仓库团队中并不多见。

Hadoop/NoSQL增长预期

大量互联网背景的公司不缺这方面的人才,他们是Hadoop早期发展的主要推动力。目前Hadoop技术的关注焦点已经从这些公司开始转移到传统企业,但真正的普及还尚需时日。

根据分析调查机构Wikibon的预期,目前企业对Hadoop和相关的NoSQL数据库技术的需求非常可观,但技术人才与知识储备的缺乏将会使发展步伐放缓。

Wikibon预计未来五年内,Hadoop/NoSQL市场软件和服务规模的复合年增长率将达到45%。也就是说到2017年,Hadoop市场将达到35亿美元的规模,而目前只有5.4亿美元。

Wikibon首席大数据分析师Jeff Kelly认为,由于缺乏训练有素的管理员和开发人员,许多企业不得不选择商业化的Hadoop和NoSQL产品,比如Cloudera或MongoDB(10gen)。

Hadoop急先锋:雅虎

Hadoop的话语权主要掌握在大型互联网公司手中,比如雅虎。雅虎公司一直处在Hadoop第一阵线,同时也在长时间的发展当中总结出一系列问题。

雅虎公司平台副总裁Bruno Fernandez-Ruiz表示,他们发现Hadoop在处理海量数据时的速度还不够快。Hadoop和MapReduce的速度无法满足用户事件,比如电子邮件、PV或搜索等,与可用的在线广告之间的快速匹配。

“MapReduce计算的问题在于批处理窗口。事件进来都是在做批量处理任务,这需要跑上两三个小时。” Fernandez-Ruiz说。

对于一些任务来说,这还算ok。但是当任务完成时,网站已经获得了更多信息。雅虎的技术人员出于某种考虑,认为有必要以不间断的流方式处理数据。

所以Storm on YARN就应运而生了。当MapReduce批处理应对长时间运行的任务时,Storm则用来处理那些低延迟的事件。在MapReduce运行尾声时,添加Storm能够得到访问用户行为的更完整视图。

Fernandez-Ruiz介绍,雅虎每天要处理数十亿的事件,目前Hadoop已经存储了365 PB的数据,包括33万个YARN节点。这样的规模你在传统企业中是无法想象的。Fernandez-Ruiz也知道这一点,但是他认为这些企业未来也会走同样的路,就像“遵循我们父辈的足迹”一样。

像雅虎、谷歌或者eBay这样的大型互联网公司,在Hadoop的应用方面都走得十分靠前。想在传统企业当中复制他们的成功并不容易,但我们也能看到有许多企业在努力效仿。总之,Hadoop在传统IT部门的普及才是真正走向主流的标志。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

孙瑞
孙瑞

相关推荐