Storm on YARN：通往企业级Hadoop

作为Hadoop生态系统当中冉冉升起的明星，Storm on YARN被视为大规模Web应用与传统企业应用之间的桥梁。

Storm on Yarn由雅虎研发，并在近期开放了源代码。它将Storm事件处理平台与YARN（Yet Another Resource Negotiator）应用管理框架进行了组合，为此前进行批处理的Hadoop应用提供了低延迟的处理能力。

这一组合对支持大规模应用有着不错的潜力，然而对目前许多企业来说，Storm on Yarn只是一个不错的选择，而非必需品。

即便对于“顽固分子”来说，如今Hadoop相关项目的开销也是非常大的。而对于许多企业IT部门来说，使用任何新的Hadoop组件都意味着需要进行大量的知识储备。

业界在解决大数据问题上的热情是毋庸置疑的，许多组织在设计新的开源软件来处理大数据。然而Hadoop生态系统的蓬勃发展让不少企业越来越踯躇不前，等待更成熟的时机来接触新的技术。毕竟Hadoop的方方面面需要更专业化的Java技能，这在传统的企业数据仓库团队中并不多见。

Hadoop/NoSQL增长预期

大量互联网背景的公司不缺这方面的人才，他们是Hadoop早期发展的主要推动力。目前Hadoop技术的关注焦点已经从这些公司开始转移到传统企业，但真正的普及还尚需时日。

根据分析调查机构Wikibon的预期，目前企业对Hadoop和相关的NoSQL数据库技术的需求非常可观，但技术人才与知识储备的缺乏将会使发展步伐放缓。

Wikibon预计未来五年内，Hadoop/NoSQL市场软件和服务规模的复合年增长率将达到45%。也就是说到2017年，Hadoop市场将达到35亿美元的规模，而目前只有5.4亿美元。

Wikibon首席大数据分析师Jeff Kelly认为，由于缺乏训练有素的管理员和开发人员，许多企业不得不选择商业化的Hadoop和NoSQL产品，比如Cloudera或MongoDB（10gen）。

Hadoop急先锋：雅虎

Hadoop的话语权主要掌握在大型互联网公司手中，比如雅虎。雅虎公司一直处在Hadoop第一阵线，同时也在长时间的发展当中总结出一系列问题。

雅虎公司平台副总裁Bruno Fernandez-Ruiz表示，他们发现Hadoop在处理海量数据时的速度还不够快。Hadoop和MapReduce的速度无法满足用户事件，比如电子邮件、PV或搜索等，与可用的在线广告之间的快速匹配。

“MapReduce计算的问题在于批处理窗口。事件进来都是在做批量处理任务，这需要跑上两三个小时。” Fernandez-Ruiz说。

对于一些任务来说，这还算ok。但是当任务完成时，网站已经获得了更多信息。雅虎的技术人员出于某种考虑，认为有必要以不间断的流方式处理数据。

所以Storm on YARN就应运而生了。当MapReduce批处理应对长时间运行的任务时，Storm则用来处理那些低延迟的事件。在MapReduce运行尾声时，添加Storm能够得到访问用户行为的更完整视图。

Fernandez-Ruiz介绍，雅虎每天要处理数十亿的事件，目前Hadoop已经存储了365 PB的数据，包括33万个YARN节点。这样的规模你在传统企业中是无法想象的。Fernandez-Ruiz也知道这一点，但是他认为这些企业未来也会走同样的路，就像“遵循我们父辈的足迹”一样。

像雅虎、谷歌或者eBay这样的大型互联网公司，在Hadoop的应用方面都走得十分靠前。想在传统企业当中复制他们的成功并不容易，但我们也能看到有许多企业在努力效仿。总之，Hadoop在传统IT部门的普及才是真正走向主流的标志。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

要发表评论，您必须先登录。

TechTarget新闻记者和网站编辑，主要关注数据管理领域的技术趋势和动态。