作为Hadoop生态系统当中冉冉升起的明星,Storm on YARN被视为大规模Web应用与传统企业应用之间的桥梁。
Storm on Yarn由雅虎研发,并在近期开放了源代码。它将Storm事件处理平台与YARN(Yet Another Resource Negotiator)应用管理框架进行了组合,为此前进行批处理的Hadoop应用提供了低延迟的处理能力。
这一组合对支持大规模应用有着不错的潜力,然而对目前许多企业来说,Storm on Yarn只是一个不错的选择,而非必需品。
即便对于“顽固分子”来说,如今Hadoop相关项目的开销也是非常大的。而对于许多企业IT部门来说,使用任何新的Hadoop组件都意味着需要进行大量的知识储备。
业界在解决大数据问题上的热情是毋庸置疑的,许多组织在设计新的开源软件来处理大数据。然而Hadoop生态系统的蓬勃发展让不少企业越来越踯躇不前,等待更成熟的时机来接触新的技术。毕竟Hadoop的方方面面需要更专业化的Java技能,这在传统的企业数据仓库团队中并不多见。
Hadoop/NoSQL增长预期
大量互联网背景的公司不缺这方面的人才,他们是Hadoop早期发展的主要推动力。目前Hadoop技术的关注焦点已经从这些公司开始转移到传统企业,但真正的普及还尚需时日。
根据分析调查机构Wikibon的预期,目前企业对Hadoop和相关的NoSQL数据库技术的需求非常可观,但技术人才与知识储备的缺乏将会使发展步伐放缓。
Wikibon预计未来五年内,Hadoop/NoSQL市场软件和服务规模的复合年增长率将达到45%。也就是说到2017年,Hadoop市场将达到35亿美元的规模,而目前只有5.4亿美元。
Wikibon首席大数据分析师Jeff Kelly认为,由于缺乏训练有素的管理员和开发人员,许多企业不得不选择商业化的Hadoop和NoSQL产品,比如Cloudera或MongoDB(10gen)。
Hadoop急先锋:雅虎
Hadoop的话语权主要掌握在大型互联网公司手中,比如雅虎。雅虎公司一直处在Hadoop第一阵线,同时也在长时间的发展当中总结出一系列问题。
雅虎公司平台副总裁Bruno Fernandez-Ruiz表示,他们发现Hadoop在处理海量数据时的速度还不够快。Hadoop和MapReduce的速度无法满足用户事件,比如电子邮件、PV或搜索等,与可用的在线广告之间的快速匹配。
“MapReduce计算的问题在于批处理窗口。事件进来都是在做批量处理任务,这需要跑上两三个小时。” Fernandez-Ruiz说。
对于一些任务来说,这还算ok。但是当任务完成时,网站已经获得了更多信息。雅虎的技术人员出于某种考虑,认为有必要以不间断的流方式处理数据。
所以Storm on YARN就应运而生了。当MapReduce批处理应对长时间运行的任务时,Storm则用来处理那些低延迟的事件。在MapReduce运行尾声时,添加Storm能够得到访问用户行为的更完整视图。
Fernandez-Ruiz介绍,雅虎每天要处理数十亿的事件,目前Hadoop已经存储了365 PB的数据,包括33万个YARN节点。这样的规模你在传统企业中是无法想象的。Fernandez-Ruiz也知道这一点,但是他认为这些企业未来也会走同样的路,就像“遵循我们父辈的足迹”一样。
像雅虎、谷歌或者eBay这样的大型互联网公司,在Hadoop的应用方面都走得十分靠前。想在传统企业当中复制他们的成功并不容易,但我们也能看到有许多企业在努力效仿。总之,Hadoop在传统IT部门的普及才是真正走向主流的标志。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。