和大多数软件的2.0版本一样,Apache Hadoop 2可能是这个开源分布式处理框架的一个重要飞跃。第一个版本的Hadoop的应用在不断地增长,这主要体现在两个方面:处理大量非结构化数据和作为信息的暂存区。但是,用户也发现了它的一些严重局限性。
Hadoop 2(原先称为Hadoop 2.0)在架构上作了几个重大改进,其中最重要的是支持使用非MapReduce编程模型创建的非批处理应用。此外,它还支持Hadoop分布式文件系统操作的联合和冗余HDFS NameNodes的配置,目的是增加可扩展性和消除原始设计的单点故障源。在很大程度上,Hadoop 2将会扩大这项技术的企业应用范围。
用户肯定会对Hadoop的这次升级有很多疑问。下面列出了在评估Hadoop 2集群部署时可能遇到的问题与解答。
什么时候开始使用Hadoop 2?
在从2012年5月以来发布的一系列内部测试(alpha)版本,以及去年8月与9月的两个测试版本之后,Apache软件基金会在2013年10月正式宣布了Hadoop 2的GA。除了可下载的社区版,Hadoop商业发行版提供商随后也为客户提供了新版本软件。但是,和所有开源软件一样,Bug报告与修复仍然在Hadoop的日常更新列表上。所以,一定要关注它存在的这些问题。对于大部分企业来说,上Hadoop 2还为时尚早。
YARN是什么?
美国西雅图Infocentric公司的独立咨询师及Data Warehousing Institute创始人Dave Wells指出:“从开始到现在,Hadoop一直都处于学习改进过程。它更多是补丁组合,而不是全新的设计和结构。”在Hadoop 2中,一些问题补丁开始减少——而出现这种情况的最重要原因是有了一个软件层,即YARN。
Hadoop 1.x最令人诟病的是它面向批处理的格式只能用在交互式迭代分析中,它将HDFS与MapReduce并行编程模型耦合在一起,因此这种技术不太可能用于实时操作中。Hadoop 2改变了这个情况,而最主要的原因是引入了YARN。
虽然YARN的名字有一些低调——即Yet Another Resource Negotiator的缩写,但是它的影响巨大。这是一个全新开发的集群资源管理器,它让Hadoop不再依赖于MapReduce及其批处理格式。YARN采用的方法是将之前由MapReduce执行的资源管理与作业调度功能从Hadoop数据处理层分离。结果,MapReduce变成只是在Hadoop集群中YARN之上的诸多处理引擎之一。
事实上,根据Think Big Analytics 的首席咨询师Douglas Moore的观点,YARN为其他编程框架和新型应用程序打开了方便之门。Hadoop一直像一辆满载货物的货运火车,Hadoop 2也能够支持其他编程方法,从而让它“变得像兰博基尼一样快速地在赛场上驰骋。”
Hadoop 2中HDFS高可用性和联邦(federation)是什么样的?
从一开始,作为并行处理平台的Hadoop就有一些大问题。集群都依赖于一个命名空间服务器——NameNode;它在HDFS中维护着一个目录树,并且跟踪集群数据的存储位置,从而能够在需要时查询到这些信息。这样就可以在集群中创建一个单点控制点,因此当NameNode出现问题时,就可能引发大麻烦。此外,它也束缚了用户扩展集群和纵向提升性能的能力。
这些问题促使HDFS开发新的高可用性和联邦特性。现在可以配置成对的冗余NameNodes,在激活的节点崩溃或需要执行维护工作时提供一个备份节点。而且,独立的NameNodes共享一个数据存储池,它们可以根据需要增加,用Moore的话说就是:“分散处理。”
内存数据网格供应商ScaleOut Software的CEO William Bain指出,新功能需求有很多。他补充说:“在任何分布式环境中,存在单点故障都是不可接受的。HDFS联邦和高可用性特性是不断提高大型数据池处理能力的基础。联邦模式是将Hadoop数据处理容量提高到“PB级”的重要条件。
Hadoop 2发布是否意味着Hadoop成为一个达到企业应用水平的成熟技术?
结束对于MapReduce的依赖和引入HDFS联邦与高可用性是Hadoop走向成熟的重要标志。此外,这项技术现在支持Windows,以及用于备份和灾难恢复的实时数据快照。但是,它现在仍然是一个复杂的平台,特别是考虑到它所具备的开放性——及其对于多样性生态系统的依赖,这个系统需要提供各种工具来满足应用程序需求。创建基于Hadoop的环境通常需要一些集成工具。Hadoop是数据架构持续变化的中心话题,并且会在未来一段时间内主宰下一代数据架构。
Doug Cutting在雅虎工作期间参与发明了Hadoop,现在他是Hadoop供应商Cloudera 公司的首席架构师。他指出,Hadoop 2的发布确实反映了近几年来人们对于框架的看法已经发生变化。
Cutting在电子邮件中指出:“在2009年,当0.20版本发布时,大多数人认为Hadoop只是一个不错的工具。它的主要作用是提供一个MapReduce引擎,让企业能够使用可扩展且可靠的批处理计算能力。Hadoop现在可以支持更加广泛的工作负载了。”
然而,即使发布了Hadoop 2版本,Hadoop仍然是一种新技术,潜在用户还需要自己权衡它承诺的功能与可能的风险。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]