Hadoop发行版:要多少是多?

日期: 2013-03-14 作者:Jack Vaughan翻译:孙瑞 来源:TechTarget中国 英文

Hadoop在大数据生态系统中到底有多火?看看近期IT厂商的动作就能略知一二。在三月初,EMC公司与Intel公司分别在全球范围内发布了自己的商业Hadoop发行版。对于IT巨头纷纷“抢滩”大数据的行动,人们不禁要问:我们究竟需要多少Hadoop发行版?

  在EMC公司发布Pivotal HD Apache Hadoop发行版仅仅一天之后,Intel也宣布其Apache Hadoop发行版在全球范围内GA。EMC宣称他们的Pivotal HD是“业界最强大的Hadoop发行版”,而Intel当然也不示弱,把他们的Hadoop产品描述为“业界最领先,最安全”。从各个方面来看,Hadoop领域已经积累了太多的厂商,竞争也将空前激烈。

  “这就像是15年前的Unix之争,”分析师Philip Howard回忆起最初Unix版本百花齐放的场景:“Unix衍生出Linux,但是最终人们的选择还是那一两家。”

  了解Apache Hadoop

  Hadoop分布式文件系统(HDFS)是各个Hadoop发行版的核心组件,脱胎于Yahoo的研究项目。同时Yahoo还让Hadoop成为了Apache Foundation的一员。

  Hadoop并不完全是孤立的解决方案,它由许多不同的技术组成,其中包括Pig过程编程工具、Hive查询工具、HBase NoSQL数据库等。企业可以根据自身的需求来进行选择,不断完善自己的Hadoop系统。事实上,Hadoop发行版通常并不是完全商业化的私有产品,而是开源与闭源的整合。

  目前主流的Hadoop发行版提供商包括了ClouderaHortonworks,后者由Yahoo团队独立出来,目前提供了Hortonworks Data Platform产品。这两家公司为Hadoop技术的发展与普及做出了极大的贡献,他们都深入影响着Apache Hadoop开源项目。此外,Apache软件基金会的网站中还详细列出了超过20个围绕开源Hadoop的软件包。

  芯片级别的Hadoop发行版

  作为全球最大的芯片制造商,Intel强势进入Hadoop领域多少让人有些意外,然而以硬件见长的Intel之所以成功,就是他们从不打无准备之仗。据了解,早在2009年就开始其Hadoop发行版的研发工作,直到去年其Hadoop软件包才在中国地区开始销售,而如今已经在全球范围内GA了。

  出单纯的软件设计之外,Intel还在其所擅长的领域做出了努力,即对Xeon硬件网络和I/O功能进行了全面的优化,从而能够更好地支持他们的Hadoop发行版。在发布会上,Intel发言人表示运行在Xeon处理器上的Hadoop发行版能够最大程度上地提升性能,从前1 TB数据的分析工作也可以从4小时减少到7分钟。

  同时,Intel的Hadoop发行版还支持芯片级别的加密功能。据了解,Intel的Hadoop发行版中大多数组件是完全开源的,只有其中的管理软件属于Intel私有。

  反观EMC,其Hadoop发行版的出现伴随着公司的重组与转型。EMC重新整合了它的云计算、数据仓库和软件开发资源,成立了新的品牌“Pivotal”,并由前VMware掌门人Paul Maritz全权负责。

  虽然EMC还没有给出太多关于Pivotal HD的技术细节,但我们可以看出它的核心源自EMC Greenplum长期以来的一个项目——HAWQ,能够以原生态的方式,将管道化的传统数据库集成到Hadoop当中去。然而纵观整个业界,SQL与Hadoop的结合已经并不是什么新鲜的课题。

  通过整合Greenplum数据库,Pivotal HD向业务用户打开了大数据分析之门。但分析师提醒,EMC的Hadoop发行版显然只是针对自身的Greenplum数据库进行了优化,而是用其他外部数据库产品的用户则无法获得这一优势。

  而作为Hadoop的进阶版本,Hadoop 2.0也在不断走向成熟。当然这也给数据管理人员提出了新的课题,他们需要不断学习新技术新产品。相比于1.0版本,Hadoop 2.0通过一个故障转移“命名”节点,完善了高可用性选项。也有一些发行商开始逐渐在各自的版本中添加一些Hadoop 2.0的元素,而大部分厂商则“按兵不动”。

  Hadoop 2.0通过新的文件加密功能提升了安全性保障。除此之外,YARN(Yet Another Resource Negotiator)还提供了新的框架,比之前的MapReduce拥有更好的适用性。

  很明显,理解Hadoop生态系统并不是一朝一夕的事,而是需要持续不断地学习。对于Hadoop自身来说,“多多益善”的趋势还是会走下去。随着大数据的普及,在未来我们也还会看到更多更好的技术涌现出来。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

孙瑞
孙瑞

相关推荐

  • 传统IT和新IT并行推进 EMC两条腿走路助力企业数字化转型

    EMC在北京举行“中国业务发展暨数字化转型趋势交流会”。新任EMC大中华区总裁谭仲良率领新团队正式亮相,就客户、合作伙伴关心的市场趋势、EMC 中国未来的发展以及措施,与在场媒体及直播观众进行交流。

  • 戴尔收购EMC是对云破坏的一种反击?

    戴尔,如同很多传统企业一样,在云世界中挣扎。传统硬件厂商都举步维艰。多数公司视图减少数据中心的足迹,开始将工作负载迁移到云上。

  • 戴尔要卖掉EMC的Documentum?

    为了完成对EMC的收购,戴尔可能将EMC的Documentum卖掉。EMC自己想摆脱Documentum有些年头了,只是没有一个合适的价格甩出去。

  • EMC World 2015:赛车场上的大数据

    让人意想不到的是,约翰辉煌成绩的背后,竟然有传感器技术和大数据分析的身影。在现在正在美国举行的EMC世界大会(EMC World 2015)上,约翰分享了他的经验。