Hadoop在大数据生态系统中到底有多火?看看近期IT厂商的动作就能略知一二。在三月初,EMC公司与Intel公司分别在全球范围内发布了自己的商业Hadoop发行版。对于IT巨头纷纷“抢滩”大数据的行动,人们不禁要问:我们究竟需要多少Hadoop发行版?
在EMC公司发布Pivotal HD Apache Hadoop发行版仅仅一天之后,Intel也宣布其Apache Hadoop发行版在全球范围内GA。EMC宣称他们的Pivotal HD是“业界最强大的Hadoop发行版”,而Intel当然也不示弱,把他们的Hadoop产品描述为“业界最领先,最安全”。从各个方面来看,Hadoop领域已经积累了太多的厂商,竞争也将空前激烈。
“这就像是15年前的Unix之争,”分析师Philip Howard回忆起最初Unix版本百花齐放的场景:“Unix衍生出Linux,但是最终人们的选择还是那一两家。”
了解Apache Hadoop
Hadoop分布式文件系统(HDFS)是各个Hadoop发行版的核心组件,脱胎于Yahoo的研究项目。同时Yahoo还让Hadoop成为了Apache Foundation的一员。
Hadoop并不完全是孤立的解决方案,它由许多不同的技术组成,其中包括Pig过程编程工具、Hive查询工具、HBase NoSQL数据库等。企业可以根据自身的需求来进行选择,不断完善自己的Hadoop系统。事实上,Hadoop发行版通常并不是完全商业化的私有产品,而是开源与闭源的整合。
目前主流的Hadoop发行版提供商包括了Cloudera和Hortonworks,后者由Yahoo团队独立出来,目前提供了Hortonworks Data Platform产品。这两家公司为Hadoop技术的发展与普及做出了极大的贡献,他们都深入影响着Apache Hadoop开源项目。此外,Apache软件基金会的网站中还详细列出了超过20个围绕开源Hadoop的软件包。
芯片级别的Hadoop发行版
作为全球最大的芯片制造商,Intel强势进入Hadoop领域多少让人有些意外,然而以硬件见长的Intel之所以成功,就是他们从不打无准备之仗。据了解,早在2009年就开始其Hadoop发行版的研发工作,直到去年其Hadoop软件包才在中国地区开始销售,而如今已经在全球范围内GA了。
出单纯的软件设计之外,Intel还在其所擅长的领域做出了努力,即对Xeon硬件网络和I/O功能进行了全面的优化,从而能够更好地支持他们的Hadoop发行版。在发布会上,Intel发言人表示运行在Xeon处理器上的Hadoop发行版能够最大程度上地提升性能,从前1 TB数据的分析工作也可以从4小时减少到7分钟。
同时,Intel的Hadoop发行版还支持芯片级别的加密功能。据了解,Intel的Hadoop发行版中大多数组件是完全开源的,只有其中的管理软件属于Intel私有。
反观EMC,其Hadoop发行版的出现伴随着公司的重组与转型。EMC重新整合了它的云计算、数据仓库和软件开发资源,成立了新的品牌“Pivotal”,并由前VMware掌门人Paul Maritz全权负责。
虽然EMC还没有给出太多关于Pivotal HD的技术细节,但我们可以看出它的核心源自EMC Greenplum长期以来的一个项目——HAWQ,能够以原生态的方式,将管道化的传统数据库集成到Hadoop当中去。然而纵观整个业界,SQL与Hadoop的结合已经并不是什么新鲜的课题。
通过整合Greenplum数据库,Pivotal HD向业务用户打开了大数据分析之门。但分析师提醒,EMC的Hadoop发行版显然只是针对自身的Greenplum数据库进行了优化,而是用其他外部数据库产品的用户则无法获得这一优势。
而作为Hadoop的进阶版本,Hadoop 2.0也在不断走向成熟。当然这也给数据管理人员提出了新的课题,他们需要不断学习新技术新产品。相比于1.0版本,Hadoop 2.0通过一个故障转移“命名”节点,完善了高可用性选项。也有一些发行商开始逐渐在各自的版本中添加一些Hadoop 2.0的元素,而大部分厂商则“按兵不动”。
Hadoop 2.0通过新的文件加密功能提升了安全性保障。除此之外,YARN(Yet Another Resource Negotiator)还提供了新的框架,比之前的MapReduce拥有更好的适用性。
很明显,理解Hadoop生态系统并不是一朝一夕的事,而是需要持续不断地学习。对于Hadoop自身来说,“多多益善”的趋势还是会走下去。随着大数据的普及,在未来我们也还会看到更多更好的技术涌现出来。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
传统IT和新IT并行推进 EMC两条腿走路助力企业数字化转型
EMC在北京举行“中国业务发展暨数字化转型趋势交流会”。新任EMC大中华区总裁谭仲良率领新团队正式亮相,就客户、合作伙伴关心的市场趋势、EMC 中国未来的发展以及措施,与在场媒体及直播观众进行交流。
-
戴尔收购EMC是对云破坏的一种反击?
戴尔,如同很多传统企业一样,在云世界中挣扎。传统硬件厂商都举步维艰。多数公司视图减少数据中心的足迹,开始将工作负载迁移到云上。
-
戴尔要卖掉EMC的Documentum?
为了完成对EMC的收购,戴尔可能将EMC的Documentum卖掉。EMC自己想摆脱Documentum有些年头了,只是没有一个合适的价格甩出去。
-
EMC World 2015:赛车场上的大数据
让人意想不到的是,约翰辉煌成绩的背后,竟然有传感器技术和大数据分析的身影。在现在正在美国举行的EMC世界大会(EMC World 2015)上,约翰分享了他的经验。