Hadoop越长大越孤单:日趋强大却易用性不足

日期: 2014-10-26 作者:MATT ASAY翻译:郭文超 来源:TechTarget中国 英文

现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。

显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。 Hadoop:方兴未艾 从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。

显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。

Hadoop:方兴未艾

从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析师Svetlana Sicular在tweeter中提到:

尽管对Hadoop有很强的兴趣,实际将Hadoop投入使用的公司却有限,451 Research的一项调查表明:

对Hadoop有兴趣使用的很多,真正使用起Hadoop的却不多,这样的不一致归结于Hadoop的复杂性,Pepperdata的首席执行官补充道。还有一部分是因为厂商过分吹嘘当前Hadoop的功能,让企业用户倍感混乱。

但是,Hadoop的一个最大的优点在于:它的灵活性。

Hadoop“百变金刚”

苏斯(Suess)博士在《老雷斯的故事》中描述了一个建立在thneeds之上的工业背景,thneeds是一种“能够满足所有人需要的所有东西”。如百变金刚一般,Thneeds可以是任何东西(“它可以是一件T恤,一只袜子,一双手套,一顶帽子。但是他还有其他各种用途,没错,远远超过你能想象的。你可以拿它当毯子!枕头!床单!窗帘!甚至自行车坐垫!”)。

Hadoop也是类似的这样一种“能够满足所有人需要的所有东西”。

记得在2012年的时候,Hadoop的创造者Doug Cutting对我说,“Hadoop是大数据的操作系统”,因为“在Hadoop平台上会有一系列的工具让这个生态圈逐渐壮大”。

到如今,他应该更新一下原来的看法,应该说Hadoop“能够胜任绝大多数的应用场景,虽然对于任何场景都不算是最好的。”

很大程度上,这是由于YARN的诞生。从来没有什么项目像YARN这样,对Hadoop有如此之大的影响。YARN是第二代的MapReduce,一个资源和集群管理的工具,对提高Hadoop的实用性具有深远的意义。

Gartner分析师Merv Adrian是这样说的,在Hadoop初期,一切都很简单,Hadoop就是HDFS加MapReduce以及一些小工具。随着这些工具越来越正式,它们纷纷成为了各自的项目,有了Hadoop发行版的商业支持,比如:Pig,Hive,Hbase以及Zookeeper等。几个月前,我注意到,包括Accumulo,Avro,Cascading,Flume,Mahout,Oozie,Spark,Sqoop以及YARN也加入了这个名单中。

YARN之所以重要,不是仅仅在于一系列的Hadoop组件会随着发生改变,而是在于他唤醒的一系列Hadoop组件将会改变Hadoop的意义。YARN让Hadoop不再只是一个做数据分析和ETL的暴力扫描、批处理工具。Hadoop可以成为交互式分析工具、事件处理器、事务系统、一个用户复杂和混合工作负载的安全自治系统。

YARN,让Hadoop力量倍增。

Hadoop社区的喜与忧

这件事有利有弊,MapR的CEO John Schroeder这样说,“没有哪个企业拥有的Hadoop开发者能够超过全部开发者的15%或20%以上,所以你没法操纵Hadoop社区。”无法操纵,也无法引导和指向。

在Hadoop这个大厨房里有如此众多的厨师,出现如此众多的表现形式和功能就不足为奇了。Adrian提到,“像其他人一样,我也会重新定义Hadoop来满足我自己的需求。”

这是Hadoop仍然复杂的关键原因之一。尽管Hortonworks的CEO Rob Bearden的意见是Hadoop公共开发的目标在于让Hadoop“易用和可靠。”

这的确很难做到,事实证明对所有人来讲都好用是不现实的。

正当黎明破晓时

Hadoop如此复杂——难以定义,也难以实现——不过,事实上也可以轻松驾驭。虽然底层的技术仍然复杂,很多公司正致力于将这种复杂性隐藏起来,不再向用户暴露,正如Adrian在tweeter中提到的:

Cloudera的联合创始人Mike Olson早在2012年就曾这样表述,他确信通过云应用提供商,大多数的企业都能挖掘出Hadoop的价值所在。换句话说,不像Hadoop社区那样复杂,技术在不久的将来将不再如此复杂难以驾驭。

但这也不重要,因为像Facebook和Zoomdata各种不同的公司将Hadoop以服务的形式提供给消费者和企业,从而让Hadoop很容易使用。这是Hadoop的承诺:Hadoop社区包括Cloudera和Hortonworks这样的厂商在内,有不断地提高和扩展其技术,并且会对复杂的Hadoop进行抽象和简化,让Hadoop可以在主流企业中应用开来。

相关推荐