现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。
显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。 Hadoop:方兴未艾 从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。
显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。
Hadoop:方兴未艾
从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析师Svetlana Sicular在tweeter中提到:
尽管对Hadoop有很强的兴趣,实际将Hadoop投入使用的公司却有限,451 Research的一项调查表明:
对Hadoop有兴趣使用的很多,真正使用起Hadoop的却不多,这样的不一致归结于Hadoop的复杂性,Pepperdata的首席执行官补充道。还有一部分是因为厂商过分吹嘘当前Hadoop的功能,让企业用户倍感混乱。
但是,Hadoop的一个最大的优点在于:它的灵活性。
Hadoop“百变金刚”
苏斯(Suess)博士在《老雷斯的故事》中描述了一个建立在thneeds之上的工业背景,thneeds是一种“能够满足所有人需要的所有东西”。如百变金刚一般,Thneeds可以是任何东西(“它可以是一件T恤,一只袜子,一双手套,一顶帽子。但是他还有其他各种用途,没错,远远超过你能想象的。你可以拿它当毯子!枕头!床单!窗帘!甚至自行车坐垫!”)。
Hadoop也是类似的这样一种“能够满足所有人需要的所有东西”。
记得在2012年的时候,Hadoop的创造者Doug Cutting对我说,“Hadoop是大数据的操作系统”,因为“在Hadoop平台上会有一系列的工具让这个生态圈逐渐壮大”。
到如今,他应该更新一下原来的看法,应该说Hadoop“能够胜任绝大多数的应用场景,虽然对于任何场景都不算是最好的。”
很大程度上,这是由于YARN的诞生。从来没有什么项目像YARN这样,对Hadoop有如此之大的影响。YARN是第二代的MapReduce,一个资源和集群管理的工具,对提高Hadoop的实用性具有深远的意义。
Gartner分析师Merv Adrian是这样说的,在Hadoop初期,一切都很简单,Hadoop就是HDFS加MapReduce以及一些小工具。随着这些工具越来越正式,它们纷纷成为了各自的项目,有了Hadoop发行版的商业支持,比如:Pig,Hive,Hbase以及Zookeeper等。几个月前,我注意到,包括Accumulo,Avro,Cascading,Flume,Mahout,Oozie,Spark,Sqoop以及YARN也加入了这个名单中。
YARN之所以重要,不是仅仅在于一系列的Hadoop组件会随着发生改变,而是在于他唤醒的一系列Hadoop组件将会改变Hadoop的意义。YARN让Hadoop不再只是一个做数据分析和ETL的暴力扫描、批处理工具。Hadoop可以成为交互式分析工具、事件处理器、事务系统、一个用户复杂和混合工作负载的安全自治系统。
YARN,让Hadoop力量倍增。
Hadoop社区的喜与忧
这件事有利有弊,MapR的CEO John Schroeder这样说,“没有哪个企业拥有的Hadoop开发者能够超过全部开发者的15%或20%以上,所以你没法操纵Hadoop社区。”无法操纵,也无法引导和指向。
在Hadoop这个大厨房里有如此众多的厨师,出现如此众多的表现形式和功能就不足为奇了。Adrian提到,“像其他人一样,我也会重新定义Hadoop来满足我自己的需求。”
这是Hadoop仍然复杂的关键原因之一。尽管Hortonworks的CEO Rob Bearden的意见是Hadoop公共开发的目标在于让Hadoop“易用和可靠。”
这的确很难做到,事实证明对所有人来讲都好用是不现实的。
正当黎明破晓时
Hadoop如此复杂——难以定义,也难以实现——不过,事实上也可以轻松驾驭。虽然底层的技术仍然复杂,很多公司正致力于将这种复杂性隐藏起来,不再向用户暴露,正如Adrian在tweeter中提到的:
Cloudera的联合创始人Mike Olson早在2012年就曾这样表述,他确信通过云应用提供商,大多数的企业都能挖掘出Hadoop的价值所在。换句话说,不像Hadoop社区那样复杂,技术在不久的将来将不再如此复杂难以驾驭。
但这也不重要,因为像Facebook和Zoomdata各种不同的公司将Hadoop以服务的形式提供给消费者和企业,从而让Hadoop很容易使用。这是Hadoop的承诺:Hadoop社区包括Cloudera和Hortonworks这样的厂商在内,有不断地提高和扩展其技术,并且会对复杂的Hadoop进行抽象和简化,让Hadoop可以在主流企业中应用开来。
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]