Hadoop集群部署:IT部门的大航海时代

日期: 2013-12-12 作者:Jack Vaughan翻译:孙瑞 来源:TechTarget中国 英文

为了挖掘大数据蕴含的价值,许多传统企业开始跟风投入Hadoop的怀抱。对于他们IT团队来说,这就像是大航海时代,未来迎接他们的到底是一片新大陆,还是未知的狂风暴雨,很少有人会认真考虑这个问题。

Hadoop最初的出现是来自于大型的互联网公司,包括eBay、Facebook、LinkedIn以及Twitter、Yahoo在内的公司仍然在Hadoop开源分布式技术领域处于领导地位。随着大数据时代的到来,越来越多的企业希望在Hadoop以及相关技术平台上寻求价值,这些公司不仅限于互联网企业,还包括了美国宇航局(NASA)、连锁百货公司以及农产品制造商等。

尽管如此,Hadoop还远没有像传统数据库技术一样得到广泛应用。在TechTarget针对用户BI应用的一份调查报告中可以看到,Hadoop和MapReduce的活跃用户占比依然不足10%,在387名参与调查的用户中有将近三分之二表示他们没有针对这两个技术的计划。甚至对于那些已经部署大数据项目的公司来说,Hadoop在所有涉及到的技术当中也只是排名第四。

由于Hadoop对于大多数用户来说还比较陌生,部署这一技术将对数据架构以及项目其他的团队成员带来挑战,特别是对于那些没有开源软件或分布式并行处理相关经验的人来说。即使经验丰富的IT技术人员在使用Hadoop的时候也会遇到难题,因为它需要太多琐碎拼装的工作。

来自基因测试服务公司Gene的架构师Ofir Manor表示,当IT主管和企业管理者看到互联网公司将Hadoop用的风生水起时,他们也会想要通过它来提升系统能力,降低IT成本。然而要做到这一点其实并不容易。如果是小规模部署Hadoop进行测试还好说,但要将Hadoop完全融入现有的架构当中则是另外一回事了。

除了部署大规模Hadoop系统以及相关应用所带来的技术挑战,Manor还强调了IT运维团队的困境,他们通常是以孤岛的形式进行工作的,单独的团队来应对各自系统的管理,包括数据库、存储、网络、安全和应用开发等。但这样的方式并不适合管理Hadoop集群,Hadoop比传统技术更需要IT团队的协作,否则当出现问题的时候你根本找不到该由谁来负责。

另外,开源软件文化对于一些企业来说也是个问题。虽然目前已经有不少的IT厂商能够提供商业化的分布式Hadoop平台,从而简化系统搭建的工作并提供相应的技术支持。但Manor提醒,企业需要确定是否已经做好让自己的开发人员投入Hadoop社区的准备,因为不管怎样,要真正利用好Hadoop,就不得不与开源社区打交道。

Hadoop变量太多

成功部署Hadoop平台首先需要搭建运行软件的服务器集群,尽管Hadoop往往是使用廉价服务器来运行,但配置工作依旧较为繁琐。Think Big Analytics研究机构的首席咨询顾问Douglas Moore表示,Hadoop是一个非常复杂的环境,其中包含了许多“变量”。

Moore认为Hadoop部署团队需要确保系统的总体设计和规模能够满足数据需求,这些数据会在集群直接来回流动。在调整Hadoop集群的时候,任务调度、磁盘驱动器以及其他硬件组件也会成为影响Hadoop性能的因素。

举例来说,跨磁盘阵列的RAID Level 0分段数据在Hadoop系统中通常是默认打开的,它会把I/O限制在整个磁盘阵列中最慢的速度级别上。此外,单一磁盘故障有可能会影响整个磁盘阵列,让整个集群数据节点宕掉。因此,许多Hadoop厂商和咨询公司都建议把集群中的磁盘设定为单独的设备,或者尽量不做RAID。

另外由于Hadoop系统中往往还要用到HBase和Hive,因此要找到性能问题的真正所在并不是很容易。在帮助客户优化集群性能的时候,Moore和他的团队发现在很多情况中,第一个“嫌疑人”都不是“罪魁祸首”。比如给很多客户评估认为他们的HBase出现故障了,但实际上问题来自于工作流的设计,换句话说是他们运行集群的方式出了问题。

别忙着添加节点,先想想自己的需求

由于Hadoop通常使用廉价服务器来搭建,因此为集群添加新的节点就相对便宜一些。随着像Google、Twitter以及其他一些大型Web应用的发展,相应的数据处理需求在增加,横向扩展集群以提升性能成为企业的共同策略。但根据Intel公司Hadoop产品市场总监Vin Sharma的说法,这样的方式并不会被传统企业所采纳。

Sharma表示:“的确,添加更多节点对于那些互联网怪兽级企业来说已经是默认的方式了。但是传统企业不会重复他们的做法,他们习惯于采用性能故障诊断,对于Hadoop来讲也是一样。然而Hadoop的性能故障诊断要比其他系统复杂的多,不是每个企业都有合适的人员来做这样的工作。”

因此,当集群配置完毕之后需要做的第一件事,就是安装性能诊断工具来鉴别性能瓶颈问题。Sharma建议企业检查MapReduce应用来确保它们针对集群进行了优化设计。如果一个应用需要大量的网络通信,那么就不太适合Hadoop MapReduce。

Ventana 研究机构的分析师Tony Cosentino 提醒,Hadoop不是万能药,虽然在大数据背景下它的确很火,但对于某些应用场景来说它并不合适。企业切忌以技术为导向,他们首先需要考虑的是解决哪些业务问题,而解决这些问题并不一定需要Hadoop的帮助。

Hadoop技术有一定诱惑力,企业往往喜欢模仿互联网巨头的成功之路,但实际上的需求可能千差万别,甚至风马牛不相及。Manor表示,能够解决在线业务系统扩展问题的工具不一定就能解决传统企业系统中的问题。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

孙瑞
孙瑞

相关推荐