Hadoop生态系统逐渐完善

日期: 2013-02-26 作者:John Moore翻译:曾少宁 来源:TechTarget中国 英文

越来越多的软件工具使Hadoop部署变得更容易,但是渠道合作伙伴认为其还有提升空间。

  Apache Hadoop分布式计算技术在一段时间内甚至成为大数据的代名词:处理超大规模数据并从中发现价值。在处理大数据任务时,这个开源框架采用的方法就是将它们拆分成较小部分。在Hadoop部署中,数据分析任务会分布于一个计算集群的多个节点中。

Hadoop生态系统逐渐完善

  Hadoop包含一些核心组件,如Hadoop分布式文件系统(HDFS)和MapReduce,其中后者是一个负责将处理任务分散到Hadoop集群的系统。Hadoop生态系统的其他重要组件还包括Apache Hive数据仓库。

  创建一个Hadoop集群仅仅是一部分,但是将它转变为数据分析解决方案还需要更多的工作。渠道合作伙伴如果不仅仅希望整合Hadoop平台的基本组件,那么可以利用一些工具来帮助他们完成工作。通常,解决方案提供商主要依赖于来自Hadoop发行商的开源服务与工具,如Cloudera

  但是,Hadoop专家指出,他们预计Hadoop会出现更多的商业工具。与更为主流的IT人员相反,大多数工具将直接面向Hadoop开发人员。根据业内专家的观点,覆盖面更大的工具集可能会降低项目开发难度,提升IT部署的实施信心,并且会扩大Hadoop渠道的市场。

  目前有哪些工具?

  部署和运行Hadoop集群的工具非常简单。

  David Cole是一位来自Lunexa LLC的合作伙伴,Lunexa是一家专注于大数据的咨询公司。他指出,Cloudera Manager已经成为一个运行Hadoop集群的优质工具。

  Cloudera Manager属于CDH Enterprise Hadoop发行版的一部分。免费版CDH的Manager工具支持最多50个节点。Cloudera Manager完整版支持无限主机数,属于评阅版CDH。

  Cole指出,Lunexa在其内部Hadoop集群中使用Cloudera Manager,他表示客户反映良好。

  Cole说:“我们发现,最好的工具是能够管理您的集群,并且能够识别正在运行的任务及其使用率。”

  Mani Chhabra是专注于Hadoop和大数据服务的Cloudwick Technologies公司的总裁,他指出,一些Hadoop发行商所提供的足够创建一个基本的集群运行环境,如Hortonworks、MapR Technologies和Cloudera。他说,这些工具已经成为一种管理集群的标准可靠方法。

  Hadoop数据存储与访问工具则又更加复杂一些。一方面,我们可以使用Hive。这个数据仓库基础基于Hadoop,并且包含一个基于SQL的查询语言Hive QL(HQL)。

  Cole指出,Lunexa的许多企业客户都使用Hive,这表明这个软件很适合那些已经拥有内部SQL人员的单位。

  他说:“从SQL转到HQL的难度很小。”

  HQL支持复杂分析,但是定制的Hadoop解决方案要求能够使用Java或Python创建自定义的MapReduce程序。有一些工具也支持这种Hadoop开发活动。

  Cole认为Cloudera的Crunch框架(一个Java程序库)也是一个可以简化编码的工具。Crunch是Cloudera的一个开发项目,它已经在去年六月进入Apache孵化器。孵化器的作用就是在将代码贡献给Apache软件基金会时继续供外部组织使用。

  Cole表示,他的公司使用Crunch已经有一段时间了,它能够帮助编写一些自定义MapReduce。Hadoop解决方案有时候就设计为多级管道。一个管道可能会包含一系列处理原始数据的步骤,包括数据清理和汇总,最终完成数据分析。

  根据Cole 的介绍,Crunch能够加快Hadoop开发过程,同时有利于优化复杂的数据转换任务。

  Lunexa还使用Karmasphere公司的开发环境创建自定义的MapReduce程序。他指出,Karmasphere与Crunch的不同点是,前者是一个可下载的软件工具,而Crunch更像是一个API环境。

  此外,Lunexa还分享了Cloudera的Impala测试版工具。Impala旨在改进查询性能,而Cole表示,他的公司已经发现使用这个技术能够提升性能。他指出,它对于低延迟查询的性能改进最为明显,这种查询主要出现在商业智能工具之中。

  将来会有哪些工具?

  Chhabra指出,开源工具能够满足他公司所需要做的大部分工作。但是,他认为这些工具要求使用者必须掌握足够的专业知识。他补充说,这些工具并不适合一般的IT部门,特别是Hadoop的应用层与安全层。

  他说:“整个生态系统必须完善。现在还没有实现大规模的商业化。”

  Chhabra仍然说,他相信商业供应商正在填补工具空白。他举了一些例子,其中包括MicroStrategy公司的Hadoop连接和微软的Hadoop集成,它允许用户从集群抓取数据,然后在Excel电子表格中进行处理。他认为,大部分重要整合都会在2015年之前出现。

  工具发展的其他迹象来自一些供应商,如Attunity Ltd.和Dataguise Inc.,它们分别专注于Hadoop数据传输和安全性。

  1月份,Attunity发布了一个面向Hadoop的文件复制解决方案。这家公司的技术旨在实现集群数据的快速存储与读取。Attunity并不需要使用其他软件产品,如Hive。Attunity的全球销售副总裁Matt Benati指出,这种方法帮助客户简化问题,使这家公司的产品能够记得更广阔的用户群体。

  Benati说:“我们可以将数据直接存储到Hadoop,也可以从Hadoop读取数据。我们确实不需要其他的工具来完成这些操作。”

  根据Benati的介绍,在渠道活动方面,Attunity与Hortonworks建立了合作伙伴关系,也与一些专注于商业智能的代理商展开全球性合作。

  Dataguise公司CEO Manmeet Singh指出,该公司自己推出了用于保护Hadoop数据的技术,在数据存储和由数据分析工具提取时提供保护。Dataguise的DG for Hadoop还支持访问控制。

  Singh指出,Dataguise提供了一些安全措施,这是Hadoop发行商软件一般所不具备的功能。

  他说:“他们目前甚至并不关心安全性。”

  1月份,Dataguise宣布DG for Hadoop通过与MapR的Hadoop发行版共同使用的认证。这家公司宣布去年年末获得了Cloudera发行版的认证,并且公布了2012年初与Hortonworks签署的合作协议。

  Singh表示Dataguise与代理商建立合作,其中包括Compuware公司。

  同时,Cole指出,他期待看到传统ETL供应商将在Hadoop领域的新动作。他说,企业已经在ETL供应商上投入了很大本钱,如Ab Initio软件公司、IBM(InfoSphere DataStage)和Informatica。

  Cole解释说:“决心使用Hadoop的客户会乐于利用他们现有的ETL投入。”他乐于看到ETL供应商发布帮助客户创建用于生成自定义MapReduce代码的ETL工作流的技术。他说,供应商现在可以使用Hive。这种方法是可行的,但是并不是最佳方案。

  他说:“如果在Hive中实现,而非编写自定义的MapReduce,那么有一些事情会更复杂一些,而且效率也更低一些。”

  他指出,由客户使用熟悉的ETL产品生成MapReduce,可以使他们更方便地使用Hadoop。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐