越来越多的软件工具使Hadoop部署变得更容易,但是渠道合作伙伴认为其还有提升空间。
Apache Hadoop分布式计算技术在一段时间内甚至成为大数据的代名词:处理超大规模数据并从中发现价值。在处理大数据任务时,这个开源框架采用的方法就是将它们拆分成较小部分。在Hadoop部署中,数据分析任务会分布于一个计算集群的多个节点中。
Hadoop包含一些核心组件,如Hadoop分布式文件系统(HDFS)和MapReduce,其中后者是一个负责将处理任务分散到Hadoop集群的系统。Hadoop生态系统的其他重要组件还包括Apache Hive数据仓库。
创建一个Hadoop集群仅仅是一部分,但是将它转变为数据分析解决方案还需要更多的工作。渠道合作伙伴如果不仅仅希望整合Hadoop平台的基本组件,那么可以利用一些工具来帮助他们完成工作。通常,解决方案提供商主要依赖于来自Hadoop发行商的开源服务与工具,如Cloudera。
但是,Hadoop专家指出,他们预计Hadoop会出现更多的商业工具。与更为主流的IT人员相反,大多数工具将直接面向Hadoop开发人员。根据业内专家的观点,覆盖面更大的工具集可能会降低项目开发难度,提升IT部署的实施信心,并且会扩大Hadoop渠道的市场。
目前有哪些工具?
部署和运行Hadoop集群的工具非常简单。
David Cole是一位来自Lunexa LLC的合作伙伴,Lunexa是一家专注于大数据的咨询公司。他指出,Cloudera Manager已经成为一个运行Hadoop集群的优质工具。
Cloudera Manager属于CDH Enterprise Hadoop发行版的一部分。免费版CDH的Manager工具支持最多50个节点。Cloudera Manager完整版支持无限主机数,属于评阅版CDH。
Cole指出,Lunexa在其内部Hadoop集群中使用Cloudera Manager,他表示客户反映良好。
Cole说:“我们发现,最好的工具是能够管理您的集群,并且能够识别正在运行的任务及其使用率。”
Mani Chhabra是专注于Hadoop和大数据服务的Cloudwick Technologies公司的总裁,他指出,一些Hadoop发行商所提供的足够创建一个基本的集群运行环境,如Hortonworks、MapR Technologies和Cloudera。他说,这些工具已经成为一种管理集群的标准可靠方法。
Hadoop数据存储与访问工具则又更加复杂一些。一方面,我们可以使用Hive。这个数据仓库基础基于Hadoop,并且包含一个基于SQL的查询语言Hive QL(HQL)。
Cole指出,Lunexa的许多企业客户都使用Hive,这表明这个软件很适合那些已经拥有内部SQL人员的单位。
他说:“从SQL转到HQL的难度很小。”
HQL支持复杂分析,但是定制的Hadoop解决方案要求能够使用Java或Python创建自定义的MapReduce程序。有一些工具也支持这种Hadoop开发活动。
Cole认为Cloudera的Crunch框架(一个Java程序库)也是一个可以简化编码的工具。Crunch是Cloudera的一个开发项目,它已经在去年六月进入Apache孵化器。孵化器的作用就是在将代码贡献给Apache软件基金会时继续供外部组织使用。
Cole表示,他的公司使用Crunch已经有一段时间了,它能够帮助编写一些自定义MapReduce。Hadoop解决方案有时候就设计为多级管道。一个管道可能会包含一系列处理原始数据的步骤,包括数据清理和汇总,最终完成数据分析。
根据Cole 的介绍,Crunch能够加快Hadoop开发过程,同时有利于优化复杂的数据转换任务。
Lunexa还使用Karmasphere公司的开发环境创建自定义的MapReduce程序。他指出,Karmasphere与Crunch的不同点是,前者是一个可下载的软件工具,而Crunch更像是一个API环境。
此外,Lunexa还分享了Cloudera的Impala测试版工具。Impala旨在改进查询性能,而Cole表示,他的公司已经发现使用这个技术能够提升性能。他指出,它对于低延迟查询的性能改进最为明显,这种查询主要出现在商业智能工具之中。
将来会有哪些工具?
Chhabra指出,开源工具能够满足他公司所需要做的大部分工作。但是,他认为这些工具要求使用者必须掌握足够的专业知识。他补充说,这些工具并不适合一般的IT部门,特别是Hadoop的应用层与安全层。
他说:“整个生态系统必须完善。现在还没有实现大规模的商业化。”
Chhabra仍然说,他相信商业供应商正在填补工具空白。他举了一些例子,其中包括MicroStrategy公司的Hadoop连接和微软的Hadoop集成,它允许用户从集群抓取数据,然后在Excel电子表格中进行处理。他认为,大部分重要整合都会在2015年之前出现。
工具发展的其他迹象来自一些供应商,如Attunity Ltd.和Dataguise Inc.,它们分别专注于Hadoop数据传输和安全性。
1月份,Attunity发布了一个面向Hadoop的文件复制解决方案。这家公司的技术旨在实现集群数据的快速存储与读取。Attunity并不需要使用其他软件产品,如Hive。Attunity的全球销售副总裁Matt Benati指出,这种方法帮助客户简化问题,使这家公司的产品能够记得更广阔的用户群体。
Benati说:“我们可以将数据直接存储到Hadoop,也可以从Hadoop读取数据。我们确实不需要其他的工具来完成这些操作。”
根据Benati的介绍,在渠道活动方面,Attunity与Hortonworks建立了合作伙伴关系,也与一些专注于商业智能的代理商展开全球性合作。
Dataguise公司CEO Manmeet Singh指出,该公司自己推出了用于保护Hadoop数据的技术,在数据存储和由数据分析工具提取时提供保护。Dataguise的DG for Hadoop还支持访问控制。
Singh指出,Dataguise提供了一些安全措施,这是Hadoop发行商软件一般所不具备的功能。
他说:“他们目前甚至并不关心安全性。”
1月份,Dataguise宣布DG for Hadoop通过与MapR的Hadoop发行版共同使用的认证。这家公司宣布去年年末获得了Cloudera发行版的认证,并且公布了2012年初与Hortonworks签署的合作协议。
Singh表示Dataguise与代理商建立合作,其中包括Compuware公司。
同时,Cole指出,他期待看到传统ETL供应商将在Hadoop领域的新动作。他说,企业已经在ETL供应商上投入了很大本钱,如Ab Initio软件公司、IBM(InfoSphere DataStage)和Informatica。
Cole解释说:“决心使用Hadoop的客户会乐于利用他们现有的ETL投入。”他乐于看到ETL供应商发布帮助客户创建用于生成自定义MapReduce代码的ETL工作流的技术。他说,供应商现在可以使用Hive。这种方法是可行的,但是并不是最佳方案。
他说:“如果在Hive中实现,而非编写自定义的MapReduce,那么有一些事情会更复杂一些,而且效率也更低一些。”
他指出,由客户使用熟悉的ETL产品生成MapReduce,可以使他们更方便地使用Hadoop。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
Cask框架:加速构建Azure HDInsight数据管道
Microsoft Azure之类的云正努力将部署简化,但这和端对端大数据分析应用程序的实现以及将其在云上运行一样困难。
-
Spark架构在大数据环境的核心位置找到用武之地
Spark的最开始的名片是它能比MapReduce更快地运行批处理应用程序,而其编程环境和执行引擎是嵌入在Hadoop原始版本中的。
-
功能上的“硬伤”并非Spark应用解不开的死结
虽然Spark自身还有待完善,但由于在批处理应用性能方面的优势,Spark正在逐渐将MapReduce边缘化,该数据处理引擎的使用正在快速增长。
-
成本性能要兼得?简化Hadoop云部署有高招
大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说,已经变得十分重要。这些公司正在尝试使用新方法简化用户部署Hadoop云系统的步骤,并降低用户的部署成本。