应对Hadoop选择困难症 四大产品特征值得关注

日期: 2016-06-02 作者:David Loshin翻译:张亮亮 来源:TechTarget中国 英文

虽然构成Hadoop生态系统堆栈均为开源技术,但是为使用商业Hadoop平台而支付一定的订阅费用还是大有裨益的。例如,订阅后提供技术支持和培训,而且会开放企业级功能,而这些功能是不向开源社区提供的。 虽然厂商Hadoop发行版的企业版本都提供了Hadoop生态系统堆栈的核心组件,但是这些厂商提供的超越公开可访问功能的部分才是其关键优势。 最近市场弱化了Hadoop厂商的层级。

例如,就在本月,Pivotal Software取消了其自身的Hadoop发行版并宣布会转售Hortonworks作为替代。但是仍有很多不同的厂商需要考虑,包括独立Hadoop专家,云厂商和 本文根据几个主要特征将顶级Ha……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

虽然构成Hadoop生态系统堆栈均为开源技术,但是为使用商业Hadoop平台而支付一定的订阅费用还是大有裨益的。例如,订阅后提供技术支持和培训,而且会开放企业级功能,而这些功能是不向开源社区提供的。

虽然厂商Hadoop发行版的企业版本都提供了Hadoop生态系统堆栈的核心组件,但是这些厂商提供的超越公开可访问功能的部分才是其关键优势。

最近市场弱化了Hadoop厂商的层级。例如,就在本月,Pivotal Software取消了其自身的Hadoop发行版并宣布会转售Hortonworks作为替代。但是仍有很多不同的厂商需要考虑,包括独立Hadoop专家,云厂商和

本文根据几个主要特征将顶级Hadoop发行版进行了区分,帮助你决定哪家Hadoop厂商才是最适合你所在的企业;这些特征包括部署模型,企业级功能,安全性和数据保护功能,以及支持服务。

请注意虽然Hadoop大数据管理生态系统是设计来支持可扩展数据存储和高性能分布式计算的,但实际性能可能会因多个原因而有所不同,包括软件的实现。但是很多性能问题都依赖于计划应用程序本身。要解决这一问题,我们将进一步研究Hadoop产品发行版是如何来满足用户所在企业的业务需求的。

Hadoop部署模型

大多数Hadoop厂商都支持部署方法的混合,但是来自Microsoft和Amazon Web Services的Hadoop产品是在云环境下单独部署的。Microsoft将Azure云设施用于HDInsight,这是一项基于Hortonworks Data Platform(HDP)的管理服务——Pivotal如今正在转售同样的Hadoop发行版。AWS利用自己的Amazon Elastic Cloud Computing平台和S3数据存储来对Amazon Elastic MapReduce(EMR)进行支持,它还将各种其他工具和技术与其Hadoop发行版进行了捆绑。此外,Amazon EMR还提供了用MapR的Hadoop发行版来替代Amazon同类的选项。

云部署模型提供了一个快捷而成本低的方法,该方法配备有Hadoop集群,而且Microsoft和AWS都可以让用户根据需要来对他们的环境大小进行调整以处理动态计算和存储容量需求。这种弹性对于那些计算和存储需求随时间变化的企业是非常理想的。

虽然其他主要的Hadoop厂商——Cloudera,Hortonworks,IBM 和MapR都提供基于云的部署,但是它们并不局限于该模型。它们允许用户下载可以在本地或在私有云的不同服务器上部署的发行版,包括Linux和Windows系统。此外,Cloudera和MapR还提供可以运行诸如VMware之类虚拟环境的沙盒版本。

结论:要考虑你的企业是否喜欢在内部管理其大数据环境还是说更青睐于托管服务。内部管理意味着对软件环境的监督与维护以及对系统的持续监控,该环境是否是在本地的一个物理平台或是用基于云的服务加以封装的。如果你有经验丰富的员工并且了解适当的系统分级特点,或是如果在安全考量下要求保证系统管理处于可信防火墙之下,那么本地选项可能更适合你。

另一种选择是使用厂商的托管服务平台,它会协助配置,发布,管理并监控你的操作。如果你并不能确定你所需要的系统大小或是根据需求增长所期望的系统大小,那么这种选择就更适合于你。使用云或托管服务的好处在于它会在存储和处理资源两方面提供必要的弹性。

顶级Hadoop发行版的企业级功能

三家独立的Hadoop厂商在开发方法上有一些显著的区别。Cloudera经常强调带有内部开发插件技术的Hadoop核心——例如,它的ImpalaSQL-on-Hadoop查询引擎,Cloudera Manager管理工具,以及Kudu,这是为Hadoop Distributed File System(HDFS)用于实施分析应用程序提供数据存储的另一选项。通常来说,如今公司会在自己做了初始开发工作之后将这些技术进行开源。另一方面,Hortonworks对于其“Apache Hadoop社区中自有软件100%独创,以及不存在专门扩展”方面进行了提升。插件技术是其背后的推动力量,例如Ambari配置和管理软件,都是从一开始便作为开源项目发起的。此外,Hortonworks已经与IBM以及其他公司联合起来组成了Open Data Platform Initiative(ODPi),这是一个致力于为Hadoop平台创建一套共同核心技术规格的组织。ODPi成员宣称他们会改善互通性并减少厂商的封锁。

MapR则选择了第三种路径,它通过开发其自身的文件系统(替代使用HDFS)和NoSQL数据库(MapR-DB)以及其他基础技术努力支持具有企业级性能需求的大型集群部署。MapR对实时和流处理应用程序也愈发地关注。在2015年末,公司将其产品重命名为MapR Converged Data Platform,它结合了Hadoop和MapR文件系统以及有着Apache Spark处理引擎和一个名为MapR Streams的新型事件流技术用来应对批处理和事实工作。

从功能的角度来看,Cloudera CDH发行版的企业版本为运营管理和报告以及支持业务持续性提供了工具。这包括了诸如配置历史和回滚,滚动更新和服务重启,以及自动灾难恢复等项目。MapR的企业级产品为更好地管理和确保数据在Hadoop中的可恢复性和可靠性,以及多租户和高可用性功能提供了工具。Hortonworks则为主动监控和维护提供了它自己的HDP支持订阅。

同时,IBM在其BigInsights上为Apache Hadoop发行版采用了面向分析的策略,这符合IBM对销售商业智能和高级分析工具的广泛关注。IBM提供了不同的拥有企业级功能的增值模块作为BigInsights的一部分,包括独立的Analyst和Data Scientist模块。其Analyst模块为联合SQL接入Hadoop和其他数据源提供了Big SQL。BigSheets是Analyst模块的一部分,它可以让用户用一个直观的电子表格界面对存储在Hadoop中的大型数据集进行访问,转换并执行可视化。BigInsights Data Scientist Module包括了一个R语言的版本,称作SystemML的机器学习库,这已经为开源社区做出了贡献。

虽然对于Amazon EMR来说,它的云平台是AWS的主打名片,但是它同样为监控和管理集群以及开启应用程序和集群的互通性来作为Hadoop服务的一部分提供了工具。

Amazon EMR收集用于跟踪进展和测量集群健康的标准。集群健康标准可以通过命令行界面,软件开发套件和API访问,并且可以通过EMR管理控制台来查看。此外,Amazon的CloudWatch监控服务可用于Apache Ganglia性能监控组件的实现来对集群进行检查并根据这些标准所触发的事件来设置警报。

结论:选择一家可以提供增值组件作为企业订阅的厂商可能意味着要建立长期关系,特别是如果这些组件是与其标准栈发行版紧密集成的。如果你担心厂商的封锁,那么就可以考虑那些参与了OPDi的厂商。

来自Hadoop厂商的安全和保护产品

虽然针对企业级应用程序扩大了开源软件的使用范围,但是从安全和保护的角度来说这样是否适合生产使用仍有疑问。几个Hadoop厂商已经采取行动来缓解这种焦虑。

例如,Hortonworks已经同其他厂商和客户联手为Hadoop发起了一个Data Governance Initiative,与之相伴的是对一项名为Altas的新Apache项目的初步关注,该项目是用于管理共享元数据,数据分级,审计和安全性以及数据保护的策略管理。它还努力将Atlas与Ranger进行整合,Ranger是一个用于执行数据访问策略的开源安全工具。Cloudera提供的工具可以让用户对CDH平台的安全性和治理进行管理,同时还支持企业在服从性和监管方面的需求。

此外,Hortonworks,Cloudera,MapR和IBM都提供数据加密。Hortonworks和Cloudera均支持数据的静态加密。MapR提供数据从一个集群传入和传出过程中的以及在集群内部的加密。IBM则提供了一款名为InfoSphere Guardium的产品,它可以实施数据隐私,而且还提供对机密数据的加密和隐藏。

结论:Hadoop厂商提供了不同的方法来进行身份验证,基于角色的访问控制,安全策略管理和数据加密。要仔细定义你的安全和保护需求并且还要对每家厂商是如何解决这些需求的进行评估。

顶级Hadoop发行版支持订阅

开源软件模型的基本价值主张是通过支持和服务来捆绑并简化系统部署。有一个部署Hadoop的替代方案,即从开源库为每个组件下载源代码然后进行构建并将所有的部件集成在一起。这需要技术和精力,而且还很可能是一个迭代的过程。开源厂商已经做了很大的努力,他们提供了预配置的发行版而且维护了一个最新的集成堆栈。

厂商之间的区别很大程度上在于他们的支持模型。Hortonworks提供了几个模型,范围包括在业务时间或一天的响应时间提供基于页面技术支持的Jumpstart版本,以及其拥有全天候支持和取决于问题严重性的更短响应时间的Enterprise版本。Cloudera则为企业许可持有者提供一小时和全天候支持选项的技术支持订阅。它还为拥有Flex和Data Hub版本许可的企业提供高级支持,而对于这些版本的严重问题其响应时间为15分钟。

所有AWS账户都包括基本的技术支持,它提供了全天候的客户服务,访问社区论坛和文档,还包括访问AWS Trusted Advisor应用程序。开发人员支持包括对于严重问题的一小时响应——对大多数问题而言响应时间是12或24小时。商业级的支持提供了全天候通过电子邮件来访问云支持工程师以及根据严重程度来缩减响应时间。而企业级的支持增加了针对严重问题少于15分钟响应时间的内容,还有一项专门的技术账户经理,加上额外的启动和运营支持。

MapR提供的高级支持服务增加了电子邮件支持,自定义门户,培训,紧急问题修复,日间支持和针对优先问题的全天候电话支持。该公司的高级+支持增加了优先队列的门票和单点联系支持,而且还提供现场或是远程专门支持的选项。IBM为购买了许可组件的企业提供支持——也称作他们的增值模块——通过Apache Hadoop对他们的Open Platform进行了扩展。

结论:如果支持服务是厂商附加值的源头,那么不同的支持订阅的成本应该与客户期望相符合。订阅提供的在全天候基础上的一小时甚至是15分钟响应时间的专人支持要比在业务时间通过一个基于网页界面且响应时间为24小时的支持贵出许多。

在过去十年Hadoop已经转变了商业智能和分析行业。但是,正如我们所看到的,开源Hadoop框架所能提供的东西很有限,而且公司需要更加强有力的性能和功能以及维护和支持,因此它们正转向商业Hadoop软件发行版。希望这些信息能够帮助你在购买Hadoop发行版的时候做出更加明智的选择。

作者

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐