Hadoop最佳实践案例分享

日期: 2014-03-10 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

对很多公司而言,Hadoop框架才刚刚开始启用,一些最佳实践的例子也是最近才显现出来。

思科系统公司首席数据架构师Piyush Bhargava表示,如何选择Hadoop发行版,以及如何让Hadoop和MapReduce与现存系统融合是公司启用Hadoop时面临的主要困境。他建议公司在投入生产时,需要考虑可行性。

Bhargava所从事的的开发Hadoop的工作是思科总体信息计划的一部分,有了Hadoop,公司就可以更有效地支持各种应用案例,管理者也能从数据中获取更大的价值。

Hadoop最佳实践

Bhargava和他的团队已经开始了企业级Hadoop平台的创建。首要任务便是减轻数据仓库的工作负载。一些Hadoop用户案例已经投入市场,比如集成线下和线上客户信息。虽然现在Hadoop的规模还很小,但在接下来两年里,它会呈指数增长。这需要开发人员把外部Hadoop资源集中到中央资源池。

Bhargava认为,今天的Hadoop就像90年代的ERP,终将成为企业的核心分析工具,因此现在就要把它集成到组织中来。

经过努力,思科工作负载的管理取得了成功。Bhargava谈到,Hadoop的管理一定要从整个集群着眼,不能只管某个单独的工作。为了管理好Hadoop、传统数据仓库和其他系统,思科已经建立了一套数据管理日程。

除了工作负载管理之外,云计算和人员的构建也是实现Hadoop最佳实践的关键。

和其他所有工作一样,Hadoop也需要完善正确的团队建设。因为Hadoop很多工作需要团队合作完成,更像是大型机时代,所以团队对Hadoop来讲更重要。

管理安全服务供应商Solutionary的软件工程师总监Scott Russom表示:“我的数据库团队正需要有编程头脑的人,从MapReduce来的COBOL(通用商务语言)编程人员很受欢迎。”

同时,云计算是实现Hadoop的一种方式。美国气候股份有限公司在Hadoop中就部署了集成私有云和公有云的架构。其工程师总监Andrew Mutz表示,通过内部部署Hadoop集群,公司能够快速试验气候模型,尽快得出结论,同时了解如何安全地扩展。之后,Hadoop就可以移向云端了。

他说:“这种内部部署与云计算结合的方式很有效。我们直接从数据来源开展工作,避免了延迟。”

对于思科的Bhargava来说,Hadoop管理最佳实践来源于好的规划。“你经常会参加一些会议,看各种绚丽的产品,但最后,你需要脚踏实地的考量。需要考虑到它的可扩展性,在规划一开始,就要考虑到它日后如何增长。”

上述公司采用的都是MapR发行的Hadoop,因为它更加关注Hadoop的管理。这是Apache基金会发行Hadoop之外,较早提供Hadoop发行版的公司。

玩转Hadoop工具

Forrester的分析师Mike Gualtieri认为其他相应技术也需要随着Hadoop的发展而发展,比如安全、扩展性、高可用性等领域的技术。

他提醒道,Hadoop还处在初级阶段。Gualtieri表示最近的一项Forrester调查显示,只有16%的受访者正在使用Hadoop,很多人还只是在观望。总体来讲,Hadoop还只是一个“很潮的工具”,只有一部分先行者在使用。

《跨越鸿沟》(Crossing the Chasm)的作者Moore在书中指出,Hadoop软件生态系统有很多工具,包括Hive、Accumulo、Giraph、Cassandra和Spark等,要是你不能玩转这些工具,你就不能算是一个先行者。

Moore认为,Hadoop现在还很像是业界领导者的资助项目。不过Hadoop已经势不可挡,大规模的使用指日可待。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐