部署Hadoop的五大误区

日期: 2014-09-28 作者:BRETT MARTIN 来源:TechTarget中国 英文

Hadoop技术在大数据时代发展迅速,独立分析机构Forrester Research公司发布的《Forrester浪潮:大数据Hadoop解决方案》(2014年一季度版)报告显示,Hadoop的开源架构逐渐深入适应企业环境,其疯狂的发展势头已无法阻挡。其全新独特的数据管理方案正在帮助企业变革大数据存储、处理、分析及共享的方式。

但与此同时,与其真正所能提供技术能力相悖的错误消息,以及过度承诺也困扰着这项技术。在部署Hadoop技术时提出不切实际的预期需求或误入技术认知误区,将导致浪费时间,费用上涨,业绩乏善可陈。企业需要了解Hadoop技术能力与限制,并相应制定安装计划,将在未来充分发挥Hadoop技术能力。

了解Hadoop技术的真相,并避开以下常见误区,将帮助您顺利部署Hadoop:

误区一:Hadoop可替代数据仓库

真相:Hadoop框架自身不是完整的数据或分析解决方案,也不是用作或替代数据仓库的框架或平台。就其自身而言,依托Hadoop技术开发高成本效益的大数据平台解决方案,与其它数据库共享信息,使其成为数据仓库的完美组合。依托Hadoop技术,企业将能够通过新的途径充分利用各种类型的海量数据。

误区二:Hadoop技术昙花一现

真相:Hadoop倍受青睐,其发展势头看上去势不可挡,因此,它不会昙花一现。《Forrester浪潮:大数据Hadoop解决方案》(2014年一季度版)报告称,Hadoop框架是大型企业必备的数据平台,是未来任何灵活数据管理平台中最重要的组成部分。为充分利用Hadoop的技术优势,下一代数据仓库将与Hadoop技术更深入地整合,管理规模更大,结构更复杂的数据集。

误区三:Hadoop技术是免费的

真相:Hadoop的确是一套开源产品,所有用户均可免费下载。但使用该技术却并非免费,甚至需要更高的成本。高效运用Hadoop技术需要接受严格培训的专业人士,而长期存储数据亦需要高昂成本。考虑分析及多用户因素,Hadoop技术的成本实际上要高于数据仓库。除开源技术外,厂商还销售支持各种功能的专用应用程序,支持并拓展Hadoop使用范围,为企业提供更多帮助。

误区四:Hadoop解决方案是一款数据整合工具

真相:Hadoop实际上是专为特定数据类型及负载设计的分布式文件系统。但该技术缺乏数据整合能力。如果Hadoop解决方案未能与大型数据管理生态系统结合使用,它将会成为另一个使信息相互隔离的数据孤岛。一旦在数据仓库环境下部署Hadoop技术,用户即可查询数据仓库及Hadoop中的信息。

误区五:Hadoop是单一的开源产品

真相:Hadoop是产品库及技术库,包括Hadoop分布式文件系统、MapReduce、Pig、Hive、Falcon、Knox等。多家厂商开发Hadoop产品,并加入具有差异化优势的功能。例如,Hortonworks®数据平台帮助企业采集、处理并共享任意格式、任意规模的数据。并不是所有Hadoop产品都是开源的。Forrester报告称,对Hadoop产品的需求使厂商面对竞争残酷的市场,他们需要抓住一切机会销售他们特有的Hadoop解决方案。

释放HADOOP技术的全部潜能

Hadoop为大型数据集存储及处理提供可靠的解决方案,帮助企业克服以往数据使用成本高、数据结构复杂的困难,高效利用各种类型的海量数据。虽然Hadoop技术用途广、优势多,但它却无法取代数据仓库或数据整合工具。而通过与其它数据或分析解决方案整合,反而能够提升Hadoop技术的价值。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐