在美国举行的2014数据仓库研究所TDWI高峰会议上,有着丰富数据生命周期管理经验的咨询师Richard Winter做了演讲,他指出使用开源Hadoop架构时,要注意计算数据成本。因为很多隐性的成本潜伏在表面免费的架构中,常常被人忽略。硬件成本只是很少的一部分。
Winter表示:“很多Hadoop的成本并非来自系统本身,比如开发和管理系统的成本就不容小觑。”
Winter指出,针对Hadoop集群的应用开发和周边工具集的开发依然是Hadoop发展中最重要的。总体来看,Hadoop还是所有数据架构中比较廉价的。
不过Winter建议,数据管理者在衡量Hadoop可用性的时候,应该看具体的应用类型。
计算IT成本
Hadoop是以Java为基础的,对于如何衡量Hadoop的成本,Winter建议道要兼顾存储、管理、分析、开发和系统成本。在他的研究中,他也引用了一些一般性数据,比如他从一个追踪薪酬的网站了解到一般Java开发者的薪水,而他要为员工增加50%的一般性开销。Winter还在自己的网站上列出了更多资料。
Winter还考虑了Hadoop中开发查询的成本,这是只有高水平的开发者才能胜任的。同时,他还比较了在数据仓库和Hadoop环境下做简单查询和复杂查询需要的代码数和成本有什么不同。他发现,在Hadoop环境下创建查询要复杂的多,Hadoop文件系统、MapReduce、Java和SQL替代品(比如Hive)等都需要更多的代码,这是企业面临的问题。
Winter表示:“只在一小部分公司中,Hadoop应用的很广泛,因为这些公司本身有很强大的Java团队。”而在大多数公司中,Hadoop的应用还很有限。
善用技术优势
在峰会现场,Winter采访了很多与会者,询问数据仓库项目和Hadoop项目的成本问题,不同的用户给出了截然不同的回答。
如果把所有费用都考虑进去,用Hadoop重新创建一个企业级数据仓库系统要比使用传统基于SQL的数据仓库贵得多。但如果你需要数据分级处理系统或数据池风格的应用系统支持数据分析工作,那么Hadoop在还是有成本优势的,虽然它的花费也很多。
Winter指出,Hadoop可以监测大量数据中的异常值,哪怕只有细微变化,工作人员都可以发现。这在物联网领域有很重要的应用。以航空公司的引擎数据分析为例,只有在数据偏离异常值的时候,数据才有被关注的价值。
很多因素,包括用例都会影响技术类型的选择。比如在系统拥有更多数据源、更多用户、需要更多查询的时候,久经考验的数据仓库技术就能表现出卓越的技术优势。但如果情况正相反,你可能就要选择Hadoop了。
进一步讲,Hadoop和传统数据仓库更有可能融合使用。数据管理者要做的不只是为应用挑选正确的平台,还要了解不同的技术,同时采用,分开使用。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。