Joe Caserta是一名研究Hadoop架构部署情况的专业分析师。是纽约咨询公司Caserta Concepts的创始人兼总裁。他和Ralph Kimball合著了数据仓库专业书籍 The Data Warehouse ETL Toolkit,该书出版于2004年,讲述数据仓库的ETL(提取、转换和加载)技巧。在2014 Strata + Hadoop全球大会上,他接受了TechTarget记者的采访,分享了他对Hadoop的看法。
TechTarget:Hadoop架构会在企业内大规模实行吗?因为有时看起来它难以突破自己细分领域技术的局限。
Joe Caserta:我们是Hadoop很早期的用户。我认为现在Hadoop的应用已经很广泛了。我认为Hadoop一定会得到普及,只是还需要一些时间。首先,目前的技术,比如关系型数据库,ETL(提取、转换和加载)工具,SQL语言等都发展了30多年了,已经很成熟。而Hadoop起步很晚,很多工具只发展了三四年,所以成熟度还不够。
其次,现在还没有所谓的“最佳实践”。现在还没有图形界面,如果你不是程序员,你无法使用Hadoop。不懂技术的人无法成为Hadoop用户。很多工作还是在命令层面完成的。
第三,治理没有结构的数据几乎是不可能的。如果你没有掩盖或加密的结构化的列,你很难做到符合HIPAA的规定。这可能是企业使用Hadoop时面临的最大挑战。
从数据来看,很多项目都被困在POC(证明技术价值)的阶段
Caserta:是这样的。早在2009年,包括之后的2010年,很多技术还停留在高校实验室阶段。2011年到2012年,逐渐正式进入POC(证明技术价值)的阶段,慢慢地随着时间的推移,人们重点关注技术是否能够满足业务的需求。
“大数据“一词时常会让人产生误解,觉得数据量一定要大才能成为大数据,但其实不然。在最开始的几年,Hadoop主要的工作是要做大数据,之所以这样做,是因为人们希望得到低成本的数据。相比于Netezza或Teradata等传统数据仓库的许可证购买、硬件和软件的安装、基础架构的配置带来的成本,安装、配置和管理Hadoop集群的成本要低的多。经济成本当然是人们考虑的重要因素,不过现在,人们要求的更多。
去年和今年,是POC进入生产和业务运营的阶段。也正是这个阶段,人们开始意识到技术所有的缺陷。对于单一业务用例来说,它可能很棒。但一旦你将它扩展到更多用户,更多业务用例,问题就出现了。它更像传统的数据集市,创建单独使用的数据集市很容易,但一旦将它扩展到需要支持很多分离的系统和业务流程的数据仓库时,你就会意识到“我需要的是更成熟的技术”。
很多Hadoop的扩展应用都需要后端分析的能力。但这些Hadoop工具很多都产生不久,处在发展的初级阶段。
Caserta:是的。我们之前都认为Storm是很好的技术,但Hadoop之所有没能凭它颠覆世界,就是因为它无法应对交互查询。随着Impala和Drill技术的日益成熟,我想Hadoop的应用可以更广泛。
数据科学家、数据工程师、资深数据库开发者和ETL工作人员都开始接受它。就像从前,先有很多COBOL开发者,然后才有面向对象的编程。有时我们能够实现飞跃,但有时却很难。我想我们会面临相似的变革。今天,大多数ETL都是通过Python完成的,我们使用Python、Pig、Hive和MapReduce。它需要不同的技术集。一些开发者能够很好地利用它。有时,我们需要的只是新的人、新的技术。
今天,我们看到的最实实在在的改变是Hadoop允许在无人条件下业务自动运行。SQL和类SQL语言和BI工具都是为人类设计的。而机器学习则意味着,你可以为运行在Hadoop上的机器提供数据,运行算法,获得更智能的预测和推荐。
这一技术脱胎于亚马逊的推荐引擎。不过现在,它几乎无处不在。它可以用于股票选择,也可以用于广告服务。推荐引擎的技术越成熟,我们对人做决策的依赖程度就越低。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]