大数据项目不能孤军奋战

日期: 2014-03-25 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

组织需要处理的数据越来越多,现存数据仓库系统往往不堪重负,大数据软件部署才应运而生。但这并不代表数据仓库已经过时了。

数据仓库研究院负责数据管理调查的总监Philip Russom表示:“这几年,数据仓库架构变了又变,随着数据量增大、数据种类增多,数据仓库也要相应进化。”

基于Hadoop的大数据系统最早被认为是数据仓库的终结者,但随着Hadoop的发展,人们越来越感觉到二者应该互补共存。例如,在数据仓库研究院2012年十月开展的一项调查中,263名IT专家、业务用户和咨询师参与了调查,其中78%的受访者认为Hadoop系统可以有效补充数据仓库,从而支持更高级的分析应用。另外,41%的受访者认为Hadoop是信息进入数据仓库之前很好的预处理工具。过半的受访者认为Hadoop不会完全替代数据仓库,只有4%认为会完全替代。

Russom认为使用在数据进入数据仓库之前,用Hadoop对其进行预处理升级是大数据技术的“重要据点”,但升级过程只是数据仓库改变的一个方面。很多情况下,Hadoop集群能够处理原始数据,并进行分析。以前,数据预处理只是暂时的,现在它已经进化为一个档案馆。

需要与数据仓库结合

但是,Russom不希望看到这些“档案馆”孤立地存在,与数据仓库脱节。一些数据也许会以汇总分析结果的形式移到数据仓库中,两种技术的融合趋势越来越明显。Russom在数据仓库研究院的调查报告中写道,“有时基于Hadoop的分析部署在筒仓中,但在进行数据分析时,需要与Hadoop和数据仓库的数据进行集成,从而增强业务洞察力。”

Gartner分析师Mark Beyer表示,大数据项目是单独产生的,容易产生信息孤岛。要防止这一点,组织需要一开始就把大数据项目放入数据管理总体战略中。这意味着要像关心传统数据一样关心大数据,比如大数据集从何而来,大数据能够保存多长时间,使用之前是否需要处理等。

Beyer认为,大数据资源池中的数据管理流程需要与外部数据结合起来,包括他认为的来自于Facebook、Twitter和其他社交网站的“大众数据”。了解数据来源和数据变化速度等属性,对大数据管理来说,至关重要。

最后,Beyer说道:“相比其他任何数字信息,大数据集更不精确。”所以他警告IT管理者做好准备。“大数据是一个入侵者。大数据破坏原有规则,难以驾驭。”所以在应用信息的时候,能够有效控制数据时成败的关键。

大数据软件带来的技术挑战

除了数据质量和治理难题,大数据局技术挑战也不容小觑,更别说部署Hadoop需要的MapReduce技能了。Hadoop的维护也很困难,这一部分要归咎于Hadoop 1在分布式处理框架上的扩展局限性。Hadoop 1 运行MapReduce批处理应用程序的性能也受到限制。

去年十月发布的Hadoop 2新增了YARN管理器,可以应用非MapReduce应用程序,并新增了联邦(federation)和高可用性特点,希望能够提高扩展性和集群正常运作的时间。一些供应商还添加了查询引擎,支持对Hadoop数据的实时分析,Yahoo等用户就配合YARN使用了开源的Storm复杂事件处理引擎,捕获流数据。

这些技术固然促进了大数据管理考核分析应用的发展,但同时也给IT、数据仓库和数据管理方面的人员带来了技术挑战。越来越多的公司会面临这样的问题。在上文提到的数据仓库研究院的调查中,10%的受访者表示组织中已经在用Hadoop系统,51%表示计划在三年内部署Hadoop。

IT团队成为公司的焦点,他们肩负着搭建可扩展的大数据系统、与现有数据仓库、分析和操作环境集成的重任。IT团队需要找到合适的技术,用最能产生业务价值的方式管理流程。

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐