组织需要处理的数据越来越多,现存数据仓库系统往往不堪重负,大数据软件部署才应运而生。但这并不代表数据仓库已经过时了。
数据仓库研究院负责数据管理调查的总监Philip Russom表示:“这几年,数据仓库架构变了又变,随着数据量增大、数据种类增多,数据仓库也要相应进化。”
基于Hadoop的大数据系统最早被认为是数据仓库的终结者,但随着Hadoop的发展,人们越来越感觉到二者应该互补共存。例如,在数据仓库研究院2012年十月开展的一项调查中,263名IT专家、业务用户和咨询师参与了调查,其中78%的受访者认为Hadoop系统可以有效补充数据仓库,从而支持更高级的分析应用。另外,41%的受访者认为Hadoop是信息进入数据仓库之前很好的预处理工具。过半的受访者认为Hadoop不会完全替代数据仓库,只有4%认为会完全替代。
Russom认为使用在数据进入数据仓库之前,用Hadoop对其进行预处理升级是大数据技术的“重要据点”,但升级过程只是数据仓库改变的一个方面。很多情况下,Hadoop集群能够处理原始数据,并进行分析。以前,数据预处理只是暂时的,现在它已经进化为一个档案馆。
需要与数据仓库结合
但是,Russom不希望看到这些“档案馆”孤立地存在,与数据仓库脱节。一些数据也许会以汇总分析结果的形式移到数据仓库中,两种技术的融合趋势越来越明显。Russom在数据仓库研究院的调查报告中写道,“有时基于Hadoop的分析部署在筒仓中,但在进行数据分析时,需要与Hadoop和数据仓库的数据进行集成,从而增强业务洞察力。”
Gartner分析师Mark Beyer表示,大数据项目是单独产生的,容易产生信息孤岛。要防止这一点,组织需要一开始就把大数据项目放入数据管理总体战略中。这意味着要像关心传统数据一样关心大数据,比如大数据集从何而来,大数据能够保存多长时间,使用之前是否需要处理等。
Beyer认为,大数据资源池中的数据管理流程需要与外部数据结合起来,包括他认为的来自于Facebook、Twitter和其他社交网站的“大众数据”。了解数据来源和数据变化速度等属性,对大数据管理来说,至关重要。
最后,Beyer说道:“相比其他任何数字信息,大数据集更不精确。”所以他警告IT管理者做好准备。“大数据是一个入侵者。大数据破坏原有规则,难以驾驭。”所以在应用信息的时候,能够有效控制数据时成败的关键。
大数据软件带来的技术挑战
除了数据质量和治理难题,大数据局技术挑战也不容小觑,更别说部署Hadoop需要的MapReduce技能了。Hadoop的维护也很困难,这一部分要归咎于Hadoop 1在分布式处理框架上的扩展局限性。Hadoop 1 运行MapReduce批处理应用程序的性能也受到限制。
去年十月发布的Hadoop 2新增了YARN管理器,可以应用非MapReduce应用程序,并新增了联邦(federation)和高可用性特点,希望能够提高扩展性和集群正常运作的时间。一些供应商还添加了查询引擎,支持对Hadoop数据的实时分析,Yahoo等用户就配合YARN使用了开源的Storm复杂事件处理引擎,捕获流数据。
这些技术固然促进了大数据管理考核分析应用的发展,但同时也给IT、数据仓库和数据管理方面的人员带来了技术挑战。越来越多的公司会面临这样的问题。在上文提到的数据仓库研究院的调查中,10%的受访者表示组织中已经在用Hadoop系统,51%表示计划在三年内部署Hadoop。
IT团队成为公司的焦点,他们肩负着搭建可扩展的大数据系统、与现有数据仓库、分析和操作环境集成的重任。IT团队需要找到合适的技术,用最能产生业务价值的方式管理流程。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]