大数据实时性需求挑战BI 数据集成过程

日期: 2012-05-15 作者:Alan R. Earls翻译:包春霞 来源:TechTarget中国 英文

BI系统以及后端支持的数据仓库好坏取决于进入其中的数据质量。如果没有正确地处理BI集成过程,那么终端用户,甚至整个组织都可能会有麻烦。

  据Garter公司的数据管理分析师Ted Friedman说,随着BI工具在组织中越来越流行,它对业务运营的成功也越来越关键,确保你有设计良好、执行很好的BI数据集成过程是最最重要的。

  Friedman 说,Gartner 将与BI相关的数据集成挑战看做是BI和分析项目成功的拖累,这是项目彻底失败的最大原因。随着组织要管理的数据越来越多越来越复杂,数据种类和数据源也更多了,现在又加入了大数据,很多时间和精力都要花在为BI 应用匹配、清洗和准备数据上。这是个讨厌的难题,尤其是当需要集成遗留系统的时候,为了揭示数据就不得不先了解旧系统。

  另外一个复杂的因素是随着业务用户需要更快地访问BI数据,数据集成技术世界正在发生变化。

  ETL仍然是BI数据集成的最佳选择吗?

  传统BI数据集成技术中使用最多的是抽取、转化和加载(ETL)软件,它从源系统中用批处理方式抽取数据。Friedman 说,新的数据集成技术比ETL工具需要更短的延迟。如变更数据捕获(CDC)软件和其它实时数据集成工具让你将新的或修改的信息以实时、近实时的方式推送到数据仓库和BI系统中,这对类似欺骗检测这样的任务尤其有用。它是细粒度形式的流数据而不是像ETL那样采用的大批量数据。

  另外一个选择是:联邦和虚拟数据集成交付方法,这种方法不需要将数据从源系统中移出来,而是从多个数据源中创建数据的统一视图让BI使用。用数据虚拟化工具,集成的数据不会到处都有。实时地抓取数据并将它们Join在一起,让它们看起来对于应用而言就像位于某处的一个数据库一样。

  Fredman认为,尽管出现了这种新的数据集成和交付工具,但如果认为ETL软件不再有价值了,也是不对的。 “ETL仍然有用,”他说:“我们认为总是有地方需要用ETL的方式进行处理,因为不是所有的数据都能或者应该实时交付。”

  的确,当许多组织仍然能从批处理方法中获得他们需要的数据时,数据集成供应商正在大力推广BI数据集成 实时选项。实时集成花很多成本,要求组织过去一直在做的东西都要发生改变,所以这需要是一个比较强的业务需求。

  Intelligent Solutions咨询公司负责BI解决方案的Claudia Imhoff表示赞同,她认为ETL还有一个角色——它是数据集成的搬运工,ETL比它的新竞争者更灵活快速部署,更适合按时给操作BI应用的业务用户交付数据。

  实时并不总是正确但更加真实

  位于南非开普敦的9Sight咨询创始人Barry Devlin承认BI的实时数据集成常常是不太必要的,但是BI和分析应用正在日益朝那个方向变化。“我认为人们之所以对它感兴趣是想看看它是如何运作的。”他说。

  Devlin举了一个美国保险行业的用户案例,来自汽车的实时数据,包括刹车和速度数据、行驶时间和其它信息正在通过移动网络传输给保险公司的业务用户,以确保保险人修改保费或者甚至可以在飞机上提供折扣。

  正如Friedman说的,人们对获取和分析大数据的关注日益增加,这些大数据包括Web服务器日志、社会媒体数据和其他形式的非结构化信息,这给许多组织的BI数据集成过程增加了另外一层复杂性。

  James Kobielus曾是Forrester公司的分析师,他说非结构化数据“跟BI和分析所用的结构化数据一样关键”。甚至那些还在计划或正准备开始实施大数据分析程序的公司也应该前瞻性地确保能提前准备好应对数据集成挑战。他强调,“你需要事先做好准备,如果有来自社交媒体的大数据量输入需求,还应该早点做好预算和增加人员”。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Alan R. Earls
Alan R. Earls

TechTarget资深作者

相关推荐