大数据时代到来 我们还需不需要ETL?

日期: 2015-06-22 作者:Livbee 来源:TechTarget中国

毫无疑问,数据正呈现出爆炸式的增长趋势。无论是传统的业务系统数据,还是新型的非结构化数据,随着IT技术的不断发展,我们能够利用起来并转化为有用信息的数据变得越来越多,它们也包含了各种各样的结构与类型,这就是我们常说的“大数据”。

现如今,大数据这个名词几乎是无人不知、无人不晓,但真正能够理解其内涵,真正能够利用好的企业还是少数。为什么?我们可以简单地用一句话来总结:数据太多,信息太少。信息是经过梳理之后的数据,它包含了真正有价值的业务洞察。然而就是将数据转化为有用信息的这一步,成为了许多企业迈不过去的一道坎,也是许多大数据项目仓促上马但最终失败的主要原因。

分析大数据?要先有数据!

大数据分析可以支撑企业做出关键的决策,通过对市场趋势的预测来获得差异化的竞争力。相信有许多企业管理者明白这个道理,他们希望通过大数据分析来回答那些之前无法给出答案的业务难题。然而,我的数据从哪里来?我如何收集这些数据并进行整理?我如何根据业务需求建立分析模型?这些问题并不是上一套Hadoop系统就能够简单搞定,更何况真正能搞定Hadoop的人本来就不多。

要做大数据,首先要解决的一个问题就是数据收集。如果无法将数据有效收集起来,要对大量碎片化的数据源进行分析简直就是天方夜谭。并不是说把数据直接放在源头就无法进行分析,但拥有这样能力的公司只有数得上来的那几家。绝大部分企业还是需要将数据先集中存储到一个地方,然后再进行分析。

其次,这些数据收集起来放到什么地方?有人说Hadoop是个不错的选择。没错,Hadoop作为一个开源的分布式数据存储平台能够存储各种各样的数据并方便地对其进行分析,而且基于Hadoop的一整套生态系统包括了各种工具,可以说它几乎是为分布式计算和大数据分析而生的一种技术。但是不是所有企业都需要将大数据存储到HDFS中呢?也并不是。因为,Hadoop作为一项相对较新的技术,能够熟练掌握的人并不多,而且其开源的本质就决定了你没法获得商业上的技术支持,出了问题谁来负责?这些都是Hadoop目前所存在的弊端。

有人说,大数据宣告了数据仓库时代的终结。然而专家建议,要做好大数据分析项目的企业应该从“小”做起。即应该先夯实传统数据管理系统,然后再逐渐尝试新的技术。这里所说的小并不是数据量上的小,而是指包括数据库、数据仓库在内的这些传统平台中的数据。事实上,如今的数据仓库已经能够处理各种各样类型的数据,包括文本数据、XML等这些非结构化或者半结构化的数据。而你所需要的大部分业务洞察,也都隐藏在这些高价值的数据背后。

最后,大数据同样要关注的一点就是数据质量。有人说,大数据不需要准确的数据,只要数据量够大就能从中分析出趋势。这其实是大数据的一个主要误区,数据质量并没有因为数据量的增加而变得不重要。恰恰相反,数据质量从没有像现在这么重要过。根据Gartner机构的调查数据显示,数据质量工具市场规模正在逐年增长,不关注数据质量的大数据集成注定无法成功,高质量的数据对于大数据分析项目的成功将起到关键作用。

大数据时代,ETL仍将是主流

以上分析了要做好大数据项目的最重要的前提,那么接下来我们回到正题上:大数据时代,我们到底还需不需要ETL工具?如果认真阅读了文章的朋友应该已经能够得出答案了。是的,即使是进行大数据分析,ETL仍然是不可或缺的一个工具。

纵观现在的数据集成手段,除了ETL之外,还包括了数据虚拟化甚至数据湖(Data Lake)这样的概念。虽然承诺可以实现更好的数据集成效果,但无论是数据虚拟化还是数据湖都是比较新的技术,很大程度上它们也是IT厂商所宣传的理念,为的是更好地销售其解决方案。而且采用这些技术需要对原有的架构进行一定的改造,甚至是推倒重来。这对于在传统数据管理系统已经进行大量投入的企业来说,是难以接受的。更何况它最终实现的效果是否真的有那么好?谁也没有把握。因此在目前阶段,ETL毫无疑问依旧是企业最能依仗并且最成熟的数据集成工具。而且其自带的数据清洗与数据质量管理功能也是其他解决方案所无法比拟的。

在目前的ETL工具市场中,我们可以大致分成两种类型。一种是数据库厂商自带的工具,比如IBM的Datastage、Oracle的GoldenGate等;还有一种就是第三方工具,比如Informatica或者国内的BeeDI等。那么现在的问题是,我们究竟选择一款什么样的ETL工具?

简单总结起来,我们可以注意以下几点:

第一、尽可能支持多种数据源。如果一款ETL工具只支持一种或有限的几种数据源,那么它的应用范围就会非常窄。这样的ETL工具往往是与数据库产品做捆绑的,对于异构系统的支持不好。如果你需要从多种数据源来进行数据集成,我们建议尽量不要采用这样的工具。

第二、操作要尽可能简单。DBA的首要工作并不是做数据集成,而是要对整个数据库环境进行维护,从而保证业务的稳定运行。如果一款ETL工具过于复杂,且用户界面不够友好的话,那么你的DBA就要花很多时间来熟悉,造成不必要的时间浪费。

第三、要具备足够的安全性。许多企业在做数据集成的时候往往会忽略数据的安全性问题,但如果在一个环节出现漏洞,那么就可能对你的企业造成难以弥补的损失。因此一款好的ETL工具,必须要具备足够的安全保障,在数据传输的过程中不会出现漏洞和数据丢失的情况。

当然,最重要的是企业需要根据自身的业务需求来选择ETL工具,也许适合你的并不适合他。但以上所提到的,是在选择ETL工具时最基本的考量因素,只有达到这几点,才能成为真正的企业级ETL产品。

本文摘自北京灵蜂纵横软件有限公司微信公众号(beeload),已授权TechTarget中国进行内容发布,未经允许,不得擅自转载。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Livbee
Livbee

相关推荐