选择合适的ETL工具 关键看什么?

日期: 2017-01-09 作者:Craig Stedman翻译:冯昀晖 来源:TechTarget中国 英文

选择合适的ETL工具进行数据集成可能是一个挑战。那么如何寻找合适的ETL软件呢? 抽取、转换和加载(ETL)是IT团队和分析人员最常用的数据整合流程。ETL过程中,先从源系统抽取数据,然后为下游处理和分析用途做数据转换,最后把转换后的数据加载到目标系统中(可能是企业数据仓库或者是大数据应用Hadoop集群等)。 ETL工具可以自动化完成这项动作,相比用SQL或其它编程语言手工编写整合数据的脚本,ETL处理流程相当于流水线作业。

然而,手工编码在数据集成开发者、数据分析师和其它用户群中仍然普遍存在。如果组织期望摆脱手工编码的状态,最好的办法是选择一款能满足数据集成需求的最佳ETL工具,这类ETL软……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

选择合适的ETL工具进行数据集成可能是一个挑战。那么如何寻找合适的ETL软件呢?

抽取、转换和加载(ETL)是IT团队和分析人员最常用的数据整合流程。ETL过程中,先从源系统抽取数据,然后为下游处理和分析用途做数据转换,最后把转换后的数据加载到目标系统中(可能是企业数据仓库或者是大数据应用Hadoop集群等)。

ETL工具可以自动化完成这项动作,相比用SQL或其它编程语言手工编写整合数据的脚本,ETL处理流程相当于流水线作业。然而,手工编码在数据集成开发者、数据分析师和其它用户群中仍然普遍存在。如果组织期望摆脱手工编码的状态,最好的办法是选择一款能满足数据集成需求的最佳ETL工具,这类ETL软件已经发展得相当成熟了。

Rick Sherman是Athena IT解决方案执行公司创始人(该公司位于美国马萨诸塞州Maynard),他曾在2012年TechTarget组织的一次互动问答时提到,自二十世纪九十年代ETL软件和数据集成产品出现以来,到现在这些软件已经发生了很大的变化,尤其是ETL软件。最初的ETL工具定位是从A系统到B系统批量转移数据,并不提供更丰富的功能。但是那种状态持续时间不长。Sherman是最早的使用者,他指出,现在这些产品都增加了预定义集成流程、ETL过程和代码管理功能,并内置了集成过程文档。

普遍追求的ETL功能特性

为了说明ETL的变革发展,Sherman和其它数据管理咨询顾问都介绍了现在大部分ETL厂商都提供的一些核心功能,这也是大部分用户所期望的。主要功能内容如下: 

  • 能够连接各种数据源抽取数据,支持各种数据库类型(关系型、NoSQL类型等),支持基于Hadoop和Spark这类技术构建的大数据系统,平面文件存储,应用程序之间的消息队列等。
  • 提供基于GUI的设计环境,支持拖拽开发源系统和目标系统之间的映射和ETL工作流。
  • 提供基于团队协作开发集成项目的功能,提供相关版本控制和发布管理功能。
  • 提供基本的数据转换功能。例如:数据类型转换、格式转换、字符串处理,并提供数据映射和工作流编排功能。
  • 内置数据分析软件,可以在执行ETL流程之前分析源数据的一致性、依赖关系和其它属性。
  • 提供数据质量和清洗功能用于识别和修复数据集中的错误,还要提供数据同步功能保持源系统和目标系统的数据一致性。
  • 为同步集成流程提供元数据管理功能,把数据转换和业务规则文档化。
  • 提供任务调度和流程管理控制功能,提供运行时监控和错误告警,错误处理和日志记录功能。

现代ETL工具的其它常见功能还有:支持集成的数据存储在内部构建系统和云环境,支持混合两种类型平台的混合云环境。

大部分供应商现在还提供把ETL后两个流程调换顺序的功能,即抽取、加载和转换(ELT)。ELT让用户可以在把数据加载到目标系统之后再做操作和转换。这种功能特别适合大数据应用。原始数据量特别大,要先导入Hadoop分布式文件系统、NoSQL数据库或者其它存储机制中,然后根据不同的分析用途需求做过滤处理。

ETL工具发展成为集成套件

传统ETL工具仍然在数据集成市场占最大比例,咨询和市场研究公司Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。尽管在许多情况下,开始使用ETL工具的厂商宣称他们还有其它类型的技术,整体形成功能更完善的数据整合套件。

除了批量ETL流程,这些产品套件通常会提供数据复制、变化数据捕获和其它形式的实时集成;数据虚拟化软件可以提供数据集成视图,不需要从源系统抽取数据加载到中心数据仓库或者其它目标系统就能看到集成后的效果;还有流处理和事件处理工具;以及通过面向服务的架构和企业服务总线技术实现应用集成功能的产品。

在择ETL工具处理数据集成任务的时候,有几十家供应商可供考虑。大部分厂商都有完整的集成套件,例如:Informatica、IBM、SAP、Oracle、SAS、微软和Information Builders公司。另外,还有一些低成本的开源ETL集成平台可供选择,比如:Talend、Pentaho和TIBCO软件公司的Jaspersoft。

此外,市场上还有很多小供应商,包括ETL专家和公司,他们都在关注专门垂直行业或者特定类型的应用集成。另一种方案是数据仓库自动化软件,这种软件可以生成集成代码作为数据仓库开发流程的一部分,无需独立的ETL工具或者服务器,不过一些ETL支持者认为这种产品在功能方面比不上主流的数据集成工具。

相关推荐