放下对数据集成工具的偏见

日期: 2016-05-17 作者:Rick Sherman翻译:杨宏玉 来源:TechTarget中国 英文

随着企业产生和收集的数据量不断增长,使用商业数据集成平台可以帮助企业管理和简化数据的共享流程。 大数据对企业正在产生重大的影响,云应用程序正在快速取代传统的本地应用程序,这些趋势的共同基础都是企业对数据需求的不断增长。这些类似的需求已经成为数据仓库环境中一个关键的组成部分,对于商业的成功也更为重要。 数据集成包括采集数据,通常来自于多个数据源,接下来将它转换成有意义的信息,以供企业高管,数据分析师和其他企业用户使用。

随着企业产生和收集的数据量日益增长,它们可以选择使用商业数据集成平台,来帮助管理和简化数据的共享流程。 数据集成平台是什么? 打包的数据集成软件首先进行提取、转换和加载(ETL)过……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

随着企业产生和收集的数据量不断增长,使用商业数据集成平台可以帮助企业管理和简化数据的共享流程。

大数据对企业正在产生重大的影响,云应用程序正在快速取代传统的本地应用程序,这些趋势的共同基础都是企业对数据需求的不断增长。这些类似的需求已经成为数据仓库环境中一个关键的组成部分,对于商业的成功也更为重要。

数据集成包括采集数据,通常来自于多个数据源,接下来将它转换成有意义的信息,以供企业高管,数据分析师和其他企业用户使用。随着企业产生和收集的数据量日益增长,它们可以选择使用商业数据集成平台,来帮助管理和简化数据的共享流程。

数据集成平台是什么?

打包的数据集成软件首先进行提取、转换和加载(ETL)过程,以自动化的形式从源系统中提取数据,转换成一致的格式,并加载到数据仓库或其他目标数据库中。第一代的ETL工具包含一个简单却十分昂贵的代码生成器,其功能有限。许多公司评估这些工具后,发现使用它们开发自己的定制集成代码会更为有效。第二代ETL软件提供了更多的功能,但它主要是面向批量处理,并没有更突出的表现。使用过这两套工具之后,许多经理觉得,ETL软件并不值得付出太多成本或努力来学习使用,因为它无法满足性能需求。

但是,多年来,ETL工具在几个关键领域都取得了一定的发展,包括开发、业务处理和集成功能等。为了让ETL成为一个更具可行性的开发平台,ETL供应商添加了对代码管理、版本控制、调试和文档生成等功能的支持。对于业务处理流程,ETL目前有了相应的内置功能,如错误处理,恢复或重新启动,运行时统计数据和调度安排等。

随着行业在数据集成领域获得了越来越多的经验,最优方法被开发出来,然后添加到ETL工具中,用于预先构建转换。这些转换包括数据捕获机制、缓慢转变维度,层次结构管理、数据连接、数据合并,引用查找和引用完整性检查等。利用内存、并行性和各种数据传输架构后,数据集成性能显著提升,

此外,ETL工具出现了一种变体,称为提取、加载和转换(ELT)。这类工具消除了ETL需要单独应用程序服务器的限制,它们可以部署在数据源,也可以参照其能力和配置,部署在对应的目标系统上。ELT方法让用户存储原始数据,然后根据需要转变全部数据或者数据子集,以供特定的商业智能(BI)和分析应用程序使用。

ETL工具逐渐演变成了数据集成平台

数据集成需求也已经超出了以往ETL具备的核心功能范围:加载数据仓库,数据集市;BI数据存储,如OLAP多维数据集。目前数据集成的任务包括:

  • B2B 集成
  • 云集成
  • 应用与业务流程集成
  • 数据迁移
  • 数据整合
  • 数据质量与净化
  • 主数据管理

随着上述任务的出现,出现了下面的集成类别,以针对特定用途和技术:

企业应用集成(EAI)。通常简称为应用程序集成,这个子类别,支持不同的应用程序之间的互操作,网络以及应用了面向服务体系结构和行业标准的数据服务的出现,让这一切成为了可能。企业服务总线是实现EAI功能的一种常见架构方式。

企业消息传递系统(EMS)。这种技术只关注提供不同应用程序之间的消息传递机制,这种传递使用了结构化的格式,如可扩展标记语言和JavaScript对象表示法。EMS工具提供了一个轻量级的集成服务,可以有效地提供来自不同数据源数据的实时更新。

企业信息集成(EII)。EII最初被称为数据联合,它提供了一个不同数据源数据的虚拟视图,但仅有有限的集成功能。现在这一代,称为数据虚拟化软件,提供了数据抽象层和数据服务层,针对各种各样的数据来源,包括结构化、半结构化和非结构化数据。

基于云的整合。作为一种服务集成平台(iPaaS),基于云的集成方式的出现,提供了云应用程序和数据库之间实时的互操作性。这些工具利用了EAI和EMS的功能,以云服务的形式部署。

最终,供应商把各个部分整合在一起,开始提供全面的数据集成套件。这些套件提供了混合功能,包括ETL、应用集成、基于云的集成、实时集成和数据虚拟化,以及数据清理和数据分析工具等。套件可以支持数据集成过程中传统的批处理模式,或者通过Web服务提供实时——或接近实时方式的支持。它们还可以处理本地和云端数据,以及几乎无结构的信息——系统日志,文本和其他形式的大数据,将这些数据与结构化交易数据一同处理。

放下对数据集成工具的偏见

相比于传统的手动编码方式,正确使用数据集成平台将大大提高用户的工作效率和数据集成的灵活性、可伸缩性和可扩展性。无论是通过人工编写SQL脚本或使用电子表格,手工编码在企业中仍在被广泛地使用。

基于工具数据集成开发与手工编码的比较

基于工具开发数据集成带来以下好处:

  • 基于行业最佳实践的可重用过程
  • 健壮的数据质量流程
  • 工作流、错误处理和重启或恢复功能
  • 流程和整个工作流的自文档化
  • 数据治理的可操作性
  • 冲击分析和世系功能的使用

有的企业坚持认为他们应该手动编写代码,而不是使用一个数据集成平台,他们列举了一些原因,然而,这些原因通常来源于以下对数据集成平台的误解:

集成工具太贵了。早期ETL工具十分昂贵,且是唯一的选择,这让企业认为集成工具同样昂贵,但许多数据集成平台厂商为了适应各种级别的预算,提供了多种可供考虑的价格。

集成平台需要高技能人力资源。另一个错误观念是企业认为使用商业软件需要数据集成开发人员在ETL工具领域有丰富的经验,需要丰富的技能,认为他们比新人更容易使用数据集成平台。

编码是低成本的。IT人员生成SQL代码时有一个由来已久的偏见:他们熟悉SQL,能够很快的根据情况创建代码,不需要许可或订阅费用。但是开始作为一个简单的SQL脚本,在随后可能很快地以滚雪球的形式扩张为许多脚本或存储过程的集合,这些无文档化的集成流程会变成一个大杂烩。修改代码花费的时间越来越长,需要消耗越来越多的资源来维护它。

数据集成平台市场

目前有多种数据集成平台可用,但市场却是由IBM,Informatica,Information Builders,微软和甲骨文所引领。其他通过市场份额或思想领导力证明被认为处于领导地位的企业还包括Pentaho、SAP、SAS和Talend。

所有这些供应商销售的数据集成的产品都需要企业部署在本地,但其可以集成本地或云中的数据。同时,Pentaho和Talend除了提供付费企业版本外,还提供开源版本的产品。定价另当别论,将在后面的文章中进行更深入的介绍。微软的独特之处在于,它将数据集成产品和数据库捆绑销售,而不是单独出售。

数据集成一直是一个以IT为中心的活动,它基于数据,数据库和其他相关技术。通常,数据集成平台被购买后,由购买企业负责管理和使用BI、数据仓库、主数据管理和其他数据管理计划。这些企业应该具备相关技能和经验,以便顺利地使用集成平台。一些具备多个集成用例和独立IT部门的领袖型企业,使用了集成能力中心来管理他们的数据集成平台,以避免集成和数据仓库的使用。

作者

Rick Sherman
Rick Sherman

咨询公司Athena IT Solutions的创始人,具有二十多年数据仓库和决策支持系统经验。他曾于1987年建立自己的第一个数据仓库和数据中心。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐