毫无疑问,数据集成技术是一项好技术。但是,为什么一些公司对它不甚重视呢? 数据集成软件曾经主要由提取、转换和加载(ETL)工具构成,但是现在已经发生很大变化。如果这些公司愿意,那么现在他们可以使用这些技术帮助他们自动完成现实世界数据源系统的数据集成。数据集成工具也提高了IT生产力,简化了将新数据源整合到数据仓库和商业智能(BI)系统(供用户分析)的过程。
尽管数据集成工具在功能和性能方向具有很多改进,而且市场产品也越来越丰富,但是许多企业数据集成项目仍然通过手工编码方法完成。这些方法效率很低,而且文档较差。结果,大多数公司没有获得自动化数据集成过程所带来的生产力及代码重用好处。相反,他……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
毫无疑问,数据集成技术是一项好技术。但是,为什么一些公司对它不甚重视呢?
数据集成软件曾经主要由提取、转换和加载(ETL)工具构成,但是现在已经发生很大变化。如果这些公司愿意,那么现在他们可以使用这些技术帮助他们自动完成现实世界数据源系统的数据集成。数据集成工具也提高了IT生产力,简化了将新数据源整合到数据仓库和商业智能(BI)系统(供用户分析)的过程。
尽管数据集成工具在功能和性能方向具有很多改进,而且市场产品也越来越丰富,但是许多企业数据集成项目仍然通过手工编码方法完成。这些方法效率很低,而且文档较差。结果,大多数公司没有获得自动化数据集成过程所带来的生产力及代码重用好处。相反,他们反而受制于不断积压的数据集成工具,包括需要持续更新和修复旧的手工编码整合程序。
即使是那些使用自动化工具将数据集成和加载到企业数据仓库的大型公司,他们也仍然使用自行编写的SQL脚本来加载数据集市、在线分析处理数据库及BI应用程序所使用的其他数据结构。可以预见,中小型企业并不会广泛使用这些整合工具。
我认为大多数企业不使用数据集成技术的最主要原因是,他们并未完全理解这项技术的作用。下面,让我看一些关于这项技术的错误想法。
迷恋过去的整合技术
许多IT经理仍未认识到数据集成软件在近几年的发展速度。它确实取得了长足的进步。第一代ETL工具只是简单的代码生成工具,它们非常昂贵,但功能有限。对它们进行评估之后,许多公司发现开发自定义整合代码可能更加现实。
第二代ETL产品增加了更多的功能,但是它们主要面向批处理,但是性能不佳。基于这两种工具,许多IT人员都认为ETL软件不值得学习,而且也无法满足他们的性能要求。
但是IT人员必须认识到,新一代数据集成产品由成熟的工具套件构成,其中包括ETL、企业应用整合、实时整合和数据虚拟化功能,以及数据清理和数据分析工具。这些工具套件支持通过传统批处理模式或实时(或接近实时)的Web服务实现的数据集成过程。内置的最佳实践方法可以帮助改进软件性能和用户生产力。
同时,也有一些专业技术供应商(如数据虚拟化和复杂事件处理)开始提供更有针对性的工具套件替代产品。在这一点上,我们没有理由继续留恋过去的自动化整合工具功能。
SQL无法解决所有整合问题
另一个常见的误区是,有人认为手工编写SQL代码就足以执行所有的数据集成任务。虽然现在能够编写SQL代码的人很多,但是实际上数据集成通常会承担许多更为复杂的任务,而绝非仅仅是编写一些简单的SQL语句。手工编写整合脚本非常耗费时间,而且通常不具伸缩性,或者很容易失效。
多年以来,大型软件供应商的开发人员都具有设计复杂的工作流程和数据集成程序的丰富经验,可以处理大多数企业所需要的各种数据集成需求。为用户手工编写代码的IT和数据集成人员都不具备这些经验。实际上,这些SQL程序员不会利用可重用的整合工作流程和转换程序,而总是在每一个项目中从零开始编码代码。
另一个问题是,IT部门通常不会进行关于有效数据集成的培训。这是一个严重的问题,即使IT部门选择使用自动化工具,结果也一样。虽然他们可能会提供一些工具使用培训,但是他们忽视了数据集成最佳实践方法的学习,或者不重视理解整合过程的工作方式。在缺少这些认知的情况下,许多公司都无法有效利用数据集成工具的价值。有一些公司最终只能用回原来的手工编码方法。
由于存在这些误区,所以许多公司的数据集成依然停留在费时费力的方法中——这造成了极大的资源浪费。更糟糕的是,企业无法真正利用他们所掌握的数据,而且他们经常被迫增加IT基础架构的升级和扩容投入,用于支持这些无效或低效的数据集成过程。
幸好,现在出现了许多功能强大的工具,也出现了许多精通这些整合技术和方法的IT专业人员和咨询人员。但是,这些公司必须认识到问题的存在,以及解决这些问题的可靠方法,才能够利用现有产品,解决现有的数据集成问题。
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
处理大数据 现有的数据集成框架还远远不够
对于初学者来说,大型数据架构通常包括内部系统和外部数据源的组合。除结构化交易数据之外,它们还添加了各种类型的非结构化和半结构化数据。
-
珠宝销售的“后实体时代” 拼的是预测分析模型
预测模型竟然可以帮助美国电视台Jewelry Television的主持人销售商品?这得益于将数据集成到分析应用程序中的数据集成和准备流程。
-
年度数据仓库市场格局新鲜出炉 论技术论实力谁更受青睐?
国际数据管理分析机构The Information Difference在最新年度数据仓库市场格局(Big Data Warehouse Landscape)报告中,对全球前25家数据仓库厂商进行了评估。
-
体育机构合理选择数据仓库 上演“球迷也疯狂”
体育运动机构如何能更准确地熟悉球迷群体呢?NBA的夏洛特黄蜂队提出了这个问题,并在Phizzle FanTracker平台中获得了答案。