Athena咨询公司的创始人Rick Sherman认为,数据集成目前仍处于手工操作阶段,主要通过SQL编码与存储过程来实现。编写SQL集成脚本看上去不费事,也不消耗什么成本,但是手工编码可能已经不再是数据集成的最佳方式。在TechTarget对Sherman的采访中,他还谈到了目前可用的数据集成工具的种类,并针对如何评估工具、如何选择最符合企业需求的技术提供了相关建议。以下部分为采访内容。
TechTarget:目前对于数据集成来讲,手工编码有多普及?是不是大多数企业都在使用这个方式?
Sherman:非常非常普及,我得说这很不幸。我想无论企业规模如何,手工操作还是数据集成最主流的一种方式。很多使用数据仓库的大型企业会使用数据集成软件;但是即便如此,一旦超出企业数据仓库、数据集市或者报告数据库的范围,人们哪怕从企业应用程序中提取数据进行一点简单的报表分析工作,都必须通过手工编写代码,也就是说通过SQL脚本或存储过程。在中小企业中更是如此,数据迁移和集成全靠SQL。
TechTarget:企业为什么那么依赖手工编码?
Sherman:第一,手工编码方便快捷。大多数公司都会部署企业应用软件,或者聘用懂编码和SQL的开发人员。既然有了相关的技术,那就为其所用了。第二,很多情况下,数据集成流程不需要多么周详的计划,这就使得企业很容易通过SQL或存储过程的方式,在需要的时候获取数据,进行报表分析。第三,数据源在不断增多。
还有一方面,整个市场都由数据提取、转换和加载(ETL)以及其他数据集成软件产品主导。大多数IT业内人士都认为一流的产品偏贵,于是企业就会考虑到预算,从而决定采用手工编码。另外,市面上很多ETL及其他数据集成产品都与各式各样的数据库进行捆绑,开源集成产品也不例外,人们自然以为这些产品不会太复杂。因此,很多不知名的产品和技术就得不到大多数IT人士的认同。他们认为,自己了解的产品太贵,不贵的又不了解或者不够复杂。这样一来,SQL就成了大家的宠儿了。
TechTarget:手工编码有什么潜在的缺陷吗?自动化工具又有什么优势呢?
Sherman:需要注意的是,许多ETL应用工具已经发展出了更加成熟的数据集成套件。这些工具还在早期的时候,它们只是将数据从一个地方转移到另外一个地方,并没有太多的功能,但时至今日,ETL工具中已经包含了许多数据集成流程。如果你采用手工编码,就必须重新开发这些流程。因此,自动化工具的优点之一就是省去了重新开发的工作,并自动进行编码管理、流程管理和嵌入式文件编制。根据我多年的经验,如果采用SQL编码,文件编制就不会在存储过程中进行;代码广泛分布在各个数据库中,连开发人员都很难找出其中的联系。如果从开销上来看,手工编码似乎很便宜,因为你只需要编写代码,不需要购买什么软件。但是从长远上来看,你会弄得一团糟,因为这些编码会变得越来越多,无法管理。
TechTarget:ETL现在还是不是应用最广的数据集成软件形式?如果是的话,你认为以后会不会有所改变?或者ETL会不会在数据集成技术中持续保持领先地位?
Sherman:除去手工编码,ETL当然是最为领先的数据集成工具,这是毫无疑问的,而且从某种程度上来讲,尤其对于新兴厂商,ETL都快成为“活化石”了。ETL以批量处理著称,在后台按天运行。然而,新出的ETL工具要复杂得多,融入了实时的复杂事件流程、数据虚拟化、网页或数据服务等这些全新的技术。我认为,那些旧一些的批量处理ETL工具对于今天的企业相关性没有以前那么大,但是新产品不一样,在未来一段时间内仍然会是主导。
TechTarget:像数据虚拟化和其他实时数据集成工具,它们是不是只能用于某些领域?还是广泛适用于各种集成用途?
Sherman:每种工具当然有各自的专业领域,比如,数据虚拟化可在有相关需求的时候对结构化与非结构化数据进行实时集成。有这样一个经典案例,某金融服务企业呼叫中心的客户数据遍布各个系统中,与其把所有的信息迁移到同一个数据仓库中,不如从不同的地点进行实时集成。但有时候并不是非此即彼。我们总在追求一劳永逸,希望有一项工具可以包办一切。这就是问题所在。数据虚拟化如此,数据仓库亦是如此。它们都不可能面面俱到。因此,你有可能两种技术都需要,甚至需要更多种以满足不同的业务需求。一切都由业务需求来决定。企业的数据越多样化,就越需要多种集成应用工具。
TechTarget:说到多样化,我们来谈谈大数据吧。非结构化数据的增长导致企业对于更好的捕捉、存储与分析方式的追求。你认为这方面对数据集成需求和流程有影响吗?
Sherman:当然有影响。大数据的3V——速率、种类和容量对所有人都有影响,无论是大公司还是小公司,无论是什么类型的公司。社交媒体数据、网页数据、各种各样的通信交流数据、机器数据等等——对这些非结构化数据的追求当然已经超出了现有数据集成工具应有的功能。所以,NoSQL、文本搜索工具的出现就弥补了市场上这一块空缺。但我始终认为它们只是补充性的应用工具。我认为它们并没有真正涵盖了结构化数据,而目前的数据集成化工具又无法很好地处理非结构化数据,所以这两种工具企业都需要。
TechTarget:许多厂商都推出了数据集成工具套件的云版本。你认为现在将数据放到云中集成靠谱吗?
Sherman:云集成的第一波热潮针对数据在云应用中的迁移,代表厂商为Salesforce。这也是云集成的主要用途:将数据在云应用与内部应用之间迁入迁出。随着越来越多不同规模的企业采用云应用,它势必越来越流行。不过,有一些公司还是对云应用有所顾虑,主要有两点原因。第一,云集成工具总体来讲比内部应用工具分量轻一点,因为它的功能主要在于数据迁移和简单的数据集成。第二,由于安全、隐私、网络带宽及其他实际应用方面的考虑,企业仍然在内部应用中保留了大量数据,只把一部分数据放到了云上。如果这些问题能够得到解决,人们对云集成会更加放心,也会更大程度地进行应用。
TechTarget:企业应该怎样评估各种不同的数据集成软件?又怎样决定哪一项或哪一个组合最适合他们呢?
Sherman:首先,企业需要知道在数据孤岛中自己的位置。他们的数据流程情况怎样,是不是妨碍了业务分析?接着,来年的计划是什么,长远的方向又是什么。基于这些信息,他们可以开始将所需工具进行分类。从技术的角度来看,主要处理的是不是内部应用数据?比如,如果是企业应用程序,他们想要在什么地方载入数据仓库、增加BI应用?需不需要实时处理?需不需要云集成?之后,企业需要认真地考虑一下自身的技术优势所在,以及有可能凸显自身技术优势的地方。
市场上有大量的ETL与数据集成工具,价格有高有低,复杂程度各不相同。很多情况下,企业都会直接把目光投向最贵的产品,然后回到我之前提到过的:“哦,价格太贵了,那我们还是用SQL编码吧。”我认为他们应该看一看不同的价位,想想便宜一些的是不是符合公司的需求,如果不行再考虑价格高的。不过,如果你的数据集成需求大、数据孤岛又多,那么无论什么价位的工具都好过手工编码。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
处理大数据 现有的数据集成框架还远远不够
对于初学者来说,大型数据架构通常包括内部系统和外部数据源的组合。除结构化交易数据之外,它们还添加了各种类型的非结构化和半结构化数据。
-
珠宝销售的“后实体时代” 拼的是预测分析模型
预测模型竟然可以帮助美国电视台Jewelry Television的主持人销售商品?这得益于将数据集成到分析应用程序中的数据集成和准备流程。
-
选择合适的ETL工具 关键看什么?
传统ETL工具仍然在数据集成市场占最大比例,Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。
-
云计算固然好 但挑战依然存在
云计算的出现,让企业在投资IT和商业应用时,多了一种部署选择,不再仅限于本地部署。但云环境也经常会增加企业使用的系统的数量。