我们都熟知很多大型组织数据质量差的情况。例如,你知道发送给你的信件和账单上,你的姓名有多少种拼写错误的版本吗?
这种问题的出现有几个根本原因。首先,公司的数据质量存在基本问题。人们总是会对激励做出反应,做数据录入的人并不是组织中最高薪的人。如果他们做销售,他们会关心你的信用卡消费明细,因为否则的话他们不会得到支付佣金,但是其它关于你的信息可能就不会太吸引他们了。
但是,一旦获取了数据,新的问题就出现了。数据过时的很快:根据美国人口普查局的数据显示,在美国每年有15%的人群变更地址(在英国这个数值大约是11%)。对于你打交道的所有公司和政府部门,有多少会及时更新你的个人数据?
当然,在这里我们是在谈论纯数据质量问题,也就是地址记录正确还是错误。在大公司和数据占重要地位的情况下会有更多潜在问题。根据我的公司2008年的一份“信息差异”调查,平均来看,大公司有六套不同的系统来保存设想中的客户主数据,平均有九套生产数据,有13%的参与调查者有100套以上的数据来源。没有人打算把这一团混乱的情况暴露出来,但是大部分大型公司都有成打的甚至有上百套独立的应用(这更切合实际的情况),从ERP到销售协力自动控制,从供应链到营销等等各种系统,大量的电子表格推动了许多公司。
当新应用部署时,从手工台账、电子表格或者从其它一些现存的信息来源提取信息是很常见的事情。理想情况下可能会有合适的维护界面,但是更可能是一次性数据导入,随着时间推移这些来源会开始慢慢分离,因为它们是独立维护的。
即便这种问题可以避免,但是对于收购其他公司的公司,合并过来的计算机系统是不可能魔术般地一夜之间完成整合;一次整合可能会花上几年时间。对于一年要做许多收购的全球化公司,我们不难看到,即使是最纯粹最完备的技术架构也会很快出现不一致数据的问题。
走进主数据管理
该是主数据管理(MDM)登场的时候了。它基本上不是一个新话题,但是在过去几十年来,人们开发了那么多种技术,为管理主数据(区别于传统数据)提供了专门的集线器。这种思路考虑,这些集线器可以提供单一的授权的主数据源,给需要信息的其它系统。然而,主数据管理基本还处在初生期,甚至还未进入青少年期,相对来讲只有很少部分公司能够完整地在整个企业范围内和所有数据领域范围内成功实施主数据管理。
比较明确的一点是,主数据策略和数据质量是密切相关的。在2010年的信息差异调查报告中,参与调查者表示他们10%的主数据管理项目有数据质量活动的预算,而实际花费平均值为30%,是他们估算预期的三倍。随着时间推移,许多主数据管理供应商都充分意识到了这一点。
数据质量市场
在一开始的时候,很少有供应商集成数据质量产品,大部分可选的“合作伙伴”都是与数据质量供应商约定的,比如Trillium和Address Doctor(已经被Informatica公司收购)。数据质量市场一直有一个围绕处理客户名称和地址的问题,许多供应商擅长处理本地邮政地址,但是很少有供应商能提供有效的输入给其它数据领域,比如产品或资产数据。
这种领域比客户姓名和地址更复杂,结构化程度更低。所以以众所周知的算法应用简单规则的方式就更难执行了,比如“Soundex”和“Levenshtein”可以被应用于客户数据。相对而言,很少有数据质量供应商在客户数据上迷失,尽管有一些供应商(比如:Datactics公司,Inquera公司和已经被甲骨文公司收购的Silver Creek公司)是专门做产品数据的。
我认为这种集成会走的更远。虽然不考虑主数据管理也可能执行数据质量项目,但是反过来就不一定了:每个主数据项目必须有数据质量组件。如果你不这么认为,你的公司很快就会发现数据质量工作会消耗掉你主数据管理预算的巨大部分。这是因为数据质量的状况总是比人们预想的要糟糕——我从没有看到一个主数据管理项目的数据质量比预期的要更好。
对于主数据管理软件供应商来说,更重要的应该是考虑数据质量如何可以无缝地嵌入到他们的软件中,尤其是关于如何处理比客户姓名和地址更进一步的数据质量。市场上有大量数据质量供应商,所以有许多合作伙伴和并购机会,但是不固定的合作关系对于目前环境来讲并不是什么好事。
从企业的视角来看,这意味着数据质量为主数据管理项目的核心部分,你需要在评估软件和规划项目时考虑它,研究供应商提供了哪些数据质量功能,集成性能好不好,在你的特定数据环境下运行情况如何。
如果你的主数据管理项目主旨是围绕产品、资产或者金融数据的话,供应商提供的客户数据匹配算法演示不能说明什么。最重要的是,要为你项目中的数据质量组件留出充足的资源。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
实施Tableau数据治理策略 抵御自助服务软件部署风险
想要Tableau部署成功,数据治理是重中之重。但是,实施治理政策并不意味着关闭数据访问或限制人们可以做的事情。
-
面对数据质量的业务痛点 能源公司Breitburn是如何应对的?
总部位于洛杉矶的能源公司Breitburn Energy Partners使用数据质量工具来解决糟糕数据的业务痛点,并使用软件给最终用户提供解决数据质量问题的方法。
-
数据分析 让零售业再现生机
进入数字时代,技术和数据的有效使用成为帮助企业颠覆传统的动力,也势必将改变零售业的格局。近年来,“全渠道零售”成为了热门词汇,因而了解客户及其需求变得尤为重要。
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。