企业数据仓库的数据相关性

日期: 2012-05-28 作者:Mark Scott翻译:曾少宁 来源:TechTarget中国 英文

如果业务分析师希望从数据仓库获得最大价值,那么他们必须可靠高效地查询数据仓库的数据。确定数据库表的合理规模及表之间和清晰关系,使企业能够将各个分公司及部门的活动关联在一起,确定各个部分如何构成一个整体。   在将多个系统的数据关联到一起时,不可避免地就需要将一个系统的数据与另一个系统的数据相关联。CRM系统拥有特殊的客户识别方法 。

支付帐号系统则使用另一种识别方法 。配送系统要求与订单处理系统数据进行关联,才能够与支付帐号系统相关联。   这样会对数据仓库产生双重影响。数据仓库必须包含创建系统关联所需要的全部数据。

数据仓库必须包含CRM、支付帐号和配送系统的数据表。通常,需要对表进行映射,将各……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

如果业务分析师希望从数据仓库获得最大价值,那么他们必须可靠高效地查询数据仓库的数据。确定数据库表的合理规模及表之间和清晰关系,使企业能够将各个分公司及部门的活动关联在一起,确定各个部分如何构成一个整体。

  在将多个系统的数据关联到一起时,不可避免地就需要将一个系统的数据与另一个系统的数据相关联。CRM系统拥有特殊的客户识别方法 。支付帐号系统则使用另一种识别方法 。配送系统要求与订单处理系统数据进行关联,才能够与支付帐号系统相关联。

  这样会对数据仓库产生双重影响。数据仓库必须包含创建系统关联所需要的全部数据。数据仓库必须包含CRM、支付帐号和配送系统的数据表。通常,需要对表进行映射,将各个系统的数据连接在一起。数据仓库还需要一定的处理带宽支持,才能够实现数据关联,并且将它保存到必要的真实表和规模表中。

  在处理源系统数据时,我经常会遇到错误或不完整的问题。在对多个系统的数据进行关联时,必须确定一些用于关联不同系统数据的关键域。这样就需要对数据进行清理。数据清理需要一些处理能力和元数据,用于确定如何修正数据错误和连接各个系统。数据挖掘可用于替换丢失的数据。另外,还可以使用一些模糊逻辑方法隔离出正常数据。另外还有其他一些技术,虽然需要额外的空间和计算能力,但是可以提高数据的可用性。数据反重复性也是一个问题。一些简单的数据不一致问题就可能导致主数据出现错误联合,致使在多系统框架中一个事务可能会变成多个事务,从而引起数据重复性问题。虽然,删除重复行最终能够减少总的数据量,但是这要求数据仓库系统能够临时管理重复行,并且有足够的处理能力查找和删除这些行。额外的排序和过滤会大大增加数据仓库系统处理压力。

  注:许多源系统不具备整洁的内部数据。大多数源系统的主要目标是处理各个事务,因此它们并不重视数据完整性——特别是在事务所需要的信息不全时。保持数据仓库和数据的整洁性,有利于提高报表创建速度和向业务用户提供更优的信息。

  许多组织拥有一些外部信息。例如,通用市场趋势、广告商或其他数据服务的方向、其他组织的数据备份、支付交易记录、Web服务器访问日志等,都需要存储到数据库。有一些外部信息源非常大。它们需要小心处理,因为它们将来可能会消失。通常,这意味着需要将存储它们的原始格式,复制数据,并且将它整合到数据仓库中。额外的存储和副本都会增加数据仓库的规模,也会增加带宽需求。

  一旦数据整洁性、相关性和存在性得到保证,公司就拥有了完整的数据源。他们就能够将销售活动与购买和制造活动进行对比。这样就有利于组织实现一种整体内聚的分析视图。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐