如果业务分析师希望从数据仓库获得最大价值,那么他们必须可靠高效地查询数据仓库的数据。确定数据库表的合理规模及表之间和清晰关系,使企业能够将各个分公司及部门的活动关联在一起,确定各个部分如何构成一个整体。 在将多个系统的数据关联到一起时,不可避免地就需要将一个系统的数据与另一个系统的数据相关联。CRM系统拥有特殊的客户识别方法 。
支付帐号系统则使用另一种识别方法 。配送系统要求与订单处理系统数据进行关联,才能够与支付帐号系统相关联。 这样会对数据仓库产生双重影响。数据仓库必须包含创建系统关联所需要的全部数据。
数据仓库必须包含CRM、支付帐号和配送系统的数据表。通常,需要对表进行映射,将各……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
如果业务分析师希望从数据仓库获得最大价值,那么他们必须可靠高效地查询数据仓库的数据。确定数据库表的合理规模及表之间和清晰关系,使企业能够将各个分公司及部门的活动关联在一起,确定各个部分如何构成一个整体。
在将多个系统的数据关联到一起时,不可避免地就需要将一个系统的数据与另一个系统的数据相关联。CRM系统拥有特殊的客户识别方法 。支付帐号系统则使用另一种识别方法 。配送系统要求与订单处理系统数据进行关联,才能够与支付帐号系统相关联。
这样会对数据仓库产生双重影响。数据仓库必须包含创建系统关联所需要的全部数据。数据仓库必须包含CRM、支付帐号和配送系统的数据表。通常,需要对表进行映射,将各个系统的数据连接在一起。数据仓库还需要一定的处理带宽支持,才能够实现数据关联,并且将它保存到必要的真实表和规模表中。
在处理源系统数据时,我经常会遇到错误或不完整的问题。在对多个系统的数据进行关联时,必须确定一些用于关联不同系统数据的关键域。这样就需要对数据进行清理。数据清理需要一些处理能力和元数据,用于确定如何修正数据错误和连接各个系统。数据挖掘可用于替换丢失的数据。另外,还可以使用一些模糊逻辑方法隔离出正常数据。另外还有其他一些技术,虽然需要额外的空间和计算能力,但是可以提高数据的可用性。数据反重复性也是一个问题。一些简单的数据不一致问题就可能导致主数据出现错误联合,致使在多系统框架中一个事务可能会变成多个事务,从而引起数据重复性问题。虽然,删除重复行最终能够减少总的数据量,但是这要求数据仓库系统能够临时管理重复行,并且有足够的处理能力查找和删除这些行。额外的排序和过滤会大大增加数据仓库系统处理压力。
注:许多源系统不具备整洁的内部数据。大多数源系统的主要目标是处理各个事务,因此它们并不重视数据完整性——特别是在事务所需要的信息不全时。保持数据仓库和数据的整洁性,有利于提高报表创建速度和向业务用户提供更优的信息。
许多组织拥有一些外部信息。例如,通用市场趋势、广告商或其他数据服务的方向、其他组织的数据备份、支付交易记录、Web服务器访问日志等,都需要存储到数据库。有一些外部信息源非常大。它们需要小心处理,因为它们将来可能会消失。通常,这意味着需要将存储它们的原始格式,复制数据,并且将它整合到数据仓库中。额外的存储和副本都会增加数据仓库的规模,也会增加带宽需求。
一旦数据整洁性、相关性和存在性得到保证,公司就拥有了完整的数据源。他们就能够将销售活动与购买和制造活动进行对比。这样就有利于组织实现一种整体内聚的分析视图。
作者
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
用了多年的数据指示器软件,可能真的用错了
数据指示器软件已经存在很多年了,许多企业可能认为,现在指示器的实现是全自动的,无需人为干涉。但他们错了,这种观点可能会带来严重的问题。
-
BI和AI是两个独立的概念?是时候改变这种想法了
尽管BI和AI是两个独立的概念,但AI和BI相结合这种想法应该得到更多关注。
-
从概念到应用 一站式区分大数据和BI
IT行业的新鲜词层出不穷,最近几年,大家都在谈论大数据和BI,可是你真的明白大数据和BI之间的区别了吗?