企业数据仓库如何过渡到大数据时代

日期: 2013-07-09 作者:Lockwood Lyon 来源:TechTarget中国

一般来说,大数据存储和分析会出现在企业数据仓库(EDW)中或是与之相关联的场景下。整合大数据解决方案的所有部分需要有对EDW流程每个部分进行转换。本文会对围绕EDW的主要工作进行总结,并讨论它们是如何受大数据影响的,以及如何在实施之前进行规划。   数据获取与采集   存储在EDW中的数据是从原始来源系统获取的,这些是实时处理业务数据的典型系统。

诸如ATM机,银行用户服务系统,在线订单录入系统,客户档案管理系统以及会计系统等这样一些客户接口系统。   数据转换与迁移   由于大多业务数据是以其原有形式呈现的,因此一些需要转换或是‘清洗’。典型的例子包括无效日期(比如02-31-2013,99-……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

一般来说,大数据存储和分析会出现在企业数据仓库(EDW)中或是与之相关联的场景下。整合大数据解决方案的所有部分需要有对EDW流程每个部分进行转换。本文会对围绕EDW的主要工作进行总结,并讨论它们是如何受大数据影响的,以及如何在实施之前进行规划。

  数据获取与采集

  存储在EDW中的数据是从原始来源系统获取的,这些是实时处理业务数据的典型系统。诸如ATM机,银行用户服务系统,在线订单录入系统,客户档案管理系统以及会计系统等这样一些客户接口系统。

  数据转换与迁移

  由于大多业务数据是以其原有形式呈现的,因此一些需要转换或是‘清洗’。典型的例子包括无效日期(比如02-31-2013,99-99-9999),缺失数据(一个不存在的客户所下的订单),未知数据(对于一个当前开放的账户其数据账户却是关闭的)等等。EDW转换流程会对源数据进行清洗,从而把它们以一种可用的形式存储到数据库中。

  这一子流程的另一部分是将数据从源系统迁移到EDW中去。这一过程可能会包含文件传输,消息传递,甚至还有高速硬件连接。

  数据暂存与键控

  在企业数据仓库中,将最初获得的数据存储在一个暂存区域中是很常见的,暂存区域通常是临时文件或数据库表。数据在载入EDW之前可以在那里得以积累并交叉引用。

  键控就是为EDW中的实体分配一个代理键的过程。那为什么不使用数据的自然键呢,例如账户号或是客户号?EDW是来自多个业务系统的实体组合。为了跨系统进行比较,键就必须拥有公共属性,比如“账户号”。企业可能就需要支持许多不同格式的数据项,每个都有不同的数据类型和长度。而指定一个代理键就可以允许使用公共键来比较这些实体以进行分析。

  数据访问与分析

  EDW中存入了数据之后,就可以展开分析了。大多数IT供应商为用户提供了软件工具来进行深入的分析,或者我们把它称作BI分析。一些软件能直接访问EDW数据,或者提取数据的子集以供本地分析。

  数据归档

  EDW中的数据会过期或是变得无关紧要。将旧数据从数据仓库中删除并归档。EDW人员与业务部门协作进行分析以确定归档数据是否可以存储在磁带上,或是必须将其保留以供今后法律及业务层面的需求之用,这一点是非常重要的。

  大数据如何影响数据仓库

  业务上处理的大数据会包含以下特点:

  • 从源系统捕获大量数据
  • 数据以高速到达
  • 半结构化或非结构化数据

  这就提出了一个非常有趣的问题:在你还没有进行分析的前提下,你如何知道会存储什么样的大数据?亦或是,在没有收集和存储的情况下你如何分析大数据?

  这是大数据实施的核心问题。甚至是一个包含大数据分析的小的测试或是试验项目都要求获取数据并存储。为了衡量投资一个分析解决方案的风险和回报,你必须首先进行EDW的收集、清洗、暂存以及键控这些步骤来处理大数据;否则,要比较并连接到EDW就会极其困难了。

  接下来的步骤就是确定EDW中的每个流程是如何受影响的。

  大数据获取与收集

  大数据通常意味着的仅仅是:大量数据。你必须为数据分配软硬件以及存储介质。包括应急存储数据,在能够迁移至EDW之前需要一个应急数据存储机制以防由于硬件缓慢造成的延迟。而且还要确定这些新设备和流程会如何影响你的灾备预案。

  最初的大数据分析测试可能会在数据源进行,而绕过EDW流程。但想要取得成功就应该考虑到这样一个事实,就是大数据分析还是要集成到EDW的数据访问和分析流程中的。

  大数据转换和迁移

  一些大数据实现包含非结构化数据。例如音频,图像和视频文件以及传真等等。尽管从技术上讲,这些数据是“结构化”的,因为它们是可听和可见的。但结构化这个词用在大数据环境下意味着数据拥有实体,属性和关系。换言之就是存储在数据库表中的记录,字段和键。

  另外一项是半结构化数据,最常见的例子就是XML流数据。很多业务应用程序以常用格式把XML作为一种数据编码方式。接着数据就可以被多个应用程序读取,存储,和处理。

  当前版本的DB2允许以本地格式存储XML数据,而不需要任何的预处理或是解码到DB2表中。这一特性使得存储,恢复和分析XML数据更为容易。

  数据迁移则引出了另一个问题。快速迁移大量数据可能会需要额外资源,甚至是特殊软件。

  大数据暂存与键控

  大数据暂存需要额外软硬件以及存储介质。因此开辟临时存储区是十分必要的。此外,辅以大数据的EDW长期积累数据,这些数据有必要以日期或是时间进行键控。人们普遍在EDW中采用业务数据并存储在数据库表中以日期进行分区。如果这些表中的数据以日期进行键控,那么这些键同样必须添加到大数据中去。

  另一个问题是大数据量。为了帮助解决这一问题,多数大数据分析解决方案都包含某种形式的数据压缩或是特有的数据存储机制。

  大数据访问与分析

  最后我们将数据整合进数据仓库。此时,用户可以对合并后的大数据和当前数据仓库执行分析软件。这里你便会最终感受到如此实施所付出的成本是否值得。

  大数据归档

  最后我们要考虑数据的归档。随着分析了大量数据,庞大的数据量可能会占据宝贵的存储并使得一些流程变得缓慢。IT部门以及业务伙伴必须确定在何时和以何种方式对陈旧过期的大数据进行存档,以及确定是否需要保留以供后用。这也是另一个要考虑的成本因素。

  总结

  通过对大数据进行分析来增加业务的价值,这样一个概念听起来十分美妙。但整个实施流程会有一些步骤并且它们会影响你企业数据仓库流程的所有部分。看一下你整个的EDW流程,软硬件,以此来确定大数据部署所造成的影响。也只有如此,你才能为过渡到大数据做好充分准备。

相关推荐