数据仓库是你的菜吗?(一)

日期: 2016-01-19 作者:Craig S. Mullins翻译:杨宏玉 来源:TechTarget中国 英文

人们通过数据仓库可以观察到企业的历史绩效和正在进行的运营行为,它为数据分析师和业务用户提供诸如客户行为、业务趋势、季度和年度的销售情况等信息。尽管随着Hadoop和其他大数据技术的出现,越来越多的公司需要收集和分析来自不同数据源的数据,但数据仓库并没有因此而失去存在的意义。但在投资数据仓库平台之前,第一步应该考量你的企业是否真的需要它,并考虑你能从数据仓库中得到哪些商业利益。 为了做到这一点,你必须考虑两个数据仓库的部署选项——企业范围或部门范围。

你还需要确定非结构化的大数据是否要构成数据仓库环境的一个组成部分,并决定是否要集成传统数据仓库,进行联机分析处理(OLAP),这将用到大数据分析管理……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

人们通过数据仓库可以观察到企业的历史绩效和正在进行的运营行为,它为数据分析师和业务用户提供诸如客户行为、业务趋势、季度和年度的销售情况等信息。尽管随着Hadoop和其他大数据技术的出现,越来越多的公司需要收集和分析来自不同数据源的数据,但数据仓库并没有因此而失去存在的意义。但在投资数据仓库平台之前,第一步应该考量你的企业是否真的需要它,并考虑你能从数据仓库中得到哪些商业利益。

为了做到这一点,你必须考虑两个数据仓库的部署选项——企业范围或部门范围。你还需要确定非结构化的大数据是否要构成数据仓库环境的一个组成部分,并决定是否要集成传统数据仓库,进行联机分析处理(OLAP),这将用到大数据分析管理和数据处理。最后,你必须能够匹配各种数据仓库用例,找到最合适的数据仓库平台类型。

为什么企业需要部署数据仓库

通用数据仓库的概念非常简单:定期从操作系统中提取数据支持企业业务,数据复制到一个专门的系统——数据仓库,用于项目仪表盘、门户网站、商业智能、报告和分析工具的数据整合,并进行分析,生成报表。具备下列条件可能表明企业可以从数据仓库中获益:

  • 因为必要的数据不是现成的,你正努力让公司的报表变的更有效;
  • 数据被不同的部门和团队复制到电子表格中进行分析,无法保证数据的一致性;
  • 数据准确的不确定性,让公司高管和业务经理质疑报表的真实性;
  • BI报告所用的生产数据库总是需要进行数据扩展;
  • 在生产数据库上运行临时查询降低了运营系统的效率。

恰当地部署数据仓库,可以帮助企业准确回答很多与业务相关的问题。数据仓库可以提高数据的可用性,因为它可以从不同的位置和来源收集数据到一个中央存储库。当数据来源于数据仓库而不是生产数据库时,运营工作流程效率更高,因为分析活动已被转移到一个单独的系统。因为数据被移动到了数据仓库中,数据在那里完成评估、清洗和转换。这意味着使用数据仓库产生的报表中,信息的质量应该得到相应的改进。

数据仓库部署选项

数据仓库环境在不同的企业中会有很大的不同,然而。部署数据仓库可以遵循两条路径,企业可以任选其一:企业数据仓库(EDW)或数据集市,或者二者的组合。

一个企业级数据仓库架构包含所有从企业的运营系统中获取的相关数据,也可能是外部数据源,在所有部门得到应用。操纵数据用于查询,转换和聚合(参见图1)。

图1:  企业数据仓库流程

一些企业已经部署了操作性数据存储(ODS),作为介于运营系统和数据仓库之间的中间步骤。操作数据复制到ODS,然后提取用于数据仓库。ODS为预转换数据提供单个的源数据,单个数据源可用于分析查询,相比于多个数据源的情况,需要更多细节。

另一个比较通用的方法是创建数据集市,这是一种小型规模的数据仓库,主要用于单独的业务主题领域。当一个能获得较快ROI的部门做报表或使用BI有相应的需要时,企业通常会选择建立数据集市。比起进行一个横跨整个企业的昂贵项目,选择数据集市通常让力量更为集中,提供商业利益更为迅速。

可以创建一个或多个数据集市,这取决于企业的规模和业务侧重点。数据集市可以与其他数据集市集成,行成一个虚拟仓库或物理上作为结合上述两种方法的企业级数据仓库的一部分(参见图2)。采用数据集市的方法让企业有了迭代的过程,可以每次只解决个别业务,而不需要采用整体仓库的方法。

图2:数据仓库与数据集市

这两种部署选项都可能涉及到每个类型的数据仓库平台:传统的数据库管理系统,通常为关系型;专门用于分析的DBMS;数据仓库设备;基于云的数据仓库服务(DWaaS)技术。

1 | 2

作者

Craig S. Mullins
Craig S. Mullins

数据管理策略研究人员,拥有超过30年的数据库系统经验

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐