购买数据仓库平台时有多种选择。尽管对它们进行评估并不需要复杂的流程,但是采用适当的步骤将有助于为企业的特定业务需求投资最佳的技术。 当你决定了要投资一个数据仓库平台后,下一步就是要为可用的产品评估创建流程,然后找出最符合要求的一款。要做到这一点,我们首先要对能有效促进数据仓库开发的特性进行确认。
然后我们就可以确定与需求最为匹配的部署选项。 有效的数据仓库开发特性 当我们在检查数据仓库平台特性的时候,你的使用需求将决定最终的选择。并不是每个数据仓库项目都需要对所有的特性进行讨论。当你对特定产品进行评估的时候,你可以使用以下内容来协助你对每个供应商所支持的特性进行更深入的挖掘。
一个数据仓库会提供以……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
购买数据仓库平台时有多种选择。尽管对它们进行评估并不需要复杂的流程,但是采用适当的步骤将有助于为企业的特定业务需求投资最佳的技术。
当你决定了要投资一个数据仓库平台后,下一步就是要为可用的产品评估创建流程,然后找出最符合要求的一款。要做到这一点,我们首先要对能有效促进数据仓库开发的特性进行确认。然后我们就可以确定与需求最为匹配的部署选项。
有效的数据仓库开发特性
当我们在检查数据仓库平台特性的时候,你的使用需求将决定最终的选择。并不是每个数据仓库项目都需要对所有的特性进行讨论。当你对特定产品进行评估的时候,你可以使用以下内容来协助你对每个供应商所支持的特性进行更深入的挖掘。一个数据仓库会提供以下主要功能:
它提供了一个统一的数据视图。要有效的支持商业智能(BI)应用程序来对历史业务活动进行分析和报告,数据仓库平台就必须能从多个源系统拉取数据并使其看起来像是一个单独的信息池。BI所需数据是从操作系统中提取并且通常要进行转换以使其具有统一性,接着就会加载进数据仓库进行分析。
它能够让你所在的企业为数据仓储进行建模和创建数据库设计。对于数据仓库来说,一个常见的要求就是将数据库模式部分非规范化以优化查询和分析性能。相比之下,在线事务处理系统通常会依赖于完全规范化模式以保证数据的一致性和完整性。
在实践中,这意味着数据仓库通常是围绕一个一维模型,和一个感兴趣的核心事实以及分析该事实所分布的多个维度而进行设计的。例如,假设我们感兴趣的是分析公司销售,有很多维度可以用来对如何分析该信息进行定义,例如产品、地域、存储和时间。
要启用这样的分析,数据仓库就要使用称为星型模式和雪花模式的维度模型。对于星型模式设计来说,多维表与一个单独的使用一对多关系的事实表相关联。而雪花模式与星型模式类似,但是维度则可以存储在多个规范化的表中而不是一个单独的维度表。在检查数据仓库平台的时候,一定要确保它们本身是支持星型模式和雪花模式数据库设计和查询优化的。
它对OLAP函数的支持让数据仓库可以处理BI查询。在线分析处理函数的例子包括钻取,上卷,旋转和数据分级。而OLAP函数的好处就是它们可以让开发人员和终端用户不用编写复杂的查询代码。此外,OLAP函数在执行相同任务的情况下通常要优于更为复杂的查询。如果数据仓库平台的查询和SQL功能并不支持内置OLAP功能,你可能就会需要购买可以提供这些功能的额外的查询工具。
它提供了关键性能和查询优化。作为一个分析平台,对于优化来自可操作的和事务数据库管理系统(DBMS)的查询来说,数据仓库有着不同的要求。对于最大化数据仓库的有用功能来说,这主要包括对星型连接优化、位图索引和区域映射的支持。
对于一个数据仓库平台来说,优化星型查询的能力是一个非常重要的函数,它是将一个事实表连接至大量不同的维度表。但是每个平台对于星型连接的实现都是不同的。例如,虽然位图索引对于优化连接非常有用,但是它对于产品的支持也是因产品而异的。某些平台支持显式创建位图索引,而其他的则是将位图作为星型连接优化流程的一部分加以创建。
另一个要探究的与性能有关的功能是对区域映射的支持。区域是磁盘上一组连续的数据块或页。区域映射是一种数据库结构,它存储的是表区域中所存数据的相关信息。利用区域映射,可以通过调整数据块来对查询进行优化,这样有助于响应查询,因此它们是不能被访问的。
内存功能。通过使用内存来替代磁盘对数据进行存储和处理,可以提高性能。这包括使用一个内存DBMS或是采用一个数据仓库平台来提供内存功能。
数据迁移能力。数据仓库是与运行日常业务事务的可操作数据库系统分离的。因此,数据需要定期在不同环境间进行迁移。对于数据迁移有几种方法和技术,包括:
- 简单加载和卸载工具。
- 用于提取,转换和加载数据的ETL功能。
- 从源数据库捕获变动数据并仅发送变更到目标数据仓库的复制技术。
所有这些数据迁移技术都可以从数据仓库平台独立获取。事实上,如果你对于复杂转换和高速复制有着更高的需求,那么一个附加工具可能是你的最佳选择,因为它通常会提供更多的特性和更高级的功能。当然,很多数据仓库平台拥有内置数据迁移功能可以满足数据仓库的转移需要。
哪种类型的数据仓库平台才是适合你的?
无论你是部署一个企业级的数据仓库(EDW)还是一个数据集市,任何数据仓库平台——关系型数据库管理系统(RDBMS),分析型DBMS,数据仓库设备或是数据仓库服务(DWaaS)都是可以的。
对于在部门级别进行开发和维护的数据集市来说,调研减少管理的选项无疑是明智的。在你实现一个分析型或关系型数据库的时候,比起自行组装数据仓库环境的要求,设备的即插即用,简单实现更有助于部门决算。
DWaaS可以作为部门数据集市的另一个可行选项。如果进入数据集市的大部分数据是在云端产生的,那么DWaaS会更有意义。另一方面,如果数据集市使用大量本地生成并存储的数据进行构建,那么将数据迁移至DWaaS平台将会变得问题重重。
对于那些要实现多个数据集市的企业来说,管理通常是集中化的,而且设备和DWaaS的很多优势会被削弱,这让关系型和分析型DBMS选项更具吸引力。
在实现一个传统EDW时,数据仓库设备是一个不错的选择,因为它会为数据仓储提供一个预包装的软硬件组合。对于一个更具扩展性的数据仓库架构来说,它包括一个EDW,数据集市和一个操作型数据存储(ODS),而一个数据仓库平台的结合可以是一个引人注目的选项。例如,你可能会选择用一个RDBMS来实现ODS,而将数据仓库设备和DWaaS用于数据集市,同时将分析型DBMS用于EDW。对于在数据库管理和系统管理方面有着足够人员和专业技术的大型企业来说,这样的决定通常是必要的,因为购买和支持多个数据仓库平台会非常昂贵。
在对已有数据仓库进行扩展或扩大的时候,最好的方法通常是使用当前平台而不是转换成其他平台将事情复杂化。当然,自你的数据仓库平台首次实现以来,你的团队会将新的特性添加进来。在考虑不同平台之前一定要让自己对这些新特性如数家珍,从而确保物尽其用。使用一个或两个新特性,如改善优化或是新的OLAP函数,能帮助你避免过早的抛弃你现有的平台而去追逐一个崭新的数据仓库设备或是云服务。然而,如果你所在企业的业务需求和BI需求自数据仓库部署以来已经有了重大改变,那么转换到一个新数据仓库平台就是有意义的了。
对于那些想要剥离支持和部署工作的企业来说,DWaaS便是更好的选择,因为该数据仓库架构受到云供应商的支持。同样,如果你所在企业在云端做大量事务性的数据处理工作,那么DWaaS可能就是你最好的选择。保持的数据是在云端产生和存储的,因此数据仓储是一种逻辑方法。
混合事务/分析型处理(HTAP)方法正日渐流行,因为一个单独的平台可以用于多种用途。通过减少需要掌握的不同技术的数量,HTAP可以降低学习曲线。当然,由于这种方法通常会需要额外的新技术和功能,某些程度的培训还是必要的。大中型企业正在寻求减少所支持技术的数量并增加灵活性,这样就应该考虑HTAP方法了。
如今最大的数据仓库包含10pb级以上的原始数据。要支持如此巨大的数据仓库需要一个自定义的软硬件灵活方案。通常这意味着要在最快的服务器,存储和网络设备上运行RDBMS和分析型DBMS软件的组合。
如果你需要在大数据仓库中将大数据分析和BI需求集成在一起,那么你就应该参考下可以提供多元数据仓储的方法。多元这个词是从NoSQL数据库迁移中借鉴而来,它支持多元持久性,这意味着数据会根据其预期用途存储在最适宜类型的DBMS中。
在一个数据仓储环境中,它使得传统BI数据能够以更新的大数据类型加以管理和访问,而多元方法包括了多个数据平台类型。这包括关系型,分析型数据库,NoSQL DBMS还有诸如Spark和Hadoop之类的新平台。虽然这增加了复杂性,但是它也为数据仓库用户提供了将历史BI与更具前瞻性的预测分析以及数据挖掘相结合的能力。
翻译
TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。
相关推荐
-
年度数据仓库市场格局新鲜出炉 论技术论实力谁更受青睐?
国际数据管理分析机构The Information Difference在最新年度数据仓库市场格局(Big Data Warehouse Landscape)报告中,对全球前25家数据仓库厂商进行了评估。
-
体育机构合理选择数据仓库 上演“球迷也疯狂”
体育运动机构如何能更准确地熟悉球迷群体呢?NBA的夏洛特黄蜂队提出了这个问题,并在Phizzle FanTracker平台中获得了答案。
-
Hadoop工具让数据仓库迁移更轻松
即便进入Hadoop时代已经有些年头了,但将任务迁移至分布式平台并非易事。能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移,有助于数据管理人员做出最佳选择。
-
Gartner发布2016年数据仓库和数据管理解决方案关键能力报告
2016年7月13日,Gartner发布了《数据仓库和分析型数据管理解决方案关键能力》报告,帮助数据集成和数据分析负责人选择正确的技术发展信息基础设施,以支持多样化的分析需求。