数据仓库产生之初,是为了将分析操作(OLAP)和交易数据操作(OLTP)分离开来,以避免交易响应时间的延迟,降低因运行即时查询和创建、发布报表引起的CPU耗用。随着时间的推移,企业数据仓库变成了信息架构核心组件,现在,很少有成熟的企业不用数据仓库支持商务智能、报表和分析应用程序。
但是,随着新技术的逐渐兴起:Hadoop集群、NoSQL数据库、列式和内存数据库,数据虚拟化工具,新的问题也出现了,传统数据仓库和新兴技术该以什么关系存在?有人很早就给数据仓库敲响了丧钟,预言在大数据系统和高新能计算平台的冲击下,数据仓库会走向灭亡。
现实有些残酷,新技术确实具备传统数据仓库无可比拟的优势。分布式处理框架Hadoop以更低的硬件成本实现了更好的扩展性。内存和列数据库也能承载分析任务。NoSQL数据库突破了传统关系型数据管理系统的狭隘模式,在开发应用程序上提供更广泛的灵活性。系统上的数据虚拟化工具能够以虚拟方式集成数据,允许联机事务处理和分析应用程序同时访问同一数据集。这些都减少了向数据仓库提取和加载数据的需求。
新技术 新挑战
不过数据仓库已死的说法显然是夸大其词了。从财务角度来看,企业在选用新技术的同时,都要考虑对现有投资的保护,更何况数据仓库仍然是生产流程中重要的一部分,仍然在产出数据。
另一方面,新技术的成本未必低。以基础设施为例。下载和安装开源软件,比如Hadoop,只需要简单的计算机系统就可以了,和数据仓库要求的高端服务器、大型机相比,成本少了很多。但要实现Hadoop集群的高性能,企业还需要付出很多,比如聘请懂得Hadoop的技术人员来部署和管理该平台。
Hadoop的存储扩展性意味着无止境的硬盘空间。而且Hadoop数据池的数据使用也并不是总是顺畅的。看似无穷的存储空间和高可用性很可能让用户掉进一味存储数据的陷阱。结果可能只是储存了一堆无用的数据。
数据仓库依然是赢家
因此,数据管理者需要了解以下方面:
企业已经在数据仓库环境中投入了很多成本,至少要在将其替换为Hadoop或NoSQL部署之前要看到客观的投资回报率。
由开源的本质决定的,Hadoop等工具要想像数据仓库一样成熟,还有很长的路要走。
虽然Hadoop系统组件想要走无模式的道路,拒绝交互式分析查询,但是一段时间内,它还是面向批处理的。
很多企业用户还是依赖数据仓库提供的报表和即时查询。
另外,还有不能忽视的一点是并行处理平台可以运行复杂的分析大规模数据集。多种多样的分析程序得出的结果可以用于企业数据仓库,支撑业务决策。
由此可见,虽然Hadoop、NoSQL等新技术一跃而成大数据新星,但企业需要它们能够和现有的数据仓库融合。数据仓库仍然是大赢家。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
图形数据库的优点:更简单的数据建模和分析
作为咨询公司Booz Allen Hamilton首席数据科学家,Kirk Borne是从数据连接角度来看这个 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。