近两年,“数据池”的概念声名鹊起,被广泛使用。但这个概念是否准确,是否暗示了正确的数据管理方法还有待商榷。
“数据池”一词最早是由软件供应商Pentaho的CTO James Dixon于2011年提出的。甫一出现,就得到调研公司CITO Research的Dan Woods和咨询公司Silicon Valley Data Science副总裁Edd Dumbill的追捧。有意思的是,随着“数据池”概念的广泛使用,它产生了很多变体。例如Pivotal(EMC针对云计算和大数据成立的软件公司)提出的“业务数据池”和Hadoop供应商Hortonworks提出的“企业数据池”的概念。
以上是数据池一词的发展,那么究竟什么是数据池呢?简言之,数据池意味着企业所有数据都可以,并应该存储在Hadoop中,所有业务应用都能平等地访问和使用数据。理想情况下的数据池相当于取代了所有数据仓库、数据集市甚至运营数据库。
咨询公司Silicon Valley Data Science副总裁Edd Dumbill认为,在数据池发展的最终阶段,所有的新应用都会搭建在Hadoop数据池上,都可以在Hadoop数据池上共享数据、治理数据、保护数据,只有很少一部分旧应用和个别应用会单独存在。这种观点也得到一些人的认可。现在让我们重新审视一下数据池的概念,撇开这种替换方法带来的逻辑问题和经济成本不谈,我们只看基础架构,试想:一个人会怎样搭建数据池?
数据池真的是个“池”吗?
单从字面上看,所谓池,意味着池中的水是完全等同的,它可以任意流动,不受任何限制,水的来源不需要加以区分,任何人都可以提取池中的水。但这些特点并不适用于业务数据,那么,为什么还要用“池”这个词?
也许,“池”这个词是区别于高度结构化、组织良好的数据仓库而言的。但是,虽然大数据时代产生了很多非结构化和半结构化数据,并不意味着我们一定要有同样非结构化的数据存储。而且,任何人都不会把已经得到妥善管理和正确理解的数据“倒入”模糊数据源的“数据池”中。
供应商与其发明新的营销口号,不如考虑不同类型的业务数据如何共存,为业务提供价值。虽然关于数据仓库架构的一些传统观念和要求已经过时了,但企业对高质量数据的需求没有变。业务仍然需要高度结构化和规范的数据存储。
当然,还有一些机器数据和社交媒体数据,可以用于感知趋势、预测市场变化,这些数据需要大规模的,廉价又灵活的数据存储。
多个技术支柱支撑的IT架构
虽然高度结构化的敏捷的数据环境之间各不相同,但企业需要把不同的数据环境连接到一起。单一信息提供的洞察力显然不如集群信息提供的洞察力。效果显著的架构应该是建立在多个技术支柱之上的,每一个支柱都针对特定的需求和处理类型做了优化,不同技术支柱之间的类似流程和元数据都能共享。这是与所谓的“池”完全不同的概念。
比喻总有不尽人意的地方。我记得上世纪八十年代我们讨论“数据仓库”这个词的时候,还担心“仓库”一词会给业务人员带来误解。事实证明真的是这样,后来我们又引进了数据集市的概念,不过“集市”一词有它的缺陷。我们在用一件东西比喻另一件东西的时候,一定会面临认知问题。而“数据池”这个词则导致了严重的认知不一致。或许我们应该把定义和解释新数据架构的话语权交给更专业的人士。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。