大数据管理将告别“以数据质量”为中心的时代

日期: 2014-05-11 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

上周在美国举行了数据分析管理协会(DAMA)国际企业数据2014世界大会上,企业信息管理和分析公司Kimberly-Clark全球总监兼数据管理者Robert Abate表示,照大数据目前的发展形势看,大数据集需要更多各种类型的职业数据管理者来管理。

Abate表示:“所谓企业信息管理,就是要在正确的时间给正确的人以正确的数据。这包括主数据、参考数据、数据质量和数据治理。”

不过Abate也提醒到,数据速度、种类和大小都对数据管理提出挑战。数据科学家不那么关心数据质量,而倾向于重点处理数据的数量。作为数据设计关键的数据模式也常常让位于无模式或模式上的即时架构。

“与分析相关的大数据和数据科学会收集大量的数据,存放在数据池,或特定的数据存储层中,然后再在数据上运行算法。”Abate认为,数据质量已经不是数据管理最重要的因素了。

数据治理需要更多地关注元数据

会上,以为有着多年数据架构经验的专家认为,渐渐地,对数据质量的查询会以元数据为中心,比如在数据字典或资源池中发现的数据,而不是数据本身。

咨询公司MatchPoint的数据管理咨询师Ray McGlew表示,随着未经处理的数据越来越多,数据管理会逐渐形成秩序。

区分和优化不同的数据类型是数据管理者的职责所在,尤其随着新的数据类型的发展,它会变得更加重要。

McGlew表示,对于一些关键问题,比如银行交易,真实版本只有一个,但对于社交数据,比如Twitter和Facebook数据,你就要灵活处理,更关注数据的本质。

真正需要的是把元数据整合到单一版本中。

有些情况是用户只有一个账户,比如银行账户,你可以通过账户定位到一个具体的人。但在社交媒体上,一个用户可能拥有多个账户,一个账户也可能是多个用户在使用。这种情况要复杂的多。

“在这种情况下,你得到的不是某个人的数字,你得到的是一系列的数字。换言之,你只能做趋势分析,而无法精准定位。”

无模式也是一种数据模式

无模式的大数据架构是一种新形态,它正在渐渐改变现有的数据架构,至于它以后会怎么发展,还很难说。

投资公司Fidelity的数据分析总监Ian Wood表示:“我们已经开始这样做了。我们公司的架构就在像这个方向发展,无模式或即时模式可能很难发展,但它已经开始发展了。”

“我们接触了很多业务用户,收集它们对未来的期望。我们也接触了技术开发团队,收集了它们的想法。不过坦诚地说,我真不知道我们该往哪个方向走。”

不过,Fidelity公司所采用的方法应该是考虑到组织架构和程序的,而不是直接采用某种技术解决方案。

Hadoop只是文件存储?

提到大数据,难免想到Hadoop。不过Abate认为,大数据并不只是Hadoop,Hadoop不过是一个“文件存储”而已。

Abate表示,除非Hadoop能够很好地集成关系型数据库技术,否则它只能用来存储文件。Abate在加入Kimberly-Clark之前帮助沃尔玛搭建大数据和商务智能。

他表示:“Impala的出现值得注意,它将Hadoop变成了数据库,这一点很有价值。”Impala是Cloudera开发的运行于Hadoop的SQL查询引擎。

即便是使用传统数据仓库,因为数据类型过多,也需要一种新方法。而真正的数据科学家能够在无需了解数据质量的条件下处理大规模的数据。

这可能听起来有点耸人听闻,有些人认同,有些人反对。这一切只能留给时间来检验了。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐