2015年,Gartner公司在商业智能峰会上提出的战略规划设想中指出,预计到2018年,90%已部署的数据湖将失去价值,因为过多的为不确定的用户案例而获取的信息资产造成数据湖不堪负荷。
Teradata天睿公司首席技术官宝立明(Stephen Brobst)认为,数据湖(data lake)非常重要,因为它提供用于创新和创建数据产品所需的原始数据。他在出席2016年Teradata大数据峰会时特别指出,数据湖的价值在于它获取数据的方式非常敏捷,而且成本低。这样,数据的研发工作就能够只需要在数据湖中进行,提取选择性数据,在数据产品中显示其价值。在过去,为了获取数据,我们通常需要经过一些流程才能够看到数据,如对数据产品进行建模或清洗。所以,数据湖是一种更加轻量(light-weight)为数据科学家提供数据的方式。
Teradata天睿公司首席技术官宝立明(Stephen Brobst)
数据湖的成功衡量标准:数据湖越“大”越好吗?
Gartner公司在2015年商业智能峰会上曾指出,预计到2018年,90%已部署的数据湖项目将失去价值(useless)。Brobst觉得这个观点很有意思,因为Gartner用的词不是失败(fail),而是失去价值(useless)。失败指的是投资回报率(ROI)没有期望的那样好,失去价值却意味着零价值(zero value)。这对于已经投入大量资金建立数据湖的公司和组织而言,将是一个很大的问题。
虽然Brobst认为,Gartner的预言可能有点夸大其词,但是却不无警示作用。目前,他就看到数据湖存在一个很大问题——很多公司衡量数据湖项目的成功标准为数据库有多“大”,这是完全错误的。数据湖要快速地变“大”很容易,因为多次导入重复的数据就可以了。但这意味着成功吗?数据湖越“大”越好的观点,应该予以摒弃。如果什么数据放进了数据湖里面都不清楚,这就绝对不是技术的原因,而是缺乏有效的数据治理,这样,将面临将数据湖变成数据沼泽的危险。
数据湖(data lake)变成数据水库(data reservoir)还是数据沼泽(data swamp)?
Brobst认为,数据湖这个名称并不准确。因为湖是天然随机形成的,如果无人管理,污染杂物堆积,可能变成沼泽。同理,如果不清楚数据湖里面放了什么数据,却强调数据越多越好,数据湖就可能变成数据沼泽,充斥无用的数据。所以,用“数据水库”才能够更好得表达这种基础设施的正确涵义。水库是人为所造出来的“湖”,通过适当的治理,为人类提供可饮用水源。对于数据水库而言,数据策管(data curation)至关重要。让进入数据湖或数据水库的每一个数据资产都可以被分类,我们知道是谁放进的数据,放在哪里,何时放的等等,这样,我们能够对数据进行画像(profile),所以,我们就知道其内容、其独特的价值、其线形关系、其转变过程等。这就是数据水库所必需的部分数据治理工作,以帮助我们理解数据水库有何数据。
数据策管就是对数据资产的照顾和培养。起源(provenance)这个词源于科学术语,很多从事数据的人很少用这个词。但在数据策管中,起源意味着我们非常清楚地知道数据从何而来、我们对数据进行了什么转化等等。这是数据策管中很容易忽视的部分。我们必须不断追踪内部和外部数据的起源。缺少与数据相关的起源,将导致对数据质量的信任,使数据重复拷贝(和重复操作)难以控制,导致资源利用效率极低(如变成数据沼泽)。没有充分的数据资产如何创建的信息,数据的价值就将大幅降低。
数据湖在中国落地还有一定的挑战
数据湖能够在中国落地?出席2016年Teradata大数据峰会的浦发银行信息科技部副总经理陆小勇也赞同Brobst的观点,无论是数据湖、数据水库,还是数据沼泽,这不是一个技术问题,而是一个理念问题。他说:“装什么样的数据,这些数据用什么样的方法去治理,对这里面的数据质量用一种什么样的容忍度,在什么场景中去适应,这才是真正在管理数据质量的时候,在大数据时代,治理人员需要思考的。“具体到银行产业,交易系统和统计报表强调”因果性“,要求所有结果可严格回溯到源头,从源头抓起,防止”垃圾进垃圾出“,特别是参与人、产品、协议、渠道、事件、财务,以及资产、日历、汇/费率等公用信息在内的”主数据“的质量。
光大银行信息科技部数据服务中心处长刘锦淼认为,数据湖是未来发展的方向,效率更高,但对于企业IT治理水平要求更高。有了数据治理的前置,才能实现数据湖。他说:”由于我们现在国内的科技发展和科技治理的能力,我们对于元系统的数据标准化落地是有限的。那么,数据湖如果不基于很好的元数据管理,是很难实现自动化 ,为业务提供有效数据支持。我认为,数据湖是一个很好的理念,但在中国还有一定的发展空间。“
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Qlik收购Podium旨在提高BI数据管理
Qlik正在收购初创公司Podium Data。这次收购将为这家自助式BI和数据可视化软件供应商带来新的数据管 […]
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
Teradata发布开源Kylo软件 实现数据管道快速搭建与管理
企业运用Teradata天睿公司推出的数据湖管理软件平台Kylo,能够更简单、更经济、更迅速地开发数据湖,并专注于实现显著业务成果。
-
万物皆可分析:银行与电信行业的大数据探索
数据存储起来是没有用的,要把数据拿出来分析,产生分析的价值,再把这些分析出来的洞察放到业务部门、生产系统里,或放到营销部、风险部等,才是最有价值的。