数据太多Hold不住?Hadoop数据治理来“救场”

日期: 2017-08-02 作者:Craig Stedman翻译:乔俊婧 来源:TechTarget中国 英文

当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。 LinkedIn数据科学总监Yael Garten说:“你可以记录任何东西,然后访问它。 这样可以让数据科学家在分析应用程序上快速工作,而不必担心出现任何数据不一致的情况。” 但随着公司规模的扩大和数据量的增长,情况发生了变化。

现在,人们看到了在LinkedIn的Hadoop环境中更好地管理数据的举措,所以数据在整个分析周期中都是标准化的。Garten解释道,“否则,当数百个团队发送数据和数百个团队消耗数据时,这就变成了一场噩梦。如果数据是无模式存储的,情况会更加糟糕,这是Link……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。 LinkedIn数据科学总监Yael Garten说:“你可以记录任何东西,然后访问它。 这样可以让数据科学家在分析应用程序上快速工作,而不必担心出现任何数据不一致的情况。” 但随着公司规模的扩大和数据量的增长,情况发生了变化。现在,人们看到了在LinkedIn的Hadoop环境中更好地管理数据的举措,所以数据在整个分析周期中都是标准化的。Garten解释道,“否则,当数百个团队发送数据和数百个团队消耗数据时,这就变成了一场噩梦。如果数据是无模式存储的,情况会更加糟糕,这是LinkedIn早期得到的一个教训。”

数据治理的工具

LinkedIn的Hadoop数据管理流程包括一个内部开发的系统,称为统一度量平台,有助于开发用于报告的统一度量数据。Garten提到一个数据模型审查委员会,评估模型是否能够成功地产生指定的数据。她还提到了另一个本土化的技术Dali,该技术为Hadoop数据集提供了一个通用的API,为数据生产商和用户提供数据。 Cleveland医学中心也将数据治理作为与大规模数据部署相关联的优先事项。商业智能的高级项目管理人员Eric Hixson说,去年,Cleveland的健康系统从传统的数据仓库架构扩展到包括Hadoop、高级分析软件、自助服务BI工具等技术上,并创建了一个正式的数据管理程序。 Hippson在一次演讲中表示,新架构以Gartner概述的逻辑数据仓库概念为基础,随着Cleveland诊所内部文化的转变,使卫生系统将数据驱动和使用位置分析作为竞争优势。数据治理举措旨在提升风险管理能力,提高数据质量和可用性。

一切都为了数据治理

去年12月,基于云计算的部署也推动了加州健身和营养产品制造商Beachbody公司Hadoop的数据治理流程。 Beachbody的数据执行总监Eric Anderson表示,大型数据系统在AWS云端运行,除了Hadoop之外,还包括Hive和Spark处理引擎。它使公司的数据科学家和分析师能够自助访问更多类型的数据,而不是从现有的Oracle数据仓库中获得数据,他们还可以访问更加敏感、细粒度更高的数据。“这些都是我们的治理挑战,” Anderson说。 他指出,数据治理和使用策略已经为数据湖平台的用户提供了文档记录。Anderson的团队还创建了一个数据目录,列出了系统中可用的内容,以及一个数据字典和另一个带有数据沿袭信息的文档。Anderson解释说,这些都发布在门户网站上,使该系统更加透明地呈现给用户。他补充说,在数据仓库环境中,文档比我们以前可能做的更多,这是一个中间步骤,因为需要处理的数据比较少。 越来越多的组织可能会发现,在未来的几年里,他们会在大数据和Hadoop数据治理方面采取类似的中间步骤。McKnight咨询集团总裁William McKnight在2017年亚特兰大企业数据世界大会上的主题演讲中表示,“数据量无穷无尽,我们可能会被它淹没,有效的数据管理变得越来越重要。”

翻译

乔俊婧
乔俊婧

关注商务智能及虚拟化领域技术发展,专注网站内容策划、组稿和编辑, 负责《数据价值》电子杂志的策划和撰稿。喜欢桌游,热爱音乐,吃货一枚。

相关推荐