当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。 LinkedIn数据科学总监Yael Garten说:“你可以记录任何东西,然后访问它。 这样可以让数据科学家在分析应用程序上快速工作,而不必担心出现任何数据不一致的情况。” 但随着公司规模的扩大和数据量的增长,情况发生了变化。
现在,人们看到了在LinkedIn的Hadoop环境中更好地管理数据的举措,所以数据在整个分析周期中都是标准化的。Garten解释道,“否则,当数百个团队发送数据和数百个团队消耗数据时,这就变成了一场噩梦。如果数据是无模式存储的,情况会更加糟糕,这是Link……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
数据治理的工具
LinkedIn的Hadoop数据管理流程包括一个内部开发的系统,称为统一度量平台,有助于开发用于报告的统一度量数据。Garten提到一个数据模型审查委员会,评估模型是否能够成功地产生指定的数据。她还提到了另一个本土化的技术Dali,该技术为Hadoop数据集提供了一个通用的API,为数据生产商和用户提供数据。 Cleveland医学中心也将数据治理作为与大规模数据部署相关联的优先事项。商业智能的高级项目管理人员Eric Hixson说,去年,Cleveland的健康系统从传统的数据仓库架构扩展到包括Hadoop、高级分析软件、自助服务BI工具等技术上,并创建了一个正式的数据管理程序。 Hippson在一次演讲中表示,新架构以Gartner概述的逻辑数据仓库概念为基础,随着Cleveland诊所内部文化的转变,使卫生系统将数据驱动和使用位置分析作为竞争优势。数据治理举措旨在提升风险管理能力,提高数据质量和可用性。一切都为了数据治理
去年12月,基于云计算的部署也推动了加州健身和营养产品制造商Beachbody公司Hadoop的数据治理流程。 Beachbody的数据执行总监Eric Anderson表示,大型数据系统在AWS云端运行,除了Hadoop之外,还包括Hive和Spark处理引擎。它使公司的数据科学家和分析师能够自助访问更多类型的数据,而不是从现有的Oracle数据仓库中获得数据,他们还可以访问更加敏感、细粒度更高的数据。“这些都是我们的治理挑战,” Anderson说。 他指出,数据治理和使用策略已经为数据湖平台的用户提供了文档记录。Anderson的团队还创建了一个数据目录,列出了系统中可用的内容,以及一个数据字典和另一个带有数据沿袭信息的文档。Anderson解释说,这些都发布在门户网站上,使该系统更加透明地呈现给用户。他补充说,在数据仓库环境中,文档比我们以前可能做的更多,这是一个中间步骤,因为需要处理的数据比较少。 越来越多的组织可能会发现,在未来的几年里,他们会在大数据和Hadoop数据治理方面采取类似的中间步骤。McKnight咨询集团总裁William McKnight在2017年亚特兰大企业数据世界大会上的主题演讲中表示,“数据量无穷无尽,我们可能会被它淹没,有效的数据管理变得越来越重要。”相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
实施Tableau数据治理策略 抵御自助服务软件部署风险
想要Tableau部署成功,数据治理是重中之重。但是,实施治理政策并不意味着关闭数据访问或限制人们可以做的事情。
-
数据治理为什么要“秘密”进行?
无论你如何构建治理环境,都需要对数据进行管理。但数据管理团队越来越多地以微妙的方式实现数据治理,以避免被商业用户视为“数据警察”。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。