数据湖中大量的原始数据可用于不受约束的探索和分析。但一切并非那么容易:为了避免信息混乱,所有数据需要编目和管理,而这项工作通常需要大数据团队手动完成。
在很多企业中,数据湖管理和治理框架正处于形成阶段,IT和数据管理团队都在加强治理工具和机制的组合,确保大数据环境的有序性。
在2006年4月部署了Hadoop数据湖的芝加哥保健服务公司HCSC就是这样,它向数据科学家和其他分析师提供自助服务功能,用于分析整个芝加哥公司运营的源系统数据。但Hadoop集群中的自助服务并不意味着可以自由使用,HCSC的数据建模和架构高级经理Susan Swanson解释说,“我们需要加强管理和控制,这样用户最终可以使用具有一致性的数据。”
标准化工作包括一定程度的数据集成、清理和准备工作,以及数据质量规则、可用数据的目录和用于跟踪数据沿袭和填充公共数据字典的元数据存储库。Swanson表示:“数据管理很有必要,特别是在大数据和数据湖的运用中。但有效的治理技术在数据湖环境中依然匮乏”
这意味着,与公司现有的数据仓库相比,HCSC的数据架构和管理团队必须花更多的时间完善与数据湖治理相关的技术,这样可以更多地关注解决数据质量问题和其他治理任务。“我们做了很多概念验证项目”,Swanson说,“这是一种试点方法,我们需要弄清楚如何解决问题,然后引入工具实现自动化。”她举例说,HCSC最初“拼凑”了一个元数据存储库,将HCatalog(一种开源元数据管理工具)与HBase数据库和Hive查询引擎相结合。
现在,保险公司正在安装Apache Atlas,这是一款针对Hadoop的更广泛的数据治理和元数据框架,该框架于2015年首次发布,仍被Apache软件基金会指定为“孵化”技术。“这项技术并没有完全搞定,你仍然需要做很多的变通方案,但我很喜欢其中涉及的很多概念。”
深入数据湖
最近的调查显示,数据湖采用率达到了相当可观的水平。去年底由IT研究和教育机构TDWI进行的一次调查,252个受访者中有23%的人表示,他们的企业正在数据湖平台上运行生产应用,而24%的受访者表示预计在未来12个月内将开始使用数据湖。Forrester在2016年的调查中也发现了更高的部署率,543个受访者中有48%表示已实施或正在实施基于Hadoop的数据湖,而31%的受访者表示计划在一年内建立。
然而,在TDWI调查中,缺乏数据治理被认为是数据湖部署的最大障碍,41%的受访者将其列为可能的障碍。TDWI分析师Philip Russom在调查结果的网络研讨会上发表了一篇关于这项调查结果的报告,他指出其中一部分原因是,如果你以前没有这样做,这只是一个未知的领域。
提供信贷服务的CoreLogic公司的首席数据官Robin Gordon表示,她希望为在加利福尼亚州的公司采用“工厂装配线模型”,用于数据湖管理和治理流程自动化。该模型将自动跟踪数据沿袭和使用权,因此,CoreLogic可以确保数据不会太混乱。“但是现在,在公司基于Hadoop的大数据环境中管理和治理数据,更加需要手动完成。” Gordon补充说。
更多的数据,更大的挑战
位于伦敦的通信和电视服务提供商BT也有类似的情况。BT在2013年部署了一个Hadoop集群,现在将其扩展到企业数据湖,处理来自2500个应用程序的数据源,并支持数千个数据分析人员和业务用户的自助分析。Jason Perkins是BT的业务洞察和分析架构主管,他表示,无论是在帮助用户查找数据湖中的相关数据和监控系统中的数据,数据治理都将面临更大的挑战。
为了应对这些挑战,BT采取了一些措施。该公司通过设立一个分析审查委员会来扩充其现有的数据治理计划。该委员会将审查在数据湖中创建数据沙箱或单个数据视图的请求。Perkins是该委员会成员,也是数据管理和IT代表,他和他的团队创建了一个文件,详细介绍了向数据湖中添加数据的过程。除此之外,他还组建了一个内部Hadoop用户组,以便讨论数据湖的相关计划,分享关于分析和数据管理最佳实践的想法。
此外,数据湖团队正在建立一个名为Midas的本地化元数据存储库,该存储库包含诸如Oracle Data Integrator和Cloudera Navigator的商业软件,这是一款与Atlas形成竞争的Hadoop数据治理工具。Perkins说,BT正在外部寻找可能在Midas之上提供额外功能的新兴的数据湖管理和治理平台。
“我不认为BT是元数据软件公司,”Perkins说,“我们只想填补如今面临的行业差距。”他说,本土系统至少让BT完成一些数据治理,确保没人能够用BT不想要的数据来污染数据。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。
相关推荐
-
Qlik收购Attunity为用户扩展数据管理功能
近日BI和数据可视化供应商Qlik公司收购以色列数据集成和数据管理供应商Attunity公司,此举将进一步推动 […]
-
如何减少部署自助BI工具的痛苦
为什么部署自助BI如此困难?从理论上来讲,自助BI应该是你所有问题的答案。但很多企业最终都还是失望,数据让他们 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]