无论是开源还是商业可用,使用软件可以确保在基于Hadoop的数据湖中进行适当的数据管理,但如何在这个过程中获得最大收益呢?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。 但IT专业人员如何筛选这些数据治理产品以实现大数据任务的自动化?
Atlas 似乎很“完美”
Hadoop供应商Hortonworks供应商创建了Apache Atlas,它是一种可扩展的核心基础服务框架。据该公司介绍,Apache Atlas不仅允许企业满足其Hadoop合规性要求,还可以与整个企业数据生态系统相集成。 Hortonworks在开源项目(例如Aetna,Merck,Schlumberger和Target)中,吸引了一些大型公司开发人员的参与。
Hortonworks 的CTO Scott Gnau解释道:“当你开始使用大数据驱动的企业应用时,安全和治理以及运营复杂性变得更加重要。Atlas技术的范围已经足够广泛,足够强大,我们可以看到客户部署数量的激增。”
Hortonworks的竞争对手Cloudera已经发布了Navigator,该公司称之为“Apache Hadoop唯一完整的数据治理解决方案”,并具有数据发现,持续优化、审计、谱系、元数据管理和策略执行功能。该产品是Cloudera Enterprise的一部分。
Beachbody 公司数据执行总监Eric Anderson表示,健身和营养产品的制造商使用诸如HCatalog和Apache Falcon等技术来分析其分析系统中的元数据和数据。2016年12月,Beachbody在AWS云端开始运行基于Hadoop的数据湖。
Atlas仍有待完善
“这些技术提供的功能可能已经足够好,但是一些工具并不像预期中那么成熟,”Anderson说,“如果我们想要端到端数据谱系,这一点就很难做到。”他的最终目标是在所有接触点上了解数据源的完整范围。
根据2016年Gartner的调查,企业已经将重心从大数据转移到大数据可以解决的具体业务问题上,这可能会影响数据治理工具的部署。尽管有48%的受访企业在2015年至2016年期间略微增加了大数据方面的支出,但那些计划在未来两年投资的公司比例从31%降至25%。
数据治理工具不够成熟可能会对企业造成不利影响。Gnau也承认,Atlas仍有待完善。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
Qlik收购Podium旨在提高BI数据管理
Qlik正在收购初创公司Podium Data。这次收购将为这家自助式BI和数据可视化软件供应商带来新的数据管 […]
-
实施Tableau数据治理策略 抵御自助服务软件部署风险
想要Tableau部署成功,数据治理是重中之重。但是,实施治理政策并不意味着关闭数据访问或限制人们可以做的事情。
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。