数据分析管道最佳做法:数据治理

日期: 2022-11-13 作者:Alan Morrison翻译:邹铮 来源:TechTarget中国 英文

虽然数据和分析推动企业向前发展,但他们必须牢记的重要方面是,数据治理在分析管道中的影响以及可能导致的潜在陷阱。

大多数企业只是随意完成数据清单和编目工作。在第三方评估后,通常会发现企业对消费者组织在数百个(如果不是数千个)不同位置复制了大量个人身份信息(PII),这种情况并不少见。

在最开始,数据创新团队无法访问最有用的企业数据,有时需要数月的谈判才能将一个数据集或另一个数据集从控制它的任何数据“垄断组织”中解放出来。通常,领导层很少阻止和解决来提供帮助。

在1到5的成熟度量表上,5是最高分,大多数组织只是达到1到2级。这在实践中意味着相当多的数据还没有准备好分析。缺乏数据成熟度的结果是,分析团队必须引导数据评估和清理,留下更少的时间进行实际分析。

随着企业利用管道来收集、处理和利用比以往更多的数据,遵守法规的复杂性和数量也在不断增加。即使知道哪些法规适用也是一个挑战。几年前,欧盟的GDPR刚刚通过。然后,CCPA也随之而来。

这些法律只是一个开始。最近,中国准备实施更严格的数据移动法,以及对公共和交通部门信息安全的其他要求,并实施身份区块链。

很多即将到来的法规将要求证明各种合规性。这一趋势转化为更多的合规人员、文档和报告,特别是对于拥有广泛的全球供应链(无论是物理还是数字)的严格监管行业。

失控的SaaS 膨胀、应用程序蔓延和数据孤立

SaaS管理软件公司Zylo现在估计,平均企业有600个SaaS应用程序在使用中,每月增加10个新应用程序,每个应用程序都有自己的数据库和数据模型。这些应用程序生成的数据实际上无处不在。然而,每个SaaS提供商都有自己古怪的方式来提供对每个SaaS生成的数据的访问。

同时,大多数SaaS订阅都未得到充分利用。现在有很多不同应用程序捆绑包的订阅,捆绑包之间有很多重叠。这可能会导致员工对他们应该使用什么功能,在哪个套件中以及为什么感到困惑。因此,每个应用程序可能都缺乏用于分析目的的临界数据量。

例如,在使用十几个或更多应用程序的情况下,制造商可能会让分析师在应用程序之间反复切换,以便更连贯地查看麻烦的进程,对这些进程进行故障排除。

考虑管道自动化替代方案

毫不奇怪,一体化管道自动化已成为一些平台提供商的“圣杯”。很多企业共享相同的云提供商、相同的部门级SaaS和相同类型的事实标准数据库。

例如,像Gathr这样的一体化平台背后的明确逻辑是,企业通常需要相同的连接器或“运算符”,相同的拖放式机器学习过程程序集,以及在ETL,ELT和摄取功能之间进行相同类型的选择。统一所有这些功能可能意味着数据和分析团队的工作量更少。

但企业应该记住,订阅另一个SaaS的冲动会延伸到这些平台。一个业务部门的工程师可能会被Gathr所吸引,而其他人可能会更喜欢Alteryx来映射BI平台可能需要的源,或者像OneSaaS这样的超级SaaS,它可以简化OneSaaS环境中的混合和匹配。

分析管道的长期最佳做法和数据治理

数据策略师应该意识到,鉴于当前情况和迫切需求,此类平台只是提供一个起点,即简化来自共同来源的数据的短期解决方案。如果没有以数据为中心的转型架构,企业可能会在不知不觉中增加他们已经面临的技术和数据债务。一两年后,下一个进入市场的新流水线平台可能同样吸引人。

企业数据斗争和缺乏治理的根本原因是复杂性,以及缺乏不必存在的数据可见性。企业不应该增加复杂性,而应该通过更多的定制工作来构建而不是购买,以支持以数据为中心和数据劳动力,并提供各种方法来检查和应对挑战。

产业供应链联盟可能是沿着这些路线进行实验的好方法。例如,在高层建筑等领域,其中强调,当公司从不太集中的联合固体数据存储和共享pods开始,以及为供应链中所有提供商提供单一知识图数据模型时,可能会发生什么。

分析管道中数据治理的成功最终来自于以此类方式大幅减少问题足迹的规模。突然之间,供应商联盟中的公司可以意识到,他们不再像以前那样复制那么多的数据,因为他们使用的系统旨在避免这种趋势和重复的需求。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐