随着企业越来越多地投资于开发AI应用程序,包括生成式AI(GenAI),这些应用程序的成功取决于可信数据。
数据本身必须是值得信赖的,在高质量数据中,这意味着准确、完整和一致。用户必须信任数据,这些数据用于训练和支持AI工具,例如聊天机器人–允许用户使用自然语言分析数据,以及AI代理–可自主执行重复性任务,否则必须由人类执行。
如果没有可信数据,应用程序将提供不准确的输出。如果用户不信任数据,应用程序将不会被使用。这样的结果是企业错过机会,错过维持和改善客户关系的机会,错过识别交叉销售和其他收入增长机会的机会等。
通过可信数据,AI输出更加准确,从而被更广泛地采用。这样的结果是,全企业的员工能够做出更明智、更知情的决策,从而推动增长。
Ataccama是一家总部位于多伦多的数据管理供应商,专门从事数据质量,最近该公司与Hanover Research 合作,为其《2025年数据信任报告》采访了300多名高级数据领导者,以衡量他们在开发AI应用程序方面的成功,并发现阻碍成功的障碍。
只有三分之一的人报告称,在开发和部署AI应用程序方面取得有意义的成功。为什么会这样呢,超过三分之二的人表示,可信数据——或缺乏可信数据——是罪魁祸首。
Ataccama公司首席执行官Mike McKee表示,数据质量和可信度一直很重要,但随着AI使企业内更多员工能够做出决策,数据的重要性正在增加。随着越来越多的企业投资于AI开发,以及那些已经这样做的企业扩大其影响力,数据质量和信任的重要性只会增加。
McKee最近讨论了数据信任的重要性。
他指出,AI已经发展成为数据分析和决策的主要接口,随着越来越多的企业开发出成功的AI应用程序,数据可信度将至关重要。企业将可信数据用于准确训练应用程序,以使用应用程序为决策和行动提供信息,可信数据从未如此重要。
你如何定义可信数据?
Mike McKee:在基本层面上,这是指你能够信任的数据。
这听起来非常简单,但我们的基本信念之一是,世界已经从CIO驱动项目转变为CEO驱动数据产品,尽管前者已经存在20年。这里的转折点是ChatGPT 3.5的推出,董事会成员和高管突然问他们的企业是否在使用生成式AI。他们去找CIO,CIO说:’我已经处理数据15年,而你从来没有注意过,现在你却突然关心。’
如果你想一想数据供应链,从不同数据源提取数据到BI工具,以及对这些数据的使用,很多数据项目都是从治理和数据目录开始。这是关于转换数据,确保数据被编入目录,最终,重要的是企业是否可以信任数据。
同样,你如何定义数据质量?
McKee:同样地,简单的答案是高质量的数据。
但关键是量化数据质量。你可以查看完整性、唯一性、有效性(对特定数据集最重要的东西),但这里的重点是如何量化。今天早上,我们进行了产品和工程季度业务审查,我说我知道我们的质量越来越好,但问道:“你们有什么数据来证明这一点?”对于我们的客户,我们试图提供一种方法来量化数据质量,按照他们认为最重要的因素。
为什么企业很难维持数据质量,以提供可信数据?
McKee:其中一个原因是数据的爆炸性增长。现在,一切都数字化。无论是客户服务电话、营销活动还是网站统计,都有更多的数据来源。数据扩散是一方面
另一方面是量化数据质量的挑战,这可能难以确认,因为有些数据如果准确率为80%,则没问题,而有些数据必须准确率为99%。了解这些数据准确性的阈值很重要。如果这是关于Mike或Michael之间的区别,那很好办。如果是医疗处方,80%的时间都不对。重要的是(这是一个挑战)是了解什么是可接受的质量水平,以及在数据源爆炸时代,如何量化数据质量。
糟糕数据质量的后果是什么?
McKee:其中很多都是从360度客户视图开始。我的家人刚买了一台新电视,不得不买一个新的机顶盒。我打电话给Verizon,在等了很久后,他们需要发送一个四位数的PIN码来授权我的帐户。结果四位数的PIN码发送到我在佛蒙特州的23岁女儿那里,而她正在徒步旅行。这种糟糕的数据质量导致客户关系恶化。企业将错过与客户建立关系的机会,错过改善客户数据和客户体验的机会,以及向客户交叉销售的机会。每天都有很多糟糕数据和糟糕体验的例子,错过交叉销售机会,并带来很多其他不好的后果。
对于数据可信度和AI开发之间的关系,随着企业增加对构建和部署AI应用程序的投资,企业是否会取得成功?
McKee:在报告中,我们发现,在我们采访的300家公司中,33%的公司在AI计划方面取得了有意义的进展。我很惊讶这个数字这么高。
很棒的是,这个AI催化剂揭示了拥有更高质量数据的必要性。在很多企业中,对数据的不信任已经存在一段时间,AI已经成为触发因素,让企业意识到存在问题需要解决。AI开发仍处于超早期,因此企业需要做的三件事是:确保输入的数据质量很高,弄清楚在哪里运行模型,并解决道德问题–关于谁可以看到模型输出结果。
谁可以查看AI输出的道德问题是指什么?
McKee:自然语言查询是我们使用AI应用程序的方向,并且,任何人都可以询问其他人的工资。你必须限制谁能看到那样的结果。
AI是这种令人难以置信的强大引擎,我坚信,如果企业不利用AI,他们就不会有竞争力。诞生在数据世界的企业(Meta、Amazon、Uber)正在占据主导地位。其他98%的行业一直担心自己的行业,从销售棒球帽到酒店、汽车、火车和保险,而这些公司并不认为他们必须是厉害的数据组织。现在,为了具有竞争力,企业必须利用其数据和AI。
到目前为止,成功部署AI的最大障碍是什么?
McKee:从历史上看,为了数据项目,所有数据源都为被编目、管理和控制。回到从CIO驱动的数据项目到CEO驱动的数据产品的转变,重要的是要解决主要问题,比如运行更好的营销活动,创造更好的网站体验,确保不同网站的定价相同。
想要取得成功,需要关注业务举措。当数据项目与业务相关联时,快速决策和可信数据直接存在关联。取得成功的关键是,试图将可管理的数据量提升到你所需的质量水平,以更快地做出更好决策——在数据量和业务举措之间找到平衡。
那些在AI举措早期取得成功的企业与那些没有成功的企业有什么不同?
McKee:业务部门参与度,100%。
在Ataccama,我们从两个方面看待AI和生成式AI。一方面是,需要将AI和生成式AI构建到我们的产品中,因为正在发生根本性的转变。数据的爆炸速度比人快。对于爆炸的数据量和固定数量的人数,数据管理过程必须实现自动化。我们认为AI和生成式AI可以让企业以良好的状态获得更多数据,这一点非常重要。第二个方面是允许业务用户参与数据管理过程。数据团队不了解业务的痛苦,因此从用例的角度来看,将应用程序与业务用户分联是绝对必要的。
这很难。如果有一个大数据项目,而它对业务没有任何好处,那就完全没有意义。为了使项目取得成功,从一开始就应努力了解项目将对业务会产生什么影响。这很困难,因为在过去数据团队并没有这样做。但成功的企业会关联业务计划,其中业务部门参与获取更高质量的数据。改进数据背后必须有业务理由。
当企业拥有可信数据,得以成功开发和部署AI应用程序,与没有可信数据的企业相比,这些企业的优势是什么?
McKee:这意味着更好或更快的决策。我完全相信,BI工具(Tableau、Microsoft Power BI等)将越来越多地转向自然语言查询。人们会提出问题,然后答案就在那里,他们不必去找数据表。企业正在使用生成式AI获得更好的答案,并能够更快地访问信息。
你认为在未来一到两年内,大多数企业将能够足够信任他们的数据,从他们的AI举措中获得成功吗?
McKee:我认为应该是两到三年,而不是一到两年内,但他们别无选择。如果有一天,一家公司将PIN码发送给你在佛蒙特州的女儿,而不是发给你,你会想说放弃这家公司。而那些在传统行业中采用技术并利用其数据使用AI的公司,他们将取得成功。例如,Uber比所有航空公司加起来更有价值。你需要更快地做出更好的决定,那些没有做出决定的人将输给那些做出决定的人。
我们可能可以量化数据质量,也可以为重要的不同数据集设置阈值。我乐观地认为,拥有高质量的数据和利用AI将在两到三年内实现。我已经在网络安全方面工作10年,首席信息官、首席数据官和首席安全官之间交集越来越多。这里涉及隐私问题、安全问题,接下来的挑战是解决这些问题。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
培养数据素养技能以提升职业发展
数据知情决策的成功取决于决策者能否有效查找、评估和解释数据:换句话说,取决于他们的数据素养。 有些决策是数据驱 […]
-
2024年6个趋势影响数据管理、分析
在过去的12个月里,影响数据管理和分析的顶级趋势是生成式AI代理的兴起。 另一个趋势是数据平台(包括数据库、数 […]
-
企业商业智能用例的9个示例
商业智能应用程序可以为企业内各个部门提供价值,使BI成为最广泛使用的技术驱动流程之一。 BI可用于分析数据,并 […]
-
如何通过7个步骤部署商业智能项目
商业智能是数据驱动企业的重要组成部分。在竞争激烈的商业环境中,企业成功部署BI项目的能力可能决定着在市场上的输 […]