合成数据与真实数据用于预测分析

日期: 2025-08-23 作者:Donald Farmer翻译:邹铮 来源:TechTarget中国 英文

数据工程师陷入两难:构建有效的AI模型需要更多的数据,但对真实数据的访问越来越受到隐私、安全和监管限制的限制。

合成数据是人为创建,而不是从现实世界的事件中收集。在注重隐私、敏感的行业或现实世界数据集有限时,合成数据必不可少。对于数据科学家和AI工程师来说,合成数据可以显著提高模型和数据管道性能和可靠性。

然而,这种方法有细微差别和风险。道德、治理和数据质量的问题仍然存在,即使数据不是真实数据。

合成数据的类型

合成数据大致由两种类型组成:

  • 完全合成数据。使用算法或生成模型(例如生成对抗网络(GAN)或变分自动编码器),从零开始创建。
  • 部分合成数据。通过仅替换真实数据集中的敏感属性来创建。

生成合成数据

合成数据生成技术已经取得显著进步。早期模型依赖于基于规则的系统和基本统计方法。来自数据库或商业智能(BI)供应商的示例数据集通常使用简单的规则,以定义特定列中数据值的值范围和模式。

现代工程师使用各种生成方法,都是以这些早期方法为基础。更简单的方法包括从反映原始数据特征的统计分布中随机抽样。更复杂的方法(例如基于代理的建模)会模拟单个代理的行为,像客户的行为,并在系统中生成数据。

真正的创新来自深度学习方法。GAN的工作原理是设置两个神经网络相互对抗。一个生成合成数据,而另一个则试图将其与真实数据区分开来。随着时间的推移,合成输出开始模仿真实数据集的统计分布。这种方法可以复制复杂的模式,例如客户流失、浏览行为、交易序列和罕见的边缘案例。通过这种对抗性过程,生成器变得熟练地创建逼真的合成数据。

原始数据被假定代表现实世界的环境。这很重要,因为生成模型不会区分有用的信号和嵌入式噪声,除非主动引导。因此,验证原始样本数据的质量是创建此类合成数据的重要步骤。

例如,从原始数据中整理的样本数据(删除重复数据、不完整的记录或数据输入错误)可能适合对客户人口统计进行建模,但它不会捕捉到混乱现实中的客户行为,而这些行为生成原始数据集。

治理和合成数据

根据HIPAAGDPR等法规,完全合成的数据对数据治理很有价值。它降低重新识别的风险,因为它与真实个体不相符。

除完全合成技术外,部分合成方法(例如差分隐私)通过添加经过精心校准的噪音,以保护个人记录,同时保持统计属性。

例如,差分隐私可能会通过在给定范围内添加或减去随机天数来改变出生日期。这个日期不再可以识别结果,这个日期现在是部分合成的,但对于大多数分析和预测模型来说仍然足够接近。

然而,这些技术需要有纪律的监督,不应被视为合规性的免费通行证。即使数据是合成的,也受组织控制的约束,包括访问管理和跟踪数据血缘。如果BI分析师将合成数据提取到仪表板中,元数据必须清楚地表明什么是真实的,什么是合成的,以及它是如何生成的。

虽然差分隐私限制任何一个数据点与真人关联的可能性,但团队很少在合成后审核数据。每个合成数据管道都应该包含可复制的审计跟踪。

真实数据和合成数据的权衡

真实数据反映这个世界的复杂性,例如不规则性、季节性和不可预测性。虽然现实世界的数据收集是更直接的概念,但在实践中往往更复杂。

它通常既昂贵又耗时,特别是在新的或实验的场景中。由于重大的隐私和道德问题,在某些受监管行业中收集真实数据可能需要几周时间才能获得许可。在获得批准后,确保数据安全并遵守法规(如上述GDPRHIPAA)会导致新的复杂性。

偏见是现实世界数据收集的另一个问题。真实数据可能反映不再合适或具有代表性的现有模式。例如,在几年前的保险数据集中,妇女或少数民族的代表性可能不足。从某个手机提供商那里收集的数据可以反映旧设备的使用模式,但这些模式在现在不太相关。在这些数据上训练的模型有可能延续甚至放大这些失真。

然而,在某些情况下,现实世界的数据可能非常统一,以至于罕见事件或边缘案例可能很难进行统计建模。例如,交易处理系统的欺诈警报模型可能不包含足够的欺诈示例来有效训练算法。

对于这些场景,合成数据提供对数据生成过程的完全控制,允许创建包含真实数据中缺失的边缘案例的测试数据集。

合成数据的局限性

在实践中,合成数据的可靠性取决于生成它的模型和假设。如果对目标现象的基本理解不完整或有缺陷,这些限制将存在于合成数据和基于它的系统中。此外,可能会存在合成数据可能无法捕捉到意想不到的相关性或微妙的现实世界模式。

当部署基于合成数据的模型时,会出现这些限制。有时,模型在受控环境中表现良好,但在面对现实世界数据的复杂性时会遇到困难。对于预测,如果有足够的真实数据,随时可用,且符合法规,并且仍然相关,则可提供最好的结果。

模拟假设场景(例如新细分市场)通常缺乏相关的历史基线数据。这就是合成数据大放异彩的地方。一个有效的方法是在真实数据上训练模型,然后使用合成数据对它们进行压力测试。通过这种方式,你可以模拟金融危机、天气灾难或罕见患者表型等事件。

有些批评者指出,过度依赖合成数据会产生一种虚假的舒适感。如果他们根据合成数据训练的模型做出影响人们生活的决定,他们怎么能确信这些决定是公平和可靠的呢?

这是合理的担忧。真实数据提供真实性,并捕捉到现实世界的复杂性和细微差别,包括难以预测的关系和模式。但真实数据自带一系列挑战。它通常不完整、有偏见或带有重大的隐私风险和监管负担,合成数据可以帮助减轻风险。

用例和行业模式

很多行业已经在应用合成数据,以实用的、特定领域的方式。

在金融领域,合成交易数据可支持跨机构的安全协作,通过交换模型交易数据,而不会暴露客户身份作。这使得改进欺诈检测模型成为可能,而且不依赖敏感的现实世界记录。

然而,以这种方式使用数据并不总是简单的事情。合成数据可以复制已知的欺诈模式,但产生新的行为是难以捉摸的。尽管如此,这对于测试模型对阈值变化或对抗条件的敏感性很有用。

在医疗保健领域,合成数据显著推进AI的发展。基于合成患者数据的训练模型,可在不暴露个人健康信息的情况下进行算法设计。这种方法在维护患者隐私的同时加速了创新。研究人员为罕见疾病创建了合成CT扫描和实验室结果,以安全地支持药物研发。

在自动驾驶汽车开发中,对于测试碰撞或鲁莽行人行为等罕见和危险的场景,合成模拟数据非常重要。这些情况对自动驾驶系统的安全至关重要,但它们并不常见,重现它们并不道德。合成模拟与现实世界测试相辅相成,确保在各种环境和条件下的安全。

什么时候用什么?

下面总结了何时应该选择真实,何时应该选择合成数据:

场景

合成数据

真实数据

备注

罕见事件/边缘案例

首选: 快速生成数千个边缘案例

受限: 可能需要几年时间才能收集足够样本

使用合成数据来增强。当真实数据可用时,可用来验证合成数据。

隐私敏感型应用程序

首选: 监管风险,数据最小化

高风险:个人信息暴露、监管限制

记录合成数据生成过程,用于审计跟踪

系统/管道测试

首选:受控、可重复的测试场景

风险: 可能会在测试环境中暴露生产数据

合成数据提供安全测试,无需访问生产数据

模型训练(初始)

合适: 快速迭代、完美标注

重要: 真实数据,真实分布

从理解真实数据开始,用合成数据进行增强

模型验证(最终)

不足: 可能会错过现实世界的复杂性

必需: 验证实际性能的唯一方法

在没有真实数据验证的情况下,切勿部署

仪表板原型化

首选: 无需生产环境访问权限

访问限制:可能会延迟开发

使用合成数据进行设计,正式上线时切换到真实数据

监管提交

背景信息依赖:全面记录你的方法

首选:更高的安全信心

对于合规性,混合方法通常最佳

整合合成数据和真实数据

结合使用合成数据和真实数据的有效方法是通过迭代过程。从一组较少的真实数据开始,以生成合成记录,并训练初始模型。然后,在真实数据上验证这些模型,并使用改进的结果完善合成生成。这利用两种数据类型的优势,同时减轻它们的弱点。

清晰的文档记录对于跟踪合成数据的使用位置和方式至关重要,特别是对于金融或医疗保健领域的高风险应用。数据来源和围绕其来源的透明度支持道德标准和监管合规性。

同样重要的是,需要进行严格的评估,以确定合成数据如何很好地保留源数据的统计属性,以及它是否引入任何失真。

领域专家应该在评估合成数据质量方面发挥核心作用。统计上的相似性是不够的:数据对商业专家来说必须有意义。

最终,在合成数据或真实数据之间进行选择,取决于正在建模的场景以及模型或系统的开发阶段。下面将澄清在开发过程中何时做出某些选择。

阶段

主要数据源

次要来源

验证方法

研究/探索

真实数据

用于填补空隙的合成数据

对分布情况的统计比较

初始开发

合成数据

真实样本作为参考

定期使用真实数据进行验证

系统测试

合成数据

受控测试用例生成

模型训练

混合(真实+合成)

对两个来源交叉验证

预生产验证

真实数据(子集或者保留集

仅针对真实数据的绩效指标

生产监控

真实数据

持续真实世界性能跟踪

合成数据和策略

随着人工智能对现实世界的模型的需求越来越多,合成数据已经从数据工程技术转变为战略资产。它可反映团队如何管理他们的隐私、时间、预算和监管限制。

企业仍然需要进行权衡。合成数据不是一种完美的方法,但由于对真实性的担忧,它经常被弃用。合成数据始终只是一种工具。就像任何工具一样,企业需要在正确的时间使用它来完成正确的工作。

预测分析中,数据的未来不单单是合成数据,或者真实数据;而是二者兼而有之。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐