自动编码器用例增强数据用于机器学习

日期: 2020-08-16 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

开发人员经常利用自动编码器来整理数据用于机器学习算法,以提高算法的效率和准确性,而无需数据科学家过多参与。

而数据科学家可以将自动编码器作为附加工具添加到应用程序中,以用于数据降噪、非线性降维、序列到序列预测和特征提取。与经典机器学习技术(例如用于降维的主成分分析)相比,自动编码器具有特殊优势,因为它们可以将数据表示为非线性表示-并且在特征提取中表现特别出色。

自动编码器基础知识

AIM Consulting公司首席顾问Nathan White表示,直到最近,对自动编码器的研究仍主要是学术研究。然而,现在在很多应用中,机器学习从业人员应将自动编码器作为他们的首选工具。但是,在深入探讨主要用例之前,下面我们先简要了解一下自动编码器技术。

自动编码器包含一对深度学习网络、一个编码器和一个解码器。该编码器学习有效方法将输入编码为较小的密集表示,被称为瓶颈层。在经过训练后,该解码器将此表示转换回原始输入。

数字技术咨询公司SPR企业架构执行副总裁Pat Ryan说:“自动编码器的基本原理是将输入提取到最少的数据量中,然后重构原始输入,而输入和输出之间的差异应尽可能小。”

自动编码器的价值在于它可以消除输入信号中的噪音,仅保留输入的高值表示。这样,机器学习算法可以更好地执行,因为该算法能够从较小的一组高值输入中学习数据中的模式。

自动编码器(无监督神经网络)在机器学习领域非常有用,例如视频、图像或语音应用程序,在这些领域中具有极高数据维度和非线性特性的。

自动编码器的优势

自动编码器的重要特征之一是它们可以以无监督的方式工作,从而无需手动或人工标记训练数据。

IT服务公司Cognizant的人工智能和分析副总裁Sriram Narasimhan说:“自动编码器的独特之处在于,它们可利用监督学习的好处,而无需人工注释,因为网络的输入和输出是相同的 。”

第二个优势是,它们可以自动寻找方法将原始媒体文件(例如图片和音频)转换为更适合机器学习算法的形式。AI训练数据注释工具提供商Appen的数据科学高级总监MingKuan Liu表示,自动编码器可从媒体中收集信息,这使该工具特别适用于计算机视觉应用程序,例如特征提取、合成数据生成、解缠学习和显性学习。

数据科学家需要考虑将自动编码器作为其他监督技术的补充工具,而不是完全替代。Liu说,在几乎所有行业的AI用例中,受过大量高质量标签数据集训练的监督机器学习算法仍然是首选。

自动编码器的7个用例

当用作增强机器学习项目的工具时,自动编码器具有巨大的数据清理和工程能力。

1. 特征提取器

物流服务和货运管理提供商GlobalTranz公司首席技术官Russ Felker说,使用自动编码器作为特征提取器,无需在数据清理后进行数小时的繁重的特征工程。这可使数据分类更容易完成。

Felker说:“通过将类似的项目分组在一起,你可以使系统对输出的内容提出快速的建议。”

2. 降维

自动编码器可用于降维,这些自动编码器被用于将输入压缩为最小的表示形式,以最小的损失来再现输入。

Ryan说:“在这种情况下,目标不一定是再现输入,而是在其他机器学习模型中使用编码器的较小表示形式。”当输入之间具有非线性关系时,这一点尤其重要。但是,当输入数据具有线性相关性时,数据科学家应考虑其他技术,例如主成分分析。

Narasimhan说:“在线性数据系统的情况下,PCA在计算上是降低维度的更便宜的方法。”

3. 图片压缩

研究人员还开始探索方法使自动编码器可用于改善视频和图像压缩率(与传统的统计技术相比)。Narasimhan说,研究人员正在开发特殊的自动编码器,该编码器可以将非常高分辨率压缩照片,而大小只有传统压缩技术的四分之一或更小。在这些情况中,重点是针对特定类型的内容使图像看起来类似于人眼看到的画面。人、建筑物或自然环境的图片可能都受益于不同的自动编码器,这些编码器可以调整大小并压缩该类别的大型图像。

4. 数据编码

自动编码器尤其擅长寻找更好的方法来表示原始媒体数据,无论是用于通过该数据进行搜索还是编写使用该数据的机器学习算法。在这些情况下,编码器和解码器之间瓶颈层的输出用于表示下一算法的原始数据。

例如,在音频处理中,自动编码器被用于将原始数据转换为辅助向量空间,这类似于word2vec从自然语言处理算法准备文本数据。这样可以更轻松地在大型口语档案中查找语音片段的出现,而无需进行语音到文本的对话。

5. 异常检测

自动编码器还可用于异常检测,这些自动编码器使用输入和重构输出之间的测定损失。如果在通过自动编码器运行样本后,输入和输出之间的误差太大,则该样本表明自动编码器无法重建,这与训练后的数据集异常。

Ryan说,银行业使用这些技术来帮助自动生成贷款推荐算法。例如,如果一家银行拥有大量有关客户和贷款的数据,并且可以将某些符合条件的贷款定义为良好,那么可以使用这些数据来描述良好贷款。这些良好贷款中的数据用于创建自动编码器。如果数据记录通过自动编码器传递,并且原始输入和重构的输出之间的测量损失过高,则可以标记此贷款申请以进行额外检查。

Ryan说:“这并不意味着这笔贷款不好,只是不符合该银行过去所见的良好贷款。”

6. 降噪

在某些情况下,在一系列交易中装运信息可能会丢失用于描述其状态的某些数据。Felker说,降噪自动编码器可以帮助根据训练数据确定缺少的信息,并生成货运的整体情况。这可以提高其他算法的性能,这些算法将这些数据用于预测分析等应用程序。

在其他情况下,例如音频或视频形式中,降噪可以减少在录制中产生的噪声(例如图像中的斑点或声音嘶嘶声)的影响。

7. 欺诈检测

训练机器学习模型学习欺诈活动可能具有挑战性,因为欺诈交易的数量仅占企业交易总数的极小部分。企业绩效管理软件公司OneStream Software的创始人兼首席执行官Tom Shea说,与传统方法相比,自动编码器的多功能性使用户可以创建数据预测来代表欺诈交易。

经过训练后,自动编码器可以生成额外数据点并创建类似的欺诈交易,从而为机器学习模型提供更广泛的数据集。数据科学家还可以使用针对欺诈的设置异常检测算法。数据科学家将使用来自合法交易的数据来训练算法。当原始数据和重建数据之间存在明显差异时,将发出警报。

Narasimhan说,这在我们没有足够的欺诈交易历史样本或出现全新的欺诈交易模式的情况下特别有用。

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐

  • 企业商业智能的10大好处

    商业智能(BI)软件的起源可以追溯到20世纪60年代基于大型机的决策支持系统,随后BI技术在不断发展,以应对数 […]

  • 生成式AI会取代数据分析师吗

    生成式AI不会取代数据分析师的工作。在很多领域,人工智能都无法取代人类,特别是那些需要人类同理心和洞察力的领域 […]

  • 改进数据可视化的7项技能

    数据可视化可以实现可操作的洞察力和卓越的业务成果。但构建有效的数据可视化可能很困难。如果你想创建数据可视化,你 […]

  • 了解BI生命周期以构建有效的架构

    成功的数据驱动运营遵循商业智能(BI)生命周期,定义BI能力,并部署良好理解的治理架构。 该过程的前提是,你必 […]