针对特定领域用例的小型语言模型出现

日期: 2023-08-25 作者:Eric Avidon 来源:TechTarget中国 英文

虽然很多企业正在使用大型语言模型来编写内容和改进搜索结果,但有些企业正在利用自己的数据开发特定领域模型,以解决特定的业务问题。

生成式人工智能及其大型语言模型 LLM 最早是在1960年代发明的。

然而,直到 OpenAI 202211月推出ChatGPT这代表LLM能力的显着提高),它们才变得足够先进,有可能帮助人们在日常生活和工作中提高效率。

从那时起,生成式人工智能一直是分析和数据管理的主导趋势,各个供应商都宣布计划开发包含生成人工智能的工具。

由于其广泛的词汇,LLM有可能使用自由形式而不是特定于业务的语言实现自然语言处理,这可能会扩大分析的使用。此外,由于它们可以将文本转换为代码,因此它们有可能使数据工程师在构建和管理数据管道时更有效率。

LLM有时会出现“幻象”包括不准确和误导性的反应并且它们会受到安全风险的影响。LLM接受公共数据的训练,因此不了解特定组织运营的很多细微差别。

因此,企业意识到可能有一种更好的方法来在他们的业务中使用生成人工智能:训练自己的语言模型。这些模型使用自己的数据,旨在解决组织行业特有的问题,例如财务、医疗保健或供应链管理。

Eckerson Group的分析师Kevin Petrie称它们为小语言模型或特定领域的语言模型。

最近,他讨论了企业对小型特定领域语言模型日益增长的兴趣,包括它们与LLM的区别,哪些类型的组织正在开发它们以及如何应用它们。此外,他还谈到了这些模型需要多长时间才能投入使用,以及企业需要克服哪些障碍特别是数据质量才能将其投入生产。

什么是大型语言模型?

Kevin Petrie:大型语言模型属于生成式AI类别,它根据自然语言提示生成文本或其他类型的内容。它基于神经网络,研究概念和文本关系。

训练大型语言模型的过程是标记非结构化文本,这意味着将特定的单词、标点符号或字符转换为数字。然后你研究大量的文本,以了解这些不同的单词在上下文中如何相互关联。它归结为一个巨大的数字运算器,它根据之前的内容,并根据它对这些单词、短语和句子如何相互关联的了解,预测一串单词、短语或句子中的下一个单词、短语或句子。

大型语言模型的示例是现在成为头条新闻的那些,例如OpenAIChatGPTGoogleBardHugging FaceBloom等。它们经过大量文本和数十亿个参数的训练,这些参数本质上是帮助描述单词相互关系的值。

什么是小语言模型?它与LLM有何不同?

Petrie:小语言模型应用相同的方法,但更进一步处理特定领域的数据和特定领域的用例,通常使用内部企业数据。

语言模型和小语言模型是光谱的两端。人们意识到,为了解决难题并获得生产力收益,而没有与数据质量和幻觉相关的所有风险,他们需要更加特定于领域。他们需要微调模型的训练,以处理深层域数据,这些数据通常存在于企业防火墙中。

如果小语言模型主要使用企业自己的数据进行训练,那么它们与其他AI模型有何不同?

Petrie:小语言模型可能有一些初始代码,这些代码LLM上下文中训练,但企业正在对其进行微调以查看特定于领域的数据。此外,它是一种与其他AI不同类型的架构,因为它基于神经网络并且正在研究标记化文本。迄今为止,企业使用的很多现有AI模型都更侧重于机器学习模型用例,例如聚类分析线性回归和异常检测。这与研究文本、理解文本如何相互关联和生成文本不同。

语言模型可以实现LLM无法实现的哪些功能?

Petrie:它们使公司能够提高生产力和创造力,同时在数据质量、幻觉、知识产权处理、隐私和偏见方面承担更少的风险。如果正在针对特定领域的数据进行训练,则语言模型必须处理的知识差距较小。当语言模型试图填补空白时,幻觉经常出现它们推测并编造事情。

可以让企业构建自己的语言模型,以便更主动地与客户互动。在数据管理领域,数据管道供应商(例如Informatica开始开发小语言模型以及大型语言模型以帮助数据工程师构建管道,记录他们的环境,测试数据质量等。

语言模型在生产环境中真实示例是什么?

Petrie:在 ChatGPT 2022 11 月首次亮相之前一家名为 Illumex 的初创公司正在训练自己的语言模型。他们使用它来创建在其数据目录中向用户呈现的不同资产的描述。现在,他们还通过 ChatGPT 丰富了数据目录中的资产描述。

在最新一代生成式AI出现之前企业是否可以构建自己的小语言模型,或者他们是否需要提取一些现在可用的功能来开发小语言模型?

PetrieChatGPTBard等人所做的是展示这些输出的力量广度和速度。他们以及整开源社区还提供了可以根据其特定领域数据进行微调的代码。因此,很多公司正在构建自己的语言模型。

我们在Eckerson Group进行了一项调查,显示大约30%的公司表示他们正在构建自己的语言模型。我们必须看看他们取得了什么成功,以及在未来一两年内,数据质量在多大程度上干扰了这种成功。但是肯定有很多人对构建它们感兴趣。

这种兴趣的信号是,Databricks愿意为一家名为MosaicML的初创公司支付13亿美元,帮助公司构建和训练这些语言模型。

您提到,在您调查的公司中,30%的公司正在开发自己的语言模型。他们是否已经从这些模式中获益?

Petrie:制作高质量的语言模型需要一些时间,这些模型已经准备好投入生产,这些公司认为会产生可接受的风险水平和足够的上升空间。但这项工作正在进行中。

30%确实包括一些正在构建自己的语言模型的数据供应商。精通数据的软件公司比主流财富 2000 强公司更有可能成为早期采用者。

开发特定领域的语言模型的能力是数据供应商和大型组织的专属领域,还是中型企业也可以这样做?

Petrie:最初,我们看到两类早期采用者。一个是精通数据或精通AI / ML的软件公司。另一个是大型组织,它们拥有广泛的资源来投入这样的企业。

语言模型的前景如何我们最终会听到更多关于特定领域模型而不是LLM的信息吗?

Petrie:小语言模型将变得更加普遍,并产生更长期的生产力提升。这可能很简单,就像公司更科学地了解如何将提示(丰富详细特定领域的提示)输入公共LLM一样简单。这是一种特定领域的小语言模型方法,因为它正在深入企业数据。

我认为企业将从小语言模型和开发语言模型的特定领域应用程序中获得更多的长期生产力提升。

开发语言模型是顺利的过程,还是在企业可以轻松构建特定领域的模型之前需要克服的障碍?

Petrie:我们现在正处于一个膨胀的炒作周期。众所周知,热情往往会夸大新技术的最初好处和影响,而低估长期利益和影响。这将在这里发生。

很多公司将要碰到的障碍是我们几十年来一直在处理的障碍,那就是数据质量。将看到公司在数据质量、数据可观测性、主数据管理、标签和元数据管理方面重新投资,以确保他们能够处理这些语言模型的受治理训练输入和提示。

这必须是长期提高生产率的先兆。

大概需要多长时间才能确保有足够的数据质量,以便将语言模型投入生产?

Petrie:我不知道。首席数据官正在努力解决主数据管理和数据质量等老问题。数据团队正在努力掌握这些事情,因为数据源正在激增,数据量也在激增。我认为,在几年内,我们将看到一些公司已经创建了可行的围栏区域,在那里他们拥有良好干净的语言模型数据。它不会在整个组织中普遍存在,但会有相对应的领域

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐