如果每封电子邮件、每个带有订单、发票、投诉、录用请求或工作申请的 PDF 都可以翻译成机器可读的数据,会怎样?然后可以由 ERP / CRM / LMS / TMS 自动处理吗?无需编程特殊接口。
听起来很神奇?它确实有一些魔力。但最近已成为可能。
解决方案是大型语言模型(LLM)。它们与人类办公室工作人员类似,能够将电子邮件转换为结构化数据,而无需或只有很少的学习样本。电子邮件、PDF 或文档被视为订单、投标、提醒。并找到并提取具体数据。例如,对于运输订单请求,客户、托盘数量、重量、取货地点、取货时间、交货地点。
然后,附加的业务算法(这不是由模型完成的)可以根据结构化数据预过滤查询,直接处理它(例如回答它)或将其作为结构化输入提供给人工代理,也可能使用进一步处理的建议。
什么是大型语言模型以及我们为什么要关心?
近年来,大型语言模型的发展是机器学习领域的一个重要里程碑。这些模型的特点是能够用自然语言回答问题、创建文本、总结文本、将其翻译成其他语言或语言游戏,或者生成代码,而所有这一切都无需脚本,即无需专门编程将用户输入与机器输出链接起来的算法。这些模型不仅能产生句法(拼写、语法)正确的输出,而且还能够在语义上正确解决困难的语言任务。大模型有很多,最著名的包括 GPT-3 (OpenAI)、BERT、T5 (Google) 或 Wu Dao (北京人工智能研究院)、MT-NLG (微软)。
大模型在回答问题、继续或总结文本方面表现出惊人的技能。在许多情况下,他们的技能甚至超过了人类沟通伙伴。以下是三个 LLM 能力的一些示例:GPT-3 davinci、AI21 studio j1-jumbo、Macaw 11B。所有任务都没有经过专门培训,也没有编写响应脚本。相反,这些都是零射击能力的例子:无需经过专门训练就能做某事的能力。
还可以生成结构化数据,例如简单的程序:
这些模型通常也能够处理其他广泛使用的语言,但没有一个能像英语一样处理。
LLMS如何运作?
大模型正确回答了所有问题。这怎么可能?
快速浏览大型语言模型的基础知识:最强大的系统是 Transformer 模型,其核心由深度学习模型(一种特定类型的神经网络)组成,并配备了注意力机制。它们能够处理顺序输入(例如文本)并产生相应的输出。他们基本上是根据统计数据来做到这一点的:最可能的延续是什么(问题的答案、对话中的下一个话语、开始的文本的完成)?— 这意味着,他们的响应并不像 Siri、Alexa 或其他语音助手目前那样基于用户意图与答案的固定映射。
这些模型在各个维度上都很大:它们现在通常包含超过 1000 亿个参数。简而言之,参数是神经元之间的权重,随着模型学习而调整。这些模型使用数百兆字节的主要公开数据(例如维基百科和类似的大型语料库)进行训练。培训内容相当于十万多本书的规模。换个角度来看:一个人一生读完5000本书是很困难的。这些模型的生态足迹也是巨大的:据估计,最成功的大模型的初始训练消耗的能量相当于驾驶汽车往返月球所需的能量。对于大模型来说,数量在某种程度上转化为质量。目前的成就是通过十倍的努力才取得的,
资料来源: https: //huggingface.co/blog/large-language-models
较新的大模型的一个特点是——如上面的例子所示——它们可以在没有特定任务学习的情况下提供对输入的响应。他们的产出仅依赖于他们的基础训练。与人类类似,这些模型具有多功能性,能够理解并正确对话或响应单次训练(单个练习示例)、少次训练(几个示例)甚至无示例所教授的新语言游戏根本不。这是新的、革命性的。早期的模型经过精心训练,只能完成一项工作,并且只能处理单一任务:下棋、识别可疑的银行活动、在图片中查找人脸等。
当然,这里也可以进行一些微调,即使用额外的样本输入和输出来训练特定作业的模型。这也类似于人类的语言习得:经过大约20年的童年和青少年时期的基本训练,我们可以聊天、争论、进行哲学思考、撒谎、计算、旋转、分析或布道。但为了在高而具体的专业水平上做到这一点,我们学习法律、量子物理学、会计、心理学或神学。
模型得分的一个有趣领域是文本分析。在下面的示例中,我们告诉模型要做什么,并给出两个示例:iPhone 和 Serrano ham。对于第三个输入(苹果酒),模型本身设法提供正确的答案(少量学习)。
还可以分析更多结构化数据。下面的例子(同样基于少量镜头学习)展示了一种没有数据库和 SQL 的数据库查询,而是简单地基于语言技能。类似于人类能够做的事情。
具有大型语言模型的自动化设置
如何利用语言模型将非结构化数据转换为结构化数据并自动处理?我们自己的实践经验中的一个实施示例将证明这一点。(- 当然,我们绝对不是唯一处理这些问题的人,另请参阅本文)。
A. 模型的设置(POC 1)
问题:我们收到可能采用不同语言的非结构化邮件,作为传输的报价请求,并尝试将它们转换为结构化数据。
为了做到这一点,我们为模型提供了一些训练样本(几十到几百个样本)。样本应该尽可能多样化,以便模型学会处理全方位的请求。样本还应涵盖询价以外的意图:例如,有关正在进行的装运的查询或投诉,以帮助模型区分正确的分类。训练样本包括电子邮件或 PDF 文本的有效负载以及要输出的结构化数据。任何可以通过简单脚本从电子邮件中提取且不需要机器学习的数据都应提前删除,例如发件人地址或收件人地址。输入应包含真实数据,未经手动清理,但包含拼写错误、口语时间和所有可能的语言。目标数据不必采用独立格式(JSON 等)才能启动。转换可以再次通过简单的算法完成。
这些数据用于调整模型,然后该模型可用于识别和处理任意数量的其他查询。
您的应用程序应该使用哪种基本模型?这个问题不太容易回答,应该分为几个子问题:
1. 哪种型号、哪种配置、哪种设置可提供最佳效果?
2. 我可以在我想要的设置(在自己的云、SaaS 解决方案等中运行)和我的要求(例如隐私、数据主权)中运行哪种模型?
3. 哪种模型的总拥有成本最低(固定成本和基于请求的成本)?
如果从问题 2 和问题 3 的角度来看,多个模型位于相关集中,则应使用不同的设置来测试这些模型。为了找到最佳解决方案,您应该首先在一些训练和少量测试数据的基础上测试模型,然后通过更多数据取得成功。机器处理的范围仍然可以改变,某些查询类别或某些数据可能在评估第一结果之后被集成或删除。
如果此操作成功并且您为业务目的获得了足够高的正确答案率,则可以采取下一步。哪个比率足够可以根据应用而变化,可以是 60%、80% 或 98%。为了获得可以在以后的生产操作中重现的结果,在试验期间分离训练和测试数据非常重要。
B. 集成到整体E2E解决方案中(POC 2)
集成到更大的框架中可以如下所示:模型生成的数据首先进行后处理:大模型没有地图功能,他们无法将“Werk Stocken Continental AG”(原文如此)等地址信息转换为路线计算的地址,就像他们无法将“下周三上午 10 点”这样的日期转换为“30.03.2022 10:00h”。
处理后的数据链接到简单脚本生成的数据,并传递给自动回答查询的业务算法。无法自动处理的请求仍会路由到手动处理它们的人员。这可以包括以下情况:
- 该模型认识到这不是征求建议书。
- 模型或脚本算法认识到它们无法将此请求转换为数据。
- 从技术上讲,业务算法无法处理生成的数据。
- 尽管有完整的数据集可用,但仍无法自动答复该请求,因为例如不清楚特定客户、关系、日期或负载是否可以履行,或者因为根本无法提出价格。
如果所生成的数据可以被自动处理,则它可以例如被简单地馈送到系统(例如运输管理系统)中并且可以在那里立即被处理。例如,可以通过电子邮件生成完整的招标——仅基于业务算法。这种解决方案的迷人之处在于,对模型的可能误解不会导致在内容、价格或公司履约风险方面存在本质错误的报价。相反,报价总是正确的。在最坏的情况下,它只是与请求的确切目标不对应。该解决方案可以使用类似于生产目标映像的操作设置进行测试,例如并行操作:邮件继续进入生产系统,同时在测试设置中处理邮件的克隆并评估结果。这里的处理和操作设置的问题很快就会显现出来。
C. 测试、软启动和进一步步骤
如果步骤 2 成功,那么首先软启动系统是有意义的,例如,仅将其应用于有限的客户群,然后在出现问题时重新调整。或者让系统一开始就在人工监督下运行(电子邮件在发送前进行检查)。如果系统成功且稳定,则可以逐步扩大自动化的范围和程度。
系统还应在运行期间进一步优化,例如通过重新训练未正确识别的请求并发送以进行手动处理。
根据应用的不同,自动化程度可以从开始时的 80% 扩展到后期的 90% 或 95%。
使用大模型的自动化具有三大优势:
- 能够让合适的团队解决对人类来说更令人兴奋、高利润和与增长相关的问题。
- 在销售、客户支持等方面部署的人力方面,处理效率大幅提高。
- 由于更快的响应和避免查询停滞,提高了服务质量
与创建特定于客户的 EDI 连接等手动自动化方法不同,基于 LLM 的自动化为跨客户流程自动化付费。投资价值不会因接口规范的变化或客户关系的变化而损失。它还可以针对 B2B 客户的长尾,甚至无法为其构建特定接口的 B2C 客户实施。基于大模型的解决方案通常可以而且应该与主要合作伙伴的 EDI 解决方案相结合。
长期前景
我们概述了一个场景,其中可能是系统生成的人工输入(来自 ERP 系统的询价)进入 LLM 支持的系统。响应返回给人类,然后由人类委托或发布。从长远来看,我们可以想象进一步的场景:如果我们在发送方和接收方都有一个支持LLM的系统,那么整个对账过程可以在很大程度上实现自动化,例如,在客户的ERP系统和承包商的TMS系统之间。一个系统发送询价,TMS 发送投标,ERP 选择其中之一并发送订单,TMS 确认并将订单发送至履行。因此,无需指定接口,与任何合作伙伴的多向自动通信都将变得简单可行。
大模型的多功能性使他们能够像人工代理一样处理不同格式和结构化的请求类型。
最初,处理请求的可能范围和质量肯定只能在第一级支持级别上实现。需要可靠地识别更复杂或无法答复的请求,然后将其路由到人工二级处理。
尽管如此,大量的时间节省和流程加速将是积极的影响。此外,系统可以通过对它们尚未/尚未可靠回答的查询进行训练来自动或半自动改进。