使用插件和微调优化 GPT 模型

文章目录

- LLM 用例和示例产品
- 警惕 AI 幻觉：限制与考虑
- 使⽤插件和微调优化 GPT 模型

OpenAI 在其网站上展示了许多激励人心的客户故事，我们需要了解这些模型如何改变我们的社会并为商业和创造力开辟新机遇。正如你将看到的，许多企业已经开始使用这些新技术，但还有更多创意空间需要去探索。

LLM 用例和示例产品

自 2012 年起，Be My Eyes 已通过技术为数百万视障人士，提供了帮助它的应用程序是志愿者与需要帮助的视障人士之间的纽带，使视障人士在日常生活中得到帮助，比如识别产品或在机场导航。只需在应用程序中点击⼀次，需要帮助的视障人士即可联系到⼀位志愿者，后者通过视频和⻨克风提供帮助。GPT-4 的多模态能力使得它能够处理文本和图像。Be My Eyes 开始基于 GPT-4 开发新的虚拟志愿者。这个虚拟志愿者旨在达到与⼈类志愿者相当的理解水平和帮助能力。Be My Eyes 的首席执行官 Michael Buckley 表示：“全球可达性的影响深远。在不久的将来，视障人士不仅将利用这些⼯具满足各种视觉解释需求，还将在生活中获得更强的独立能力。”直到现在，虚拟志愿者仍处于测试阶段。要获得访问权限，你必须在应用程序中注册并加入等候名单。不过，来自测试用户的初步反馈非常不错。截至 2023 年 11 月下旬，Be My Eyes 已完全开放了 iOS 端和 Android 端的 App 下载。

摩根士丹利是⼀家总部位于美国的跨国投资银行和金融服务公司。作为财富管理领域的领头羊，摩根士丹利拥有数十万页的知识和见解内容库，涵盖投资策略、市场研究与评论，以及分析师意见。这些海量信息分散在多个内部网站上，其文件格式主要是 PDF。这意味着顾问必须搜索大量文档才能找到他们想要的答案。可以想象，搜索过程既漫长又乏味。摩根士丹利评估了如何利用其知识资本与 GPT 的研究能力。由公司内部开发的模型将驱动⼀个聊天机器⼈，对财富管理内容进行全面搜索，并高效地解锁摩根士丹利积累的知识。通过这种方式，GPT-4 提供了⼀种更易使用的格式来分析所有相关信息。

可汗学院是⼀家总部位于美国的非营利教育组织，由 Sal Khan 于 2008 年创立。可汗学院致力于提供⼀套免费的在线⼯具，帮助全球学生接受教育。该组织为各个年龄段的学生提供数千门课程，涵盖数学、自然科学和社会学。此外，该组织通过视频和博客制作短课程，并于最近开始提供Khanmigo。Khanmigo 是由 GPT-4 驱动的新型 AI 助手。Khanmigo 可以为学生做很多事情，比如引导和鼓励他们，提问并帮助他们准备考试。Khanmigo 旨在成为对用户友好的聊天机器人，帮助学生完成课堂作业。它不会直接给出答案，而会引导学生进行学习。除了帮助学生，Khanmigo 还可以帮助教师准备教案、完成行政任务和制作教材等。可汗学院的首席学习官 Kristen DiCerbo 说道：“我们认为 GPT-4 正在教育领域开辟新的前沿。它是很多人长期以来梦寐以求的技术。它具有变革性，我们计划负责任地对它进行测试，以探索它能否有效地用于学习和教学。”在我们撰写本书之时，Khanmigo 试点计划仅面向特定人员开放。要参与该计划，你必须申请加入等候名单。Khanmigo 现已开放注册。

多邻国（Duolingo）是⼀家总部位于美国的教育科技公司，成立于 2011 年，其用于学习第⼆语言的应用程序拥有数百万用户。多邻国用户需要理解语法规则以学习⼀门语言的基础知识。他们需要进行对话，最好是与母语为该语言的⼈进行对话，以理解这些语法规则并掌握该语言。这并非对所有人来说都是易事。多邻国已经使用 GPT-4 为其产品添加了两个新功能：“角色扮演”和“解释我的答案”。这两个功能在名为 Duolingo Max 的新订阅级别中可用。借助这两个功能，多邻国填补了理论知识和语言应用之间的鸿沟。多亏了 LLM，多邻国让语言学习者能够沉浸在真实世界的场景中。“角色扮演”功能模拟与母语人士的对话，让用户能够在各种场景中练习语言技能。“解释我的答案”功能针对语法错误提供个性化反馈，帮助用户更深入地理解语言结构。多邻国的首席产品经理 Edwin Bodge 说道：“我们希望 AI 技术能够深度融入多邻国的应用程序，并利用多邻国的游戏化特点。这是我们的用户所喜爱的。”GPT-4 与 Duolingo Max 的集成，不仅增强了整体学习体验，还为更有效的语言学习铺平了道路，尤其是对于那些无法接触到母语人士或沉浸式环境的人来说。这种创新方法应该能够改变语言学习者掌握第⼆语言的方式，并巩固长期的学习成果。

Yabble 是⼀家市场研究公司，它利用 AI 技术分析消费者数据，为企业提供可用的见解。Yabble 的平台将原始的非结构化数据转化为可视化形式，使企业能够根据客户需求做出明智的决策。将先进的 AI 技术（如 GPT）整合到 Yabble 的平台中，这样做增强了其消费者数据处理能力。这种增强使得对复杂问题和答案的理解更加有效，也使企业能够基于数据获得更深入的见解。这样⼀来，企业可以根据客户反馈识别可改进的关键领域，做出更明智的决策。Yabble 的产品负责人 Ben Roe 说道：“我们知道，如果要扩大现有的服务规模，我们需要 AI 来完成大部分的繁重⼯作，这样我们就可以把时间和创造力用在其他地方。OpenAI 完全符合我们的要求。”

Waymark 提供了⼀个创作视频⼴告的平台。该平台利用 AI 技术帮助企业轻松创作高质量的视频，无须技术知识或昂贵的设备。Waymark 已将 GPT 集成到其平台中，这显著地改进了平台用户的脚本编写过程。这种由 GPT 驱动的增强功能使得平台能够在几秒内为用户生成定制脚本。这样⼀来，用户能够更专注于他们的主要目标，因为他们无须花费太多时间编辑脚本，从而有更多的时间来创作视频⼴告。因此，将 GPT 集成到 Waymark 平台中提供了效率更高、个性化更强的视频创作体验。Waymark 创始⼈ Nathan Labenz 说道：“在过去的五年中，我使用了各种 AI产品，但没有发现任何⼀款产品能够有效地总结⼀个企业的在线足迹，更不用说撰写有效的营销文案了，直到 GPT-3 出现。”

Inworld AI 为开发人员提供了⼀个平台，用于创建具有独特个性、多模态表达能力和上下文意识的 AI 角色。Inworld AI 平台的主要应用领域之⼀是视频游戏。将 GPT 作为 Inworld AI 角色引擎的基础，可以实现高效、快速的视频游戏角色开发。通过将 GPT与其他 ML 模型结合，该平台可以为 AI 角色生成独特的个性、情感、记忆和行为。这个过程使游戏开发⼈员能够专注于叙事和其他主题，而无须花费大量时间从头开始创建语言模型。Inworld AI 的首席产品官兼联合创始⼈ Kylan Gibbs 表示：“有了 GPT-3，我们有更多的时间和创造力来打磨专有技术，为下⼀代非玩家角色提供动力。”

警惕 AI 幻觉：限制与考虑

正如你所见，LLM 根据给定的输入提示词逐个预测下⼀个词（也就是标记），从而生成回答。在大多数情况下，模型的输出是与提问相关的，并且完全可用，但是在使用语言模型时需要小心，因为它们给出的回答可能不准确。这种回答通常被称为 AI 幻觉，即 AI 自信地给出⼀个回答，但是这个回答是错误的，或者涉及虚构的信息。对于依赖 GPT 的用户来说，AI 幻觉可能带来危险。你需要仔细核对并批判性地审视模型的回答。考虑以下例子。首先，我们让模型计算⼀个简单的式子：2 + 2。不出所料，它给出的答案是 4。⾮常好！然后，我们让它计算⼀个复杂的式子：3695 × 123 548。尽管正确答案是 456 509 860，但模型非常子信地给出了⼀个错误的答案，如下图所示。当我们要求它进行检查并重新计算时，它仍然给出了⼀个错误的答案。

图片名称 — ChatGPT 产生的数学幻觉（ChatGPT，2023 年 4 月 22 日）

尽管我们可以使用插件系统向 GPT 添加新功能，但 GPT 默认不包含计算器。为了回答我们的问题，即 2 + 2 等于多少，GPT 逐个生成每个标记。它之所以能正确回答，是因为它可能经常在训练文本中遇到 2 + 2 等于 4。这并不能说明它会计算，只能说明它会补全文本而已。GPT 很可能没有在其训练文本中见过太多次 3695 × 123 548。这就是它犯错的原因。你可以看到，即使犯了错，它对自己的错误输出也相当自信。因此，在应用程序中使用 GPT 时要特别小心。如果 GPT犯错，那么你的应用程序可能会得到不⼀致的结果。请注意，在刚才的例子中，ChatGPT 给出的结果接近正确答案，而不是完全随机的。这是算法的⼀个有趣的附带效果：尽管没有数学能力，但ChatGPT 仅通过语言方法就能给出近似的估计结果。OpenAI 已经为 GPT-4 引入了插件功能。这些工具让我们能够向 LLM 添加额外的功能。计算器就是众多工具之⼀，它可以帮助 GPT 正确回答数学问题。在前面的例子中，ChatGPT 犯了⼀个错误。但在某些情况下，它甚至会故意欺骗，如下图所示。

ChatGPT 声称自己无法访问互联网。然而，如果我们坚持，就会发生有趣的事情，如下图所示。

ChatGPT 的意思是，它已经访问了链接。然而，这在目前绝对不可能。ChatGPT 明显让用户误以为它具备其实并不具备的能力。顺便说⼀下，正如下图所示，该图片中的斑马可不止三只。

ChatGPT 和 GPT-4 在设计上并不可靠：它们可能会提供错误信息，甚至误导用户。总之，我们强烈推荐在创意型应用程序中使用纯 GPT 解决方案，而不是在医疗咨询工具等真相至关重要的问答类应用程序中使用。对于这类用例，插件可能是理想的解决方案。

使⽤插件和微调优化 GPT 模型

除了简单的文本补全功能，还可以使用更高级的技术来进⼀步利用 GPT 模型的能力。2023 年 11 月 7 日，OpenAI 在首届开发者大会上发布了 Assistant API，并提供了函数调用、代码解释器、知识库上传等功能，丰富了 GPT 模型构建应用程序的能力。同时，OpenAI 上线了 GPTs应用商店，用户可以通过输⼊自然语言指令快速构建专属的 GPT 机器人。GPT 模型有⼀定的局限性，例如其计算能力有限。正如你所见，GPT 模型可以正确回答简单的数学问题，如 2 + 2 等于多少，但在面对更复杂的计算时可能会遇到困难，如 3695 × 123 548。此外，它没有直接访问互联网的权限，这意味着 GPT 模型无法获取新信息，其知识仅限于训练数据。对于GPT-4，最后⼀次知识更新是在 2021 年 9 月。OpenAI 提供的插件服务允许该模型与可能由第三方开发的应用程序连接。这些插件使模型能够与开发人员定义的应用程序接口（application program interface，API）进行交互。这个过程可以极大地增强 GPT 模型的能力，因为它们可以通过各种操作访问外部世界。截至 2023 年 11 月下旬，GPT-4 的训练知识已更新至 2023 年 4 月。

插件为开发人员带来许多新的机会。想象⼀下，将来每家公司都可能希望拥有自己的 LLM 插件。就像我们今天在智能手机应用商店中看到的那样，可能会有⼀系列的插件集合。通过插件可以添加的应用程序数量可能是巨大的。在其网站上，OpenAI 表示可以通过插件让 ChatGPT 执行以下操作：检索实时信息，如体育赛事比分、股票价格、最新资讯等；检索基于知识的信息，如公司文档、个人笔记等；代表用户执行操作，如预订航班、订购食品等；准确地执行数学运算。

从简单的 n-gram 模型发展到 RNN、LSTM，再到先进的 Transformer 架构，LLM 已经取得了长足的进步。LLM 是可以处理和生成⼈类语言的计算机程序，它利用 ML 技术来分析大量的文本数据。通过使用自注意力机制和交叉注意力机制，Transformer 极大地增强了模型的语言理解能力。 GPT-4 和 ChatGPT具备理解和生成上下文的高级能力。利用它们构建应用程序超越了传统的 BERT 或 LSTM 模型的范畴，可以提供类似人类的互动体验。自 2023 年初以来，GPT-4 和 ChatGPT 在 NLP 方面展现出了非凡的能力。它们为促进各行各业的 AI 应用程序快速发展做出了贡献。从像 Be My Eyes 这样的应用程序到像 Waymark 这样的平台，不同的行业案例证明，GPT 模型有潜力从根本上改变我们与技术互动的方式。不过，在使用 LLM 时，要牢记可能存在风险。使用 OpenAI API 的应用程序开发⼈员应确保用户了解错误带来的风险，并能够验证由 AI 生成的信息。