2023年3月23日,OpenAI实现了对ChatGPT插件的初步支持,还推出了两个插件,一个网络浏览器和代码解释器,并且开源了知识库检索插件的代码,任何有信息的开发者都可以自行托管,以增强ChatGPT的功能。
在目前已实现的“初步功能”来看,ChatGPT已经可以具备了三项能力:
-
访问最新信息,比如体育比分、股票价格、最新消息;
-
检索知识库信息,比如公司文件、个人笔记、运行计算;
-
代表用户执行操作,比如订机票、订餐。
以前因为不联网,用户只能查询到2021年9月之前的消息;但现在不仅能直接检索到最新新闻,就连数理计算也一并解决了!另外也支持个人或企业把私有数据(文档、笔记、电子邮件或公共文档)投喂给ChatGPT,成为人的“第二大脑”或企业的智能助理。
作为一个开源和自托管的解决方案,开发人员只要注册ChatGPT就可以部署自己版本的插件。该插件利用OpenAI embedding(https://platform.openai.com/docs/guides/embeddings),允许开发人员选择向量数据库(Milvus、Pinecone、Qdrant、Redis、Weaviate或Zilliz)来索引和搜索文档,也可以使用webhook将信息源与数据库同步。
赋予ChatGPT使用工具、联网、运行计算的能力。例如在官方演示中,ChatGPT一旦接入数学知识引擎Wolfram Alpha,就再也不用担心数值计算不精准的问题。
plugins申请加入waitlist使用地址:https://openai.com/waitlist/plugins
plugins插件使用说明书地址:https://platform.openai.com/docs/plugins/
安全和广泛应用的影响
将语言模型与外部工具联系起来,既带来了新的机遇,也带来了重大的新风险。
插件提供了解决与大型语言模型相关的各种挑战的潜力,包括“幻觉”、实时新闻的事件以及访问(经许可)专有信息源,比如企业特有的数据源。通过显示的集成外部数据,如在线最新信息、基于代码的计算或自定义插件检索的信息,语言模型可以基于这些有力的证据来回复用户,用户也可以评估模型输出的可信度,从而降低对大模型输出的过渡依赖,正如GPT-4 System Card译文所说的那样。
插件带来的价值可能远远超出了解决现有限制的范围,它可以帮助用户处理各种新的用例,从浏览产品目录到预订航班或订购食物。
与此同时,插件可能会采取有害或意外的行动,增加欺诈、误导或虐待他人的不良行为者的能力,从而增加安全挑战。通过增加可能的应用程序的范围,插件可能会增加模型在新领域中采取错误或错位操作所带来的负面后果的风险。
OpenAI进行了内部和外部合作者的红队演习,揭示了许多可能的相关场景。例如,红团队发现了插件的方法,如果在没有保护措施的情况下发布,可以执行复杂的提示注入、发送欺诈和垃圾邮件、绕过安全限制或滥用发送到插件的信息。利用这些发现,通过设计限制风险插件行为的缓解措施来告知安全性,并提高插件如何以及何时作为用户体验的一部分运行的透明度。
插件可能会产生广泛的社会影响。例如,OpenAI最近发布一篇工作论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》(https://arxiv.org/abs/2303.10130)发现,有机会使用工具的语言模型可能会比没有工具的模型产生更大的经济影响,预计当前的人工智能技术浪潮将对就业转变、转移和创造的速度产生重大影响。
ChatGPT plugins网络浏览器
目前联网功能是基于微软Bing搜索的API检索内容的,而且只支持GET请求,也就是用户支持查看网页内容,不能对其进行修改,主要是考虑安全风险。该功能继承了微软Bing搜索的两大特点:(1)信息来源可靠性和真实性;(2)拒绝回答不安全问题。该插件在一个独立的服务中运行,ChatGPT的浏览活动与其他基础设施是分开的。
为了尊重内容创作者并遵守网络规范,浏览器插件的用户需要是ChatGPT用户,并需要填写robots.txt文件,这可能偶尔会导致“点击失败”消息,这表明插件正在遵守网站的指示。为了避免对其进行爬虫,只允许ChatGPT用户操作,而不用于以任何自动方式进行爬网。为此OpenAI公布了可以访问的IP范围(https://platform.openai.com/docs/plugins/production/ip-egress-ranges)。此外,还实施了速率限制措施,以避免向网站发送过多流量。
下面看看效果如何:
从结果可以看到,系统给出了最新2023年的结果,并且展示了回复中微软Bing搜索的引用,这一增加的透明度层有助于用户验证模型响应的准确性,也有助于回馈内容创作者。
ChatGPT plugins联网代码解释器
代码解释器:可以使用Python处理上传和下载的实验性ChatGPT模型。
简单来说,就是提供了一个在沙盒、防火墙执行环境中工作的 Python 解释器,以及一些临时磁盘空间。解释器插件运行的代码在一个持久会话中进行评估,该会话在聊天会话期间是活动的(有上限超时),并且后续调用可以相互构建。目前该功能支持将文件上传到当前对话工作区并下载工作结果。
不过OpenAI这边表示,这一代码解释器主要还是提供计算机的一些最基本的功能,让一些初级程序员和爱好者提供更顺滑的接口。
目前推荐的功能包括:
-
解决定量和定性的数学问题
-
进行数据分析和可视化
-
在格式之间转换文件
将模型连接到编程语言解释器的首要考虑是正确地对执行进行沙盒处理,这样人工智能生成的代码在现实世界中就不会产生意外的副作用。在安全的环境中执行代码,并使用严格的网络控制来防止外部互联网访问执行的代码。此外,还为每个会话设置了资源限制,禁用互联网访问代码沙盒的功能,这是目前的权宜之计。使用第三方插件可以认为是将模型与外部世界连接的一种安全第一的方法。
第三方插件
目前已支持的第三方插件,可以看到有餐厅推荐、旅行计划、购物、AI语言老师、网上店铺,以及学术界知识应用Wolfram、应用库(与5000多个应用程序交互,包括Google表格)……
这样看起来,几乎已经涵盖了我们生活中的衣食住行、工作与学习。
首先是针对第三方插件,任何开发人员都可以自行参与构建,OpenAI甚至还给出了一整套构建流程:“如何在ChatGPT构建你的插件”,并在Github上已开源。
构建插件的步骤*****
官方博客:https://platform.openai.com/docs/plugins/introduction
官方github:https://github.com/openai/chatgpt-retrieval-plugin
如何使用第三方插件
登录chat.openai.com上开始对话时,用户可以选择要启用的第三方插件。关于启用的插件的文档作为对话上下文的一部分显示给语言模型,使模型能够根据需要调用适当的插件API来实现用户意图。目前,插件是为调用后端API而设计的,正在探索也可以调用客户端API的插件。
在ChatGPT上面的显示是这样的,用户可以自行选择插件并下载。
随后就可以在聊天界面上使用了。
参考文献:
[1] https://openai.com/blog/chatgpt-plugins
[2] https://platform.openai.com/docs/plugins/
[3] https://platform.openai.com/docs/plugins/introduction
[4] https://github.com/openai/chatgpt-retrieval-plugin