ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源

4eda0c202fe3883b0d1175b6958b2e17.gif

©作者 | 桃子 Britta

来源 | 新智元

「贾维斯」已来!微软亚研院和浙大推出了一个大模型协作系统HuggingGPT,让ChatGPT协调HF社区模型,处理各种多模态任务能力超强。

0d1ba3d906a7af5261d738a0787da40c.jpeg

ChatGPT引爆的AI热潮也「烧到了」金融圈。

近来,彭博社的研究人员也开发了一个金融领域的GPT——Bloomberg GPT,有500亿参数。

c08656a4f3a5021426e0bf19caf89d95.png

GPT-4的横空出世,让许多人浅尝到了大型语言模型的强大能力。

然而,OpenAI不open。业界许多人纷纷开始做GPT的克隆,而且许多ChatGPT平替的模型都是基于已经开源的模型上构建,尤其是Meta开源的LLMa模型。

比如,斯坦福的草泥马(Alpaca)、UC伯克利联手CMU、斯坦福等骆马(Vicuna),初创公司Databricks的Dolly等等。

cd87b81b5485ef8a41d9a29fe1d076e4.jpeg

针对不同任务和应用构建的各种类ChatGPT的大型语言模型,在整个领域呈现出百家争鸣之势。

那么问题来了,研究者如何选择合适的模型,甚至是多个模型,去完成一项复杂的任务呢?

近日,微软亚洲研究院和浙江大学的研究团队,发布了一个大模型协作系统HuggingGPT。

7cd2e4ff843d58c6ff7cc3f1584fe9e6.png

论文链接:

https://arxiv.org/pdf/2303.17580.pdf

HuggingGPT利用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,来完成多模态复杂任务。

这意味着,你将拥有一种超魔法,通过HuggingGPT,便可拥有多模态能力,文生图、文生视频、语音全能拿捏了。

f162a1474b8c85c373ee6b1d2e77c646.png

HuggingGPT搭桥


研究者指出解决大型语言模型(LLMs)当前的问题,可能是迈向AGI的第一步,也是关键的一步。

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。

- 受限于文本生成的输入和输出形式,当前LLMs缺乏处理复杂信息(如视觉和语音)的能力;

- 在实际应用场景中,一些复杂任务通常由多个子任务组成,因此需要多个模型的调度和协作,这也超出了语言模型的能力范围;

- 对于一些具有挑战性的任务,LLMs在零样本或少样本设置下表现出优异的结果,但它们仍然比一些专家弱(如微调模型)。

为了处理复杂的人工智能任务,LLMs应该能够与外部模型协调,以利用它们的能力。因此,关键点在于如何选择合适的中间件来桥接LLMs和AI模型。

095d2d3237e046e67c63fb7364f108f2.jpeg

研究者发现,每个AI模型都可以通过总结其模型功能表示为一种语言形式。

由此,便引入了一个概念,「语言是LLMs,即ChatGPT,连接人工智能模型的通用接口」。

通过将AI模型描述纳入提示中,ChatGPT可以被视为管理人工智能模型的大脑。因此,这一方法可以让ChatGPT能够调用外部模型,来解决实际任务。

简单来讲,HuggingGPT是一个协作系统,并非是大模型。

它的作用就是连接ChatGPT和HuggingFace,进而处理不同模态的输入,并解决众多复杂的人工智能任务。

所以,HuggingFace社区中的每个AI模型,在HuggingGPT库中都有相应的模型描述,并将其融合到提示中以建立与ChatGPT的连接。

随后,HuggingGPT将ChatGPT作为大脑来确定问题的答案。

到目前为止,HuggingGPT已经围绕ChatGPT在HuggingFace上集成了数百个模型,涵盖了文本分类、目标检测、语义分割、图像生成、问答、文本到语音、文本到视频等24个任务。

实验结果证明,HuggingGPT拥有处理多模态信息和复杂人工智能任务的能力。

四步工作流程

HuggingGPT整个工作流程可以分为如下四个阶段:

- 任务规划:ChatGPT解析用户请求,将其分解为多个任务,并根据其知识规划任务顺序和依赖关系

- 模型选择:LLM根据HuggingFace中的模型描述将解析后的任务分配给专家模型

- 任务执行:专家模型在推理端点上执行分配的任务,并将执行信息和推理结果记录到LLM中

- 响应生成:LLM总结执行过程日志和推理结果,并将摘要返回给用户

c76242589f028bdb954cd446c5869834.jpeg

7a64332a8bbcbf8f7a339f7c178a0d75.png

多模态能力,有了


实验设置

实验中,研究者采用了gpt-3.5-turbo和text-davinci-003这两种GPT模型的变体作为大型语言模型(LLMs),这些模型可以通过OpenAI API公开访问。

为了使LLM的输出更加稳定,我们将解码温度设置为0。

同时,为了调整LLM的输出以使其符合预期格式,我们在格式约束上设置了logit_bias为0.1。

研究人员在如下表格中提供了为任务规划、模型选择和反应生成阶段而设计的详细提示,其中{{variable}}表示在提示被输入LLM之前,需要用相应的文本填充域值。

eaddd89530c591a7f7598522f6bc03de.png

研究人员在广泛的多模态任务上测试了HuggingGPT。

在ChatGP和专家模型的配合下,HuggingGPT可以解决语言、图像、音频和视频等多种模式的任务,包含了检测、生成、分类和问题回答等多种形式的任务。

虽然这些任务看起来很简单,但掌握HuggingGPT的基本能力是解决复杂任务的前提条件。

比如,视觉问答任务:

7fa757d76677cab261fc49787d7c6319.png

文本生成:

b7e42b15735fe3612f2aa845d8806a57.png

文生图:

3c4c0c1f1f123aae7d6148f29ac2822f.png

HuggingGPT可以整合多个输入的内容来进行简单的推理。可以发现,即使有多个任务资源,HuggingGPT也能将主要任务分解成多个基本任务,最后整合多个模型的推理结果,得到正确答案。

2ec04f5987ad7503c0b219b1ff43c84d.png

此外,研究人员通过测试评估了HuggingGPT在复杂任务情况下的有效性。

就HuggingGPT处理多项复杂任务的能力进行了展示。

当处理多个请求的时候,可能包含多个隐含任务或者需要等多方面的信息,这时依靠一个专家模型来解决是不够的。

而HuggingGPT可以通过任务规划组织多个模型的协作。

一个用户请求中可能明确包含多个任务:

0a7a3e7b542b7ac006b542ad9c8276a4.png

下图展示了HuggingGPT在多轮对话场景下应对复杂任务的能力。

用户将一个复杂的请求分成几个步骤,通过多轮请求达到最终目标。结果发现,HuggingGPT可以通过任务规划阶段的对话情境管理来跟踪用户请求的情境状态,并且可以很好地解决用户提到的请求资源以及任务规划。

1048716126e0458c14aa8a58a4f0f7a2.png

d5b639e51b749ea64671b8e1da3edd09.png


「贾维斯」开源


目前,这一项目已经在GitHub上开源,但是代码并没有完全公布。

2e3054fec614b9ac9dfdda26194cd1d7.png

有趣的是,研究者给这个项目命名为《钢铁侠》中的贾维斯,无敌AI这就来了。

JARVIS:一个连接LLMs和ML社区的系统

05968d16d321e904bdb2af6eb3df94d6.gif

顺便提一句,HuggingGPT需要有了OpenAI的API才可以使用。

87ac37d2ce1c5a865c7cb1d6c0b3a8a4.png

eee300a6356704bc8737e812dd07228b.png


网友:研究的未来


JARVIS / HuggingGPT就像此前Meta提出的Toolformer一样,都在充当着连接器的作用。

甚至,包括ChatGPT plugins也是如此。

网友称,「我强烈怀疑第一个人工通用智能(AGI)的出现将比预期更早。它将依靠「胶水」人工智能,能够智能地将一系列狭义人工智能和实用工具粘合在一起。

我获得了访问ChatGPT的Wolfram插件的权限,这使它一夜之间从数学菜鸡变成了数学天才。当然,这只是一个小步骤,但却预示着未来的发展趋势。

d41b6edb96da6e52112d45229344d5dc.png

我预测,在接下来的一年左右,我们将看到一种人工智能助手,它与数十个大型语言模型(LLMs)及类似工具相连,而终端用户只需向其助手发出指令,让其为他们完成任务。这个科幻般的时刻即将到来。

0d5c82c176973c19d58b05c1b7c8449a.png

还有网友称,这就是未来的研究方法。

961d241e9b9d11735ec653b8bac58e35.png

GPT在一大堆工具面前,知道如何使用它们了。

f0bc90e20a947a74137b6fb5fa4642f7.png

outside_default.png

参考文献

outside_default.png

[1] https://twitter.com/johnjnay/status/1641609645713129473

[2] https://news.ycombinator.com/item?id=35390153

更多阅读

26e74fd20f90e75ed87aad8a48f8ac59.png

11fe7444ad62f01bb98bc0df4b81412a.png

46ad64e34e551cb8bf687da8dc5c3a83.png

7f5b5960bf41612f21d171f1fcebcff7.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

cf283a9d5635e533c938848f78e52687.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

167eadf7c9a6c50f37a0556f247a16e3.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13152.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华人一作DragGAN爆火!拖动你的GAN:交互式图像编辑新高度

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【GAN和扩散模型】微信技术交流群 转载自:机器之心 | 编辑:蛋酱、小舟 如果甲方想把大象 P 转身,你只需要拖动 GAN 就好了。 在图像生成领…

魔戒啊魔戒,请帮我解开CDM的“数据魔法”

关注我们牛年牛气冲天 4月16日,被誉为魔幻电影鼻祖的《指环王》三部曲,将陆续以4K版登上国内IMAX银幕。那令人震撼而又陶醉的魔幻世界重新归来了。 在现实世界中,在看似枯燥乏味的数据中,是否也存在魔法呢?下面&#x…

医疗ChatGPT、金融GPT都来啦!“潘多拉的魔盒”已经打开?

源|学术头条 AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 DallE 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内…

强强联合!谷歌大模型团队并入DeepMind!誓要赶上ChatGPT进度

文|明敏 发自 凹非寺源|量子位 为应对ChatGPT,谷歌在大模型方面的动作还在继续。 最新消息,其旗下专注语言大模型领域的“蓝移团队” (Blueshift Team)宣布,正式加入DeepMind,旨在共…

史上最完整的《指环王》魔戒战争大事记(编年体长文)

以下内容转载自 https://www.toutiao.com/i6872919198092231179/ 原创跃马酒馆小招待2020-09-16 13:33:12 大家好,本文承接上一篇文章对《指环王》历史的梳理,这次从更加激动人心的第二纪元开始将整个魔戒故事以编年体的方式进行叙述。 (如…

GEMMA 全基因组关联分析+CMplot多性状曼哈顿+QQ图脚本

这里写自定义目录标题 GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 ###GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 #作者:刘济铭 ########################## GWAS理论和基本结果理解已经有很多…

新鲜事儿!只有AI作品的电影节;酷~AI纹身设计师;ChatGPT的接生婆RLHF;Wayve自动驾驶模型MILE… | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 📢 『AI Film Festival』只接受AI作品的电影节,一万美元奖金花落谁家? https://aiff.runwayml.com/ Runway ML公司12月7日推…

ChatGPT神奇应用:无需美术功底快速生成高清艺术插图

正文共 1410字,阅读大约需要 8 分钟 创意人群的最佳助手,您将在8分钟后获得以下超能力: 1.高清艺术类插图【非人物】 2.多风格高效出图 Beezy评级:A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自…

让 ChatGPT 扮演一个艺术家,协助我们生成绘图 prompt

stable-diffusion Prompt 生成 直接生成 按照惯用的扮演思路,我们可以让 ChatGPT 扮演一个艺术家,协助我们生成绘图 prompt。考虑到 ChatGPT 和 DallE 同为 openai 公司产品,且 stable-diffusion 开源模型出现较晚,ChatGPT 训练…

翻译: 面向开发人员的GPT提示工程 GPT Prompt Engineering for Developers

1. 提示指南Guidelines for Prompting 在本课中,您将练习两个提示原则及其相关策略,以便为大型语言模型编写有效的提示。 In this lesson, you’ll practice two prompting principles and their related tactics in order to write effective prompts …

14个在你的WordPress网站上使用OpenAI的最好方法(2003)

您是否想知道如何在您的WordPress网站上使用OpenAI和ChatGPT? OpenAI可以提供一切帮助,从为您的帖子生成元描述到撰写电子邮件销售文案。您可以在您的WordPress网站上使用OpenAI来节省时间、降低成本、改善您的搜索引擎优化和工作流程,并发展…

吴恩达OpenAI最新课程:prompt-engineering-for-developers读书笔记

文章目录 一、前言二、Prompt编写原则2.1 环境配置2.2 编写清晰、具体的指令2.2.1 使用分隔符2.2.2 结构化输出(JSON、HTML等)2.2.3 要求模型检查条件是否满足2.2.4 提供少量示例(Few-shot Prompting) 2.3 指导模型思考2.3.1 指定…

chatgpt赋能python:Python打折简单程序:节省金钱和时间的利器

Python打折简单程序:节省金钱和时间的利器 作为程序员,我们总是在寻找更好的,更高效的解决方案。在购物时,这也是如此。现在,我们可以通过编写一个简单的Python程序来实现节省金钱和时间的目的。 什么是Python打折简…

《花雕学AI》29:5秒钟就能为你的想法想出新点子?ChatGPT新点子指令模型告诉你怎么做

引言 你有没有遇到过这样的情况,你想出了一个想法,但是不知道怎么扩展或改进它?你有没有想过有一个工具,可以帮你在短时间内为你的想法生成各种新的点子?如果你有这样的需求,那么你一定要了解ChatGPT。 C…

AI大模型应用时代,如何通过数据“造好品,卖好品”?

在数字化时代的浪潮中,品牌营销正面临着前所未有的挑战和机遇。随着技术的迅猛发展,消费者的行为和期望也在不断演变。 新的市场环境下,消费者的需求和购买行为发生了哪些变化? 数码家电转战社媒平台,竞争白热化如…

使用chatGPT编写的支付宝沙箱支付

支付宝沙箱支付指的是在支付宝开放平台的沙箱环境中进行的模拟支付操作。开发者可通过支付宝开放平台的沙箱环境模拟真实的支付流程,包括创建订单、模拟用户付款、模拟用户退款等操作,从而测试自己的支付功能是否正常。沙箱环境中的交易数据和资金均为虚…

ChatGPT提示词工程(一):Guidelines准则

目录 一、说明二、安装环境三、Guidelines准则一:写出明确而具体的说明方法1:使用分隔符清楚地表示输入的不同部分方法2:用结构化输出:如直接要求它以HTML或者JSON格式输出方法3:请模型检查是否满足条件方法4&#xff…

ChatGPT - 使用故事和隐喻来帮助记忆

文章目录 Prompt Prompt 我目前正在学习[主题]。将该主题的关键教训转化为引人入胜的故事和隐喻,以帮助我记忆。

Redisson分布式限流RRateLimiter的实现原理

我们目前在工作中遇到一个性能问题,我们有个定时任务需要处理大量的数据,为了提升吞吐量,所以部署了很多台机器,但这个任务在运行前需要从别的服务那拉取大量的数据,随着数据量的增大,如果同时多台机器并发…

详解Redisson分布式限流的实现原理

我们目前在工作中遇到一个性能问题,我们有个定时任务需要处理大量的数据,为了提升吞吐量,所以部署了很多台机器,但这个任务在运行前需要从别的服务那拉取大量的数据,随着数据量的增大,如果同时多台机器并发…