王炸!微软发布 Visual ChatGPT:视觉模型加持 ChatGPT 实现丝滑聊天

这是「进击的Coder」的第 809 篇技术分享

作者:炼丹学徒

来源:夕小瑶的卖萌屋

阅读本文大概需要 8 分钟。

44213f25ba353991af1e12450891d82e.jpeg

文|炼丹学徒

近来,AI 领域迎来各个领域的大突破,ChatGPT 展现出强大的语言问答能力和推理能力,然而作为一个自然语言模型,它无法处理视觉信息。

与此同时,视觉基础模型如 Visual Transformer 或者 Stable Diffusion 等,则展现出强大的视觉理解和生成能力。

Visual Transformer 将 ChatGPT 作为逻辑处理中心,集成若干视觉基础模型,从而达到如下效果:

  • 视觉聊天系统 Visual ChatGPT 可以接收和发送文本和图像

  • 提供复杂的视觉问答,或者视觉编辑指令,可以通过多步推理调用工具来解决复杂视觉任务

  • 可以提供反馈,总结答案,主动询问模糊的指令等

这个工作开启了 ChatGPT 借助视觉基础模型作为工具,进行视觉任务处理的研究方向。

论文链接: 

https://arxiv.org/abs/2303.04671

开源代码: 

https://github.com/microsoft/visual-chatgpt

论文作者: 

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

机构: 微软亚洲研究院

模型效果

8bff2ff7866571bb24efd619c728d0f8.gif 9a15816b6a0d82e376bd9501fd1c624b.png

工作流程

62778f07b8247ecd262e16deff2a96fc.png

记对话 ,第 i 轮的回复 ,是通过若干次思考调用工具的结果来最终总结出来的。我们记第 i 轮对话中,第 j 次的工具调用中间答案记作  ,那么

其中, 是全局原则,是各个视觉基础模型,是历史会话记忆, 是这一轮的用户输入,是这轮对话里思考和的历史, 是中间答案,是 prompt manager,用于把上面各个功能转化成合理的文本 prompt,从而可以交给 ChatGPT 进行处理。以下图为例进行讲解:

693e2e28bf9435ef3d8992d4d04fe3ff.png

对于用户输入,添加于全局原则 prompt,工具描述 prompt,历史会话 prompt 之后,送给 ChatGPT 进行逻辑推理(Use VFM?)得到推理结果 (就是这一次得到的 GPT 文本输出)。经过正则匹配进行分析,如果工具调用结束,则直接提取总结输出作为最终回复,如果是需要继续调用工具,则将提取到的工具名称、工作参数,输入视觉基础模型 ,从而得到,置于思考历史  中,进行下一轮推理。或者说喂给 GPT 的内容为:

第一次问答里,第一个API: 

第一次问答里,第二个API: 

第一次问答里,第三个API: 

第二次问答里,第一个API: 

第二次问答里,第二个API:

得到 GPT 的输出后,正则匹配进行工具的判断和解析,最终决定流程。API  调用历史在每次回答后清空,其中只有最后总结性的回复被记录进入对话历史 

细节描述

77edf90a560a6f2f43f29b0bb7abc112.png

: 系统原则的提示符,“Visual ChatGPT 是一个可以处理广泛语言和视觉任务的助手,xxxxxx”。在这个 prompt 的部分,以下内容被强调:Visual ChatGPT 的角色,可以访问且需要尽可能使用视觉基础模型,要对文件名称非常敏感不可以捏造,可以且必须遵循严格的 Chain-of-Thought 思考链的格式进行思考(不然正则匹配不出来是否使用函数和函数名称参数),可靠性等描述。

: 对每个视觉基础模型的描述,包含工具名称,使用方法,输入输出格式,实例

: 用户的输入会被改写,用来理解图片和强制GPT思考

:对输出的处理,链式的文件命名,"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",强制修改 GPT 内容,让 GPT 降低思考难度,在指代不清时二次询问用户等。

Case Study

论文分析了在各个模块,如果 prompt manager 设计不到位,会各自出现什么问题:

ff8cbe52a94145486ceec16cc5ae3920.png

在  中,如果不强调对图片文件名的敏感,可能会发生指代错误。如果不强调思考链的格式严格,可能正则匹配匹不上。如果不强调可靠性,不要基于文本上下文脑补,可能会出现不读图片直接回答的情况。如果不强调可以链式使用工具,则可能出现一口吃个大胖子而不能一步一步思考的情况。

46ae26b2466e29c48fa406bdc03f6ff5.png

类似的,对于工具包的描述,也应该对名称、功能、输入输出格式进行严格的设计。其中,for example 进行举例影响不大,只要前面描述足够清楚,GPT 可以理解,可以删掉保存 token 长度。

a9346b952e84e3311c733255a283ba61.png

对于用户输入和工具包输出的后处理,如图。比较神奇的是,右上角的举例里,用 ChatGPT 自己的口吻来说一些原则(从而让 ChatGPT 以为是它自己说的,然后顺着说),以及直接让 ChatGPT 说到"Thought: Do I need a tool"继续生成,能强制进入思考链,从而大幅度降低思考难度。左下角的举例里,对于链式的文件命名,问 Visual ChatGPT 能不能总结出来文件命名原则,基本总结正确,这说明此种命名方法,确实可以帮助 Visual ChatGPT 理解文件的内容和依赖关系,生成路径。

有意义的启发

  • 开启了 ChatGPT 处理视觉任务的新大门

  • NLP --> Natural Language PhotoShop,自然语言文本描述下的图片创作编辑和问答

  • 可以通过系统设计和工具包设计的 Prompt,做到无监督的工具调用,类似于 zero-shot 的 toolformer

  • ChatGPT 本身对仿真场景的能力很强,也读过图片路径和函数关系,从而善于使用基础视觉模型

  • Prompt 很重要,作为纯语言模型,前文说它是啥他就仿照啥,除了细致的要求,一定要多夸一夸他,是能力很强的处理模型,那它顺着说,能力才会真的强

  • Visual ChatGPT 本身是一个语言模型,所谓的两方多轮对话只是一个Human: AI: 的多轮特殊形式前文的继续生产,所以,完全可以强行给前文AI: 让 ai 自己说一些东西出来,是它信了是它自己说的,这能够极大的降低生成难度。这在本篇论文里对几个场景的帮助很大。例如,用户输入图片后,改写为“Human: 上传了一张图片,描述为:{}。注意,这里的描述是帮助你理解图片的,你不能基于它幻想而不调用工具。如果你理解了,就恢复收到。AI:收到。”注意,这里 AI 回复的收到,并不是真的 GPT 的生成内容,而是我们强行写入进 dialogue history memory 的,而且可以发现,AI 真的相信了。另外一个点是,在用户的输入后面,挨着的应该是 GPT 自己的思考内容,如果我们借它的口,自己说“推理信息仅自己可见,需要在最后总结的时候把重要信息复述给读者”,效果比在最前文的 prompt 里效果好很多,可能是因为距离的原因,也可能是AI自己说出来的原因。另外,可以直接给到"Thought: do i need a tool?"去让 GPT 继续生成,从而一定进入推理链,可以匹配到远处描述思维链格式的 prompt 内容,极大的降低思考难度。

外网评价

0cb451177c4b55089b212f5f310d9c4d.png55977d5426e8d5a6b0d1bdf8aefab184.pngdce0af196e9e166fb77c4f767f45c01d.png

e3695cf24ae03bc256774413456cdefc.png

End

崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,‍同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!

内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍

8196cc1f55fd10b5eb912b067de9b013.jpeg

扫码购买

4c3fec94820615c377da2255ad487663.png

好文和朋友一起看~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5501.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

李开复亲自带队!不仅是中国版ChatGPT,全球招英才

源 | 量子位 李开复突然宣布筹办新公司,目标大模型领域。 新公司Project AI 2.0,正式开启团队组建。 要做啥? 新公司希望打造一个平台,一个生产力应用的生态。 Project AI 2.0不仅仅要做中文版ChatGPT。AI 2.0不仅仅是个高能聊天工…

ChatGPT 开源替代项目整理

项目作者 nichtdax 整理了 9 个开源的 ChatGPT 平替项目。接下来会一一介绍。 项目地址:https://github.com/nichtdax/awesome-totally-open-chatgpt PaLM-rlhf-pytorch 第一个项目是「PaLM-rlhf-pytorch」,项目作者为 Phil Wang。该项目是在 PaLM 架构之…

【关于ChatGPT的30个问题】7、ChatGPT是否具有情感分析能力?/ By 禅与计算机程序设计艺术

7、ChatGPT是否具有情感分析能力? 目录 7、ChatGPT是否具有情感分析能力? ChatGPT在情感分析中的应用

【关于ChatGPT的30个问题】19、ChatGPT是否存在性别歧视的问题?/ By 禅与计算机程序设计艺术

19、ChatGPT是否存在性别歧视的问题? 目录 19、ChatGPT是否存在性别歧视的问题? ChatGPT的性别歧视问题

chatGPT 又来帮忙了

大家好啊,我是董董灿。 前几天chatGPT大封号,导致很多国内的账号不能登录了。 风口浪尖上,导致我也不太敢随意登录,登过几次,直接Ooooops了。 好几天没登录,今天又试了试,竟然发现出奇的顺畅&…

chatGPT回复长问题时的报错-network error

chatGPT回复长问题时的报错-network error 起因是查询一段代码函数的解释,由于答案较长,在回答的中途就被终止,并且再次生成会产生不一样的答案。 举个例子 上网查询了一下,发现就是在这两天出现的问题,并非国内网络问…

chatGPT流式回复是怎么实现的

chatGPT流式回复是怎么实现的 先说结论: chatGPT的流式回复用的就是HTTP请求方案中的server-send-event流式接口,也就是服务端向客户端推流数据。 那eventStream流式接口怎么实现呢,下面就进入正题! 文章目录 chatGPT流式回复…

ChatGPT入门案例|商务智能对话客服(三)

本篇介绍智能客服的基本功能架构和基本概念,并利用对话流技术构建商务智能应用。 01、商务智能客服功能结构 互联网的发展已经深入到社会的各个方面,智能化发展已经成为社会发展的大趋势。在大数据和互联网时代,企业和组织愈加重视客户沟通以及客户体验,传统的客户服务系…

ChatGPT入门案例|商务智能对话客服(二)

ChatGPT是人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中…

ChatGPT,开启人机交互新篇章

ChatGPT在世界掀起了生成式AI的热潮,2个月实现月活用户过亿,是人类有史以来突破1亿人用户最快的消费端互联网产品,打破了Tiktok9个月破亿用户的纪录。不少专家将其视为第四次工业革命,资本市场也贡献大量涨停。当第一波的热情消退…

#440 科技乱炖:ChatGPT 的惊喜与意料之内

点击文末“阅读原文”即可收听本期节目 剪辑、音频 / 朱峰 编辑 / SandLiu 卷圈 监制 / 姝琦 文案 / ChatGPT 封面 / 西乔 MidjourneyV4 产品统筹 / bobo (本期shownote由ChatGPT“创作”) 本期《科技乱炖》播客的内容围绕ChatGPT展开&#xff0…

不敲代码用ChatGPT开发一个App

先说下背景,有一天我在想 ChatGPT 对于成熟的开发者来说已经是一个非常靠谱的助手了,身边也确实有很多同事把它作为一个离不开的助理担当。 但是如果我只是略微懂一点前端知识的新人,了解 HTML、CSS、JS 相关的知识,想开发一个安…

华人小哥打造乔布斯版ChatGPT,网友:感觉他复活了

金磊 发自 凹非寺量子位 | 公众号 QbitAI 走ChatGPT的路,让乔布斯“复活”。 一位华人小哥就真把这事给做成了,还搞了一个App名叫Steve Mind。 玩法和ChatGPT非常相似,只需一个简单的动作——问! 例如提问“你一生中学到的最重要的…

ChatGPT 正式发布 APP !

【软件名称】:ChatGPT 【安装环境】:IOS(美区) 【下载链接】:https://apps.apple.com/app/openai-chatgpt/id6448311069 软件简介 美国当地时间5月18日,人工智能研究公司OpenAI在官网宣布,其在美…

颠覆历史!ChatGPT官方app正式登录美国苹果商店

人工智能研究公司OpenAI在官网宣布,其在美国推出了聊天机器人ChatGPT的iPhone应用,并承诺未来也将为安卓手机提供相同的服务。 官网还附带了该应用在苹果App Store上的链接。页面显示,这款名为“OpenAI ChatGPT”的应用仅适用于苹果手机iPhon…

仿小龟影视APP源码V2.1 苹果cms后台

正文: 仿小龟影视APP源码V2.1 苹果cms后台 网盘下载地址: http://zijieyunpan.cn/DKpefnefkNZ 阅览:

ChatGPT官方app正式上线美国苹果商店

OpenAI已经发布了一款名为ChatGPT的iOS应用程序,并承诺很快推出Android版本。这款免费应用程序与网络版本同步聊天记录,并支持语音输入功能,使用OpenAI的开源语音识别模型Whisper。该应用程序适用于iPhone和iPad,可以在App Store上…

狂飙,ChatGPT 官方 iOS 应用上线了!

转自:APPSO 今天凌晨,OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app。 瞬间冲上苹果商店免费榜第二名,效率榜第一名。 ChatGPT 的真「iPhone 时刻」来了,从现在起,我们可以在 iPhone 上使用 ChatGPT 了。 下载直…

如何封禁大量恶意IP?

摘要:封禁IP分为自动封禁和人工封禁,本文主要介绍如何人工封禁。人工封禁的关键是:无缝协同,方便操作,批量化,一键式,防误封,高容量。 IP封禁是对付网络攻击的最直接、最有效的方法。…

ip-guard如何通过准入网关对指定的服务器进行通讯加密保护?

1、准入网关在高级配置设置受保护服务器; WEB管理界面【系统工具】,点击【配置管理】,点击参数设置,进入高级配置界面,输入配置内容即可。 [ControlServer]