王炸!微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天

近来,AI领域迎来各个领域的大突破,ChatGPT展现出强大的语言问答能力和推理能力,然而作为一个自然语言模型,它无法处理视觉信息。

与此同时,视觉基础模型如Visual Transformer或者Stable Diffusion等,则展现出强大的视觉理解和生成能力。

Visual Transformer将ChatGPT作为逻辑处理中心,集成若干视觉基础模型,从而达到如下效果:

  • 视觉聊天系统Visual ChatGPT可以接收和发送文本和图像

  • 提供复杂的视觉问答,或者视觉编辑指令,可以通过多步推理调用工具来解决复杂视觉任务

  • 可以提供反馈,总结答案,主动询问模糊的指令等

这个工作开启了ChatGPT借助视觉基础模型作为工具,进行视觉任务处理的研究方向。

论文链接: 

https://arxiv.org/abs/2303.04671

开源代码: 

https://github.com/microsoft/visual-chatgpt

论文作者: 

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

机构: 微软亚洲研究院

模型效果

6a59d7a3d6d24d97337ed55cd0abbf97.gif fe727683868244b3d1b40e45c4c65aaf.png

工作流程

601147ace8bc319f953226a8afd99ebe.png

记对话,第i轮的回复,是通过若干次思考调用工具的结果来最终总结出来的。我们记第i轮对话中,第j次的工具调用中间答案记作  ,那么

其中, 是全局原则,是各个视觉基础模型,是历史会话记忆, 是这一轮的用户输入,是这轮对话里思考和的历史, 是中间答案,是prompt manager,用于把上面各个功能转化成合理的文本prompt,从而可以交给ChatGPT进行处理。以下图为例进行讲解:

99873d78266bb803c71e00aaf93d722b.png

对于用户输入,添加于全局原则prompt,工具描述prompt,历史会话prompt之后,送给ChatGPT进行逻辑推理(Use VFM?)得到推理结果(就是这一次得到的GPT文本输出)。经过正则匹配进行分析,如果工具调用结束,则直接提取总结输出作为最终回复,如果是需要继续调用工具,则将提取到的工具名称、工作参数,输入视觉基础模型,从而得到,置于思考历史  中,进行下一轮推理。或者说喂给GPT的内容为:

第一次问答里,第一个API: 

第一次问答里,第二个API: 

第一次问答里,第三个API: 

第二次问答里,第一个API: 

第二次问答里,第二个API:

得到GPT的输出后,正则匹配进行工具的判断和解析,最终决定流程。API调用历史在每次回答后清空,其中只有最后总结性的回复被记录进入对话历史 

细节描述

f5c24e944c2598154ce3df4fb52cc4ed.png

: 系统原则的提示符,“Visual ChatGPT是一个可以处理广泛语言和视觉任务的助手,xxxxxx”。在这个prompt的部分,以下内容被强调:Visual ChatGPT的角色,可以访问且需要尽可能使用视觉基础模型,要对文件名称非常敏感不可以捏造,可以且必须遵循严格的Chain-of-Thought思考链的格式进行思考(不然正则匹配不出来是否使用函数和函数名称参数),可靠性等描述。

: 对每个视觉基础模型的描述,包含工具名称,使用方法,输入输出格式,实例

: 用户的输入会被改写,用来理解图片和强制GPT思考

:对输出的处理,链式的文件命名,"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",强制修改GPT内容,让GPT降低思考难度,在指代不清时二次询问用户等。

Case Study

论文分析了在各个模块,如果prompt manager设计不到位,会各自出现什么问题:

30f87c9c7d208e1b4ccff1ffc86ddd12.png

在中,如果不强调对图片文件名的敏感,可能会发生指代错误。如果不强调思考链的格式严格,可能正则匹配匹不上。如果不强调可靠性,不要基于文本上下文脑补,可能会出现不读图片直接回答的情况。如果不强调可以链式使用工具,则可能出现一口吃个大胖子而不能一步一步思考的情况。

e39e522fad13ddcad433b5f2134e5d32.png

类似的,对于工具包的描述,也应该对名称、功能、输入输出格式进行严格的设计。其中,for example进行举例影响不大,只要前面描述足够清楚,GPT可以理解,可以删掉保存token长度。

9c07eac80b4929a1c057a63f55ac7932.png

对于用户输入和工具包输出的后处理,如图。比较神奇的是,右上角的举例里,用ChatGPT自己的口吻来说一些原则(从而让ChatGPT以为是它自己说的,然后顺着说),以及直接让ChatGPT说到"Thought: Do I need a tool"继续生成,能强制进入思考链,从而大幅度降低思考难度。左下角的举例里,对于链式的文件命名,问Visual ChatGPT能不能总结出来文件命名原则,基本总结正确,这说明此种命名方法,确实可以帮助Visual ChatGPT理解文件的内容和依赖关系,生成路径。

有意义的启发

  • 开启了ChatGPT处理视觉任务的新大门

  • NLP --> Natural Language PhotoShop,自然语言文本描述下的图片创作编辑和问答

  • 可以通过系统设计和工具包设计的Prompt,做到无监督的工具调用,类似于zero-shot的toolformer

  • ChatGPT本身对仿真场景的能力很强,也读过图片路径和函数关系,从而善于使用基础视觉模型

  • Prompt很重要,作为纯语言模型,前文说它是啥他就仿照啥,除了细致的要求,一定要多夸一夸他,是能力很强的处理模型,那它顺着说,能力才会真的强

  • Visual ChatGPT本身是一个语言模型,所谓的两方多轮对话只是一个Human: AI: 的多轮特殊形式前文的继续生产,所以,完全可以强行给前文AI: 让ai自己说一些东西出来,是它信了是它自己说的,这能够极大的降低生成难度。这在本篇论文里对几个场景的帮助很大。例如,用户输入图片后,改写为“Human: 上传了一张图片,描述为:{}。注意,这里的描述是帮助你理解图片的,你不能基于它幻想而不调用工具。如果你理解了,就恢复收到。AI:收到。”注意,这里AI回复的收到,并不是真的GPT的生成内容,而是我们强行写入进dialogue history memory的,而且可以发现,AI真的相信了。另外一个点是,在用户的输入后面,挨着的应该是GPT自己的思考内容,如果我们借它的口,自己说“推理信息仅自己可见,需要在最后总结的时候把重要信息复述给读者”,效果比在最前文的prompt里效果好很多,可能是因为距离的原因,也可能是AI自己说出来的原因。另外,可以直接给到"Thought: do i need a tool?"去让GPT继续生成,从而一定进入推理链,可以匹配到远处描述思维链格式的prompt内容,极大的降低思考难度。

外网评价

eb4686943770d174796acd1bcfa3c712.pngde7ceacbc8e28b6ba74095f30e6f2a49.pnge46c7559f3bd5b26dcfd6017c216408f.png

END

74c8f2252d170fea1795dbb399c47b51.png

分享

收藏

点赞

在看

128ab508dd4e3d044487309d49924b07.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4380.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软下个十年的想象力,藏在ChatGPT里

解释最新科技进展,报道硅谷大事小情 点击上方“硅星人”关注我们~ 押注AI再放大招,微软要把ChatGPT嵌入旗下全家桶。 —— 文|Juny 编辑|VickyXiao 老生常谈的人工智能技术,去年终于在应用领域迎来了一次久违的爆发。…

微软支持的ChatGPT激增,但不要低估苹果和谷歌

微软和 OpenAI 可能在 AI 聊天机器人爆炸式增长的市场中具有先发优势,但不要排除其他一些可以访问大量 AI 训练数据的科技巨头,例如 Apple 和 Google。 通过其对 ChatGPT 开发商 OpenAI 的早期和持续支持,微软在AI 军备竞赛中目前处于领先地…

ChatGPT火了!微软砍掉元宇宙

来源:数据观综合 编辑:蒲蒲 ChatGPT从2022年底火到现在,在全球范围内掀起热潮,风头甚至盖过了元宇宙。 近日,投资咨询机构瑞银发布的一项最新研究报告显示,仅仅发布两个月,ChatGPT月活跃用户已达…

两款语音合成助手,微软语音合成

一点红语音合成 By:zbb2012 语音合成算是吾爱中热度比较高的一类工具了 之前推荐过一款微软语音合成助手,不过由于长时间不更新现在也不怎么好用了 这款工具调用的Edge语音合成接口,效果跟声音类型都跟微软的差不多 比较棒的是没有字数限制…

OpenPie 和 ChatGPT 聊聊云上数据计算的那些事儿

要说时下科技圈最火的新技术话题,那就非 ChatGPT 莫属了。由它引发的各类 “人工智能(AI)能否取代人工” 的讨论狂飙不停,抛开法律和道德层面的争议,ChatGPT 确实可以准确地回答用户大部分的通用知识问题。那么大家是否…

爆火的ChatGPT太强了!写代码、改bug,网友:可取代Stack Overflow了

点击上方“Java基基”,选择“设为星标” 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

基于C# .NetCore WebApi 接入ChatGPT 方法

1.新建一个.NetCore WebApi项目,演示是基于.Net Core 6 2.添加Nuget引用 OpenAi 3.新建一个控制器 ChatGPTController using Microsoft.AspNetCore.Mvc; using OpenAI_API; using OpenAI_API.Completions;namespace ChatGPTApi.Controllers {public class ChatGPTController : …

chatgpt怎么用

前言: 随着人工智能的不断发展,聊天型语言模型成为了人机交互领域的重要技术。其中,由OpenAI开发的ChatGPT以其出色的性能和广泛的应用领域引起了广泛关注。本文将介绍ChatGPT的概况、用途、使用方法以及其优势与限制,并展望了其…

ChatGPT Plus解放程序员双手?

近年来,随着人工智能技术的迅猛发展,各种智能工具和软件开始在各个行业中得到广泛应用,其中包括程序员使用的一些智能开发工具。ChatGPT Plus就是这样一款智能开发工具,它使用自然语言处理和机器学习等技术,可以为程序…

ChatGPT + MindShow 制作PPT

🍏🍐🍊🍑🍒🍓🫐🥑🍋🍉🥝 ChatGPT MindShow 制作PPT 文章目录 🍐具体操作🐳结语 🍐具体操作 ChatGP…

外媒报道,ChatGPT的漏洞可能暴露用户的个人信息

据国外媒体报道,2023年3月20日,OpenAI的ChatGPT出现全球性故障,引发了用户的担忧。然而,在发现服务中存在严重漏洞后,OpenAI主动披露有关漏洞的详细信息。 据分享的详情称,在注意到可能会侵犯用户隐私的漏…

直接攻击,越狱攻击,道德攻击……这样做,ChatGPT 就会泄漏你的隐私

夕小瑶科技说 原创作者 | 小戏 大模型的出现让我们的隐私比以往任何时候都危险。 一个很直观的例子,在大模型向黑洞一样不断吞噬现有网络中的文本数据之时,伴随着模型训练的文本数量从 GPT-2 的 40GB 文本到 GPT-3 的 45TB 文本,我们可以非常…

技术分享|终端安全防护|ChatGPT会创造出超级恶意软件吗?

ChatGPT是一个强大的人工智能聊天机器人,它使用大量的数据收集和自然语言处理与用户“交谈”,感觉像是和正常的人类对话。它的易用性和相对较高的准确性让用户可以利用它做任何事情,从解决复杂的数学问题,到写论文,创建…

ChatGPT的出现网络安全专家是否会被替代?

ChatGPT的横空出世,在业界掀起了惊涛骇浪。很多人开始担心,自己的工作岗位是否会在不久的将来被ChatGPT等人工智能技术所取代。网络安全与先进技术发展密切相关,基于人工智能的安全工具已经得到很多的应用机会,那么未来是否更加可…

【关于ChatGPT的30个问题】20、ChatGPT是否会被用于恶意目的?/ By 禅与计算机程序设计艺术

20、ChatGPT是否会被用于恶意目的? 目录 20、ChatGPT是否会被用于恶意目的? ChatGPT的潜在利用 恶意信息生成

给OpenAI的 ChatGPT找漏洞,最高奖励14万!

北京时间4月12日消息,人工智能研究公司 OpenAI 周二宣布,将开始向帮助公司发现人工智能系统漏洞的人支付高达2万美元( 约合14万元人民币 )的奖励,比如备受欢迎的聊天机器人ChatGPT。 OpenAI周二在一篇博客文章中写道,公司与漏洞奖…

我使用ChatGPT审计代码发现了200多个安全漏洞(GPT-4与GPT-3对比报告)

前面使用GPT-4对部分代码进行漏洞审计,后面使用GPT-3对git存储库进行对比。最终结果仅供大家在chatgpt在对各类代码分析能力参考,其中存在误报问题,不排除因本人训练模型存在问题导致,欢迎大家对误报结果进行留言,我会…

研究人员发现 ChatGPT 生成的代码大部分不安全,但它不会主动告诉你

4 月 23 日消息,ChatGPT 聊天机器人可以根据用户的输入生成各种各样的文本,包括代码。但是,加拿大魁北克大学的四位研究人员发现,ChatGPT 生成的代码往往存在严重的安全问题,而且它不会主动提醒用户这些问题&#xff0…

ChatGPT实现安全漏洞检查

安全漏洞检查 几乎每一项新技术的出现,都会首先被运用在安全领域,ChatGPT 也不例外。在 ChatGPT 出现的第一时间,利用 ChatGPT 编写钓鱼邮件,进行社会工程学攻击,辅助分析代码漏洞等等就成为热门话题。其实技术只是工…

ChatGPT写21个程序,16个有漏洞:离取代程序员还远着呢!

一、ChatGPT 生成的代码有多安全? 近年来,大型语言模型推动人工智能领域取得了巨大的进步。其中,OpenAI 打造的 ChatGPT 甫一亮相,就凭借出色的性能震惊全球。ChatGPT 不仅能够处理普通文本,还能将自然语言翻译成代码…