Visual ChatGPT论文阅读笔记

Visual ChatGPT论文阅读

  • 做笔记的目的
  • 介绍
  • 论文贡献
  • Visual ChatGPT
    • 总体框架
    • 总体流程
  • 实验
  • 限制
  • 总结

做笔记的目的

1、读完了论文,做一下笔记让自己别忘的那么快
2、蹭一波热度(好像有点晚了)
3、这是第一次看纯工程论文,所以做一下笔记

介绍

大的自然语言模型,在自然语言处理任务上展现出了强大的能力,但难以处理视觉任务。同时大的视觉模型在特定的任务上表现的非常好,但受限于输入输出格式等等不如语言模型一样灵活。对于如何让ChatGPT支持多模态聊天这个问题,比较直观的想法是训练一个多模态聊天模型,但是这样做需要耗费大量的数据和计算资源,同时可拓展性也不高。因此作者从Prompt工程出发,构建了Visual ChatGPT,将ChatGPT和22个视觉模型一起包在一个壳里面,组成了Visual ChatGPT。

论文贡献

  1. We propose Visual ChatGPT, which opens the door of combining ChatGPT and Visual Foundation Models and enables ChatGPT to handle complex visual tasks;
  2. We design a Prompt Manager, in which we involve 22 different VFMs and define the internal correlation among them for better interaction and combination;
  3. Massive zero-shot experiments are conducted and abundant cases are shown to verify the understanding and generation ability of Visual ChatGPT.

Visual ChatGPT

总体框架

Prompt Manager
整体框架如上图所示,就是在query输入ChatGPT之前添加一些Prompt来让ChatGPT能够知道要掉用什么模型。
首先输入的是系统准则P,主要包括:

  1. 系统是Visual ChatGPT能够调用很多视觉模型
  2. Visual ChatGPT对文件命名非常严格(帮助系统区分图片文件)
  3. 定义推理格式
  4. 忠于图片内容不乱扯
  5. Chain-of-Thought,让模型能够连续处理视觉问题
    **

M(F)是关于视觉模型的描述:
1.名字
2.用法
3.输入输出格式

大概的样子长这样
在这里插入图片描述
M(Q)是对query进行处理:

  1. 产生唯一的文件名(帮助ChatGPT根据名字区分不同图片)
  2. 让Visual ChatGPT强制思考需不需要调用VFM

M ( F ( A i ( j ) ) ) M(F(A_i^{(j)})) M(F(Ai(j)))是对模型返回的结果进行处理
1.首先是定义了链式命名(让模型知道这个图片由哪张图片变过来,做了什么,可以让模型知道还需不需要调用VFM)
2.Call for more VFMs,让Visual ChatGPT自动的调用更多的VFM,来完成多个视觉相关指令。

总体流程

在这里插入图片描述
每次输入的P和F是相同的,历史对话是直接加进去和历史reasoning都是直接加进去的。当输入 Q 2 Q_2 Q2时由于还没有进行推理,也没有调用语言模型所以 R 2 ( < 1 ) R_2^{(<1)} R2(<1) A 2 1 A_2^{1} A21都等于 ϕ \phi ϕ。将Prompt输入ChatGPT输出,判断输出的内容是需要调用模型,并且ChatGPT会自动将要调用的模型名字和输入输出的样式给出,之后自动化调用VFM就可以。完成第一次后,更新 R 2 ( < 1 ) R_2^{(<1)} R2(<1) A 2 1 A_2^{1} A21,在输入到ChatGPT中,第二次也需要调用VFM,因此重复上面的步骤。当ChatGPT判断不需要VFM的时候就输出结果,一次Visual ChatGPT的调用就结束了。可以看到一次Visual ChatGPT的调用可能涉及多次ChatGPT的调用。

实验

使用的ChatGPT模型是“text-davinci-003“,使用的视觉模型是从HuggingFace Transformers,Maskformer 和ControlNet 上收集的。
实验主要是验证了总体框架中的每个部分都不少,不然Visual ChatGPT可能工作的不是很好。下面是Visual ChatGPT的对话实例:
在这里插入图片描述
下面这张图证明了P的每一个部分都很有必要
在这里插入图片描述
下面这张图证明了M(F)的名字、用处、输入输出格式很重要,样例可有可无;
在这里插入图片描述
下面这种图证明了剩下的部分设计的很有必要
在这里插入图片描述

限制

  1. Dependence on ChatGPT and VFMs 模型的效果依赖于ChatGPT模型效果和VFMs模型的效果
  2. Heavy Prompt Engineering 需要大量的Prompt工作
  3. Limited Real-time Capabilities 由于ChatGPT没有实时能力,Visual ChatGPT当然也没有这个能力
  4. Token Length Limitation ChatGPT的token限制让这个系统不能无限制的加入模型,同时由于输入了很多Prompt,可能query并不能很长。
  5. Security and Privacy 可能有隐私问题

总结

在这项工作中,我们提出了Visual ChatGPT,这是一个集成了不同VFM的开放系统,使用户能够超越语言格式与ChatGPT进行交互。构建这样一个系统,我们精心设计了一系列提示帮助将视觉信息注入ChatGPT从而可以逐步解决复杂的视觉问题。大量实验和选定的案例已经证明Visual ChatGPT的巨大潜力和能力不同的任务。除了上述限制之外,另一个令人担忧的问题是,由于VFM的故障和促使因此,一个自校正模块对于检查执行结果与人类意图之间的一致性,并相应地做出编辑。这种自我纠正行为会导致更多模型的复杂思维,显著增加推理时间。我们将来会解决这样一个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/373.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT论文润色

好像确实不会记住内容 参考文献十分不靠谱 链接1进去 链接2进去

chatgpt论文 chatgpt写论文

ChatGPT作品展示&#xff1a; 当代青少年的生活离不开自媒体&#xff0c;自媒体对当代青少年的影响是巨大的。首先&#xff0c;自媒体为当代青少年提供了一个展示自我的平台&#xff0c;让他们可以更好地表达自己的想法和感受&#xff0c;更好地展示自己的才华和能力&#xff0…

使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?

使用ChatGPT帮我们写一篇论文&#xff0c;最后查重的重复率会是多少&#xff1f; ChatGpt一经发布就大火&#xff0c;迅速应用在各个领域&#xff0c;尤其在程序圈自动帮我们写代码着实是圈了一大波粉。那么它用在科研领域会出现怎样的效果呢&#xff0c;当我们写论文纠结几个…

如何用ChatGPT辅助写论文

ChatGPT先进功能创造了巨大的需求&#xff0c;该AI工具在推出后的两个月内就积累了超过1亿用户。最突出的功能之一是它能够在几秒钟内编写各种文本&#xff0c;包括歌曲、诗歌、睡前故事和散文。 但是ChatGPT可以做的不仅仅是写一篇文章。更有用的是它如何帮助指导写作过程。今…

【ChatGPT】ChatGPT 原理全解析——读完这10篇论文,你就懂了。

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。 ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中 GPT 是 Generativ…

建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南+最全提示词/咒语

在这篇文章中&#xff0c;我将分享如何利用ChatGPT 4.0辅助论文写作的技巧&#xff0c;并根据网上的资料和最新的研究补充更多好用的咒语技巧。 本篇文章持续更新&#xff0c;祝大家写作顺利&#xff0c;如果对你有帮助&#xff0c;记得三连&#xff01; 欢迎大家在评论区补充…

聊聊ChatGPT

ChatGPT 这几周科技圈最火的当属ChatGPT&#xff0c;自媒体中十篇有九篇都是关于ChatGPT的。ChatGPT上可知天文&#xff0c;下可知地理&#xff0c;还可写论文、搞代、写小说&#xff0c;可谓“全能型选手”。自从去年11月openAI推出ChatGPT以来&#xff0c;注册用户不到几周就…

chatgpt这么火?前端如何实现类似chatgpt的对话页面

&#x1f4cb; 个人简介 &#x1f496; 作者简介&#xff1a;大家好&#xff0c;我是阿牛&#xff0c;全栈领域优质创作者&#x1f61c;&#x1f4dd; 个人主页&#xff1a;馆主阿牛&#x1f525;&#x1f389; 支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;…

张俊林:ChatGPT 会成为下一代搜索引擎吗

文|张俊林知乎 这是「进击的Coder」的第 774 篇技术分享 作者&#xff1a;张俊林 来源&#xff1a;知乎 “ 阅读本文大概需要 9 分钟。 ” 本文将从以下几个方面展开&#xff1a; 引言ChatGPT 的技术原理ChatGPT 能否取代 Google、百度等传统搜索引擎 引言 作为智能对话系统&a…

ChatGPT终于被缝进了搜索引擎…

文&#xff5c;Alex Pine 发自 凹非寺源&#xff5c;量子位 见惯了列表式搜索引擎&#xff0c;你有没有想过给它换种画风&#xff1f; 有人脑洞大开&#xff0c;把艳惊四座的ChatGPT和必应搜索结合起来&#xff0c;搞出了一个智能搜索引擎&#xff1a; 既有ChatGPT式的问答&…

提升搜索效率-----使用chatGPT插件让搜索结果直接展示在谷歌界面右侧

今天分享一个chatGPT的进阶玩法&#xff0c;使用谷歌浏览器插件的形式&#xff0c;将chatGPT植入到浏览器的搜索结果内。 而chatGPT会将你的搜索问题的结果&#xff0c;同步展示在谷歌搜索界面的右侧。 但还是要注意科学上网&#xff01;&#xff01;但毕竟谷歌也需要科学才能挤…

重磅!微软推出首款 ChatGPT 版搜索引擎!

微软近期推出了首款 ChatGPT 版搜索引擎&#xff0c;今天带大家一起来看一下。 一夜之间&#xff0c;全球最大的科技公司仿佛都回到了自己年轻时的样子。 在谷歌宣布「实验性对话式人工智能服务」Bard 之后仅 24 小时&#xff0c;北京时间 2 月 8 日凌晨两点&#xff0c;微软发…

将ChatGPT集成到搜索引擎上(稳定版)

前言&#xff1a; ChatGPT已经火了有一段时间了&#xff0c;针对它的各种工具也层出不穷&#xff0c;笔者今天推荐的是一款google插件ChatGPT for Google,它是一款将ChatGPT集成到Google浏览器的插件&#xff0c;支持大多数搜索引擎&#xff0c;可能有些人已经使用过&#xff0…

Gmail 之父:有了 ChatGPT,搜索引擎活不过两年了

【导读】Gmail创始人表示&#xff1a;再有两年时间&#xff0c;ChatGPT将彻底摧毁谷歌赖以生存的搜索引擎&#xff0c;就像当年搜索引擎彻底干掉黄页电话簿一样。 从ChatGPT横空出世的那天起&#xff0c;微软应该感到庆幸。 除了庆幸自己几年前的10亿美元没白投之外。更重要的…

神奇智能搜索引擎:perplexity智能搜索引擎(ChatGPT与Edge合体——联网版chatGPT)

目录 前言一、Perplexity AI网站介绍二、优点介绍2-0、界面介绍2-1、纯净、时效性、来源说明2-2、基于AI对话形式的搜索引擎 三、使用方法介绍总结 前言 ChatGPT背后的语言大模型OpenAI GPT 3.5&#xff0c;和微软的必应检索系统整合在一起&#xff1b;同时吸取这二者的长处&am…

ChatGPT热炒之前 搜索引擎SEO算法已经悄然改变

2022年4月起&#xff0c;某度算法有了新的调整&#xff0c;这对于靠SEO获得流量的公司简直可以说是灭顶之灾。原本SEO从业者还指望跟之前一样&#xff0c;等算法调整稳定后&#xff0c;网站的自然排名还会再回来&#xff0c;但等到了10月份&#xff0c;仍然没有回暖的迹象&…

谷歌急了,搜索引擎被ChatGPT颠覆的可能性

社区成员正在热议&#x1f447; The Generalist最近发了一篇文章&#xff1a;主要讲了关于谷歌、ChatGPT和搜索的未来。其中探讨了几个问题&#xff1a;自去年年底ChatGPT推出以来&#xff0c;OpenAI产品一直被誉为是&#xff1a;搜索的未来&#xff0c;也是潜在的谷歌杀手。那…

ChatGPT取代搜索引擎?谷歌急了,百度不慌:早已布局

梦晨 衡宇 发自 凹非寺量子位 | 公众号 QbitAI 生成式AI要取代搜索引擎的声音&#xff0c;出现在ChatGPT发布的第一天。 后来越传越邪乎&#xff0c;有人设想以后大家找资料都不说google一下了&#xff0c;而是geept一下。 还有人说&#xff0c;搜索引擎给的一页10个蓝蓝的链接…

ChatGPT与搜索引擎合体,谷歌都不香了,LeCun转发|在线可玩

Alex Pine 发自 凹非寺量子位 | 公众号 QbitAI 见惯了列表式搜索引擎&#xff0c;你有没有想过给它换种画风&#xff1f; 有人脑洞大开&#xff0c;把艳惊四座的ChatGPT和必应搜索结合起来&#xff0c;搞出了一个智能搜索引擎&#xff1a; 既有ChatGPT式的问答&#xff0c;又像…

Bing+ChatGPT 对传统搜索引擎的降维打击

早些时候申请了新版 Bing 的内测资格&#xff0c;终于收到了通过的邮件。 一天的体验之后&#xff0c;我的感受是&#xff1a;当新版 Bing 具备了 ChatGPT 的聊天能力之后&#xff0c;它的能力不论是对传统搜索引擎&#xff0c;还是 ChatGPT 自身&#xff0c;都将是降维打击。 …