(小伞每日论文概读)视觉ChatGPT?让ChatGPT能画画的模型设计!

声明

本篇文章的相关图片来源于论文:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

论文链接如下:https://arxiv.org/pdf/2303.04671.pdf

碍于本人的知识水平所限,本篇文章的总结可能存在不妥之处,如:

作为参考,请谨慎推理内容的真实性(人某种意义上与chatgpt也没差)

欢迎各路大佬指出问题!

文章分类

  • 领域定位:自然语言处理,计算机视觉

  • 领域细分

    • 大语言模型的多模态

    • ChatGPT衍生产品

这篇文章的创新点在哪里?

  • 整了一个prompt manager,让视觉模型能通过prompt manager与ChatGPT打配合,使得ChatGPT可以”生图“与”看图“

  • 执行了大量的零样本实验(感觉这个说法是基于把ChatGPT当成黑箱模型来得到的,本篇文章的许多结论建立在这个假设上)

这篇文章的技术点在哪里?

顾名思义,技术点,即可以运用在工程项目上面的point,如下:

提示工程方法:基于chatgpt的提示工程方法。提示工程是一种基于”大大语言模型是个黑盒模型“得到的实验性理论,通过提示工程可以加强诸如chatgpt等大语言模型某些方面的表示能力。

  • 基于提示工程实现的tricks

    • 自我询问方法:让chatgpt自我对问题进行询问,从而提高chatgpt使用prompt manager的概率

    • 主动问讯:主动向用户询问更多细节,减少GPT的主观臆断

    • 规则限制:强制使用某些命名规则

    • 定义了visual ChatGPT的作用:基于思维链路暗示CHatgpt的任务

    • 可靠性:基于提示使chatgpt忠于视觉基础模型的输出

    • 视觉模型列表可访问性支持:ChatGPT可以访问VFMs列表,以解决各种VL任务。

  • 提示学习

    • 思维链模型引导:通过思维链(CoT)方法引导ChatGPT

这篇论文的相关工作及其主线为?

涉及到的主线有3条:

  • 大语言模型的发展

  • NLP与CV

  • 视觉语言(VL)任务

这篇文章主要的设计是?

  • 设计思路:

    • 用户提出一个query(可能带图)

    • query经过prompt manager,追加了一系列系统原则与提示交给chatgpt

    • chatgpt返回一系列表述给prompt manager

    • (判断若需要生图工作)prompt manager将部分表述交给VFMs(视觉模型们)进行生图操作

    • VFMs将图像数据返回给prompt manager

    • prompt manager基于图像数据生成图像语言

    • 图像语言交给ChatGPT判断正确性,该过程不断迭代直到满足一定条件

    • 输出处理后的语言与图像结果

  • 整体架构设计:

    • Prompt manager的基本设计

      • 系统原则

        • 定义了visual ChatGPT的作用:基于思维链路暗示CHatgpt的任务

        • VFMs可访问性:ChatGPT可以访问VFMs列表,以解决各种VL任务。使用哪个基础模型完全由ChatGPT模型本身决定,因此很容易支持新的vfm和VL任务。

        • 文件名敏感性:暗示其严格使用文件名以避免其混淆不同的图像文件

        • 思维链模型建模:引入了CoT辅助建模

        • 可靠性:基于提示使chatgpt忠于视觉基础模型的输出

        • 优先使用VFMs:构建的提示将引导ChatGPT优先利用vfm,而不是根据会话历史生成结果

      • 历史对话的处理

        • 多轮问题的字符串串接

        • 基于最大长度阈截断对话历史

      • 用户询问的处理

        • 一个用于提醒gpt使用vfm的提示

          • 它提示Visual ChatGPT使用基础模型,而不是仅仅依靠它的想象力

          • 它鼓励Visual ChatGPT提供由基础模型生成的特定输出,而不是像“您在这里”这样的通用响应。

        • 一个具有通用唯一标识符(UUID)的唯一文件名,并添加一个前缀字符串“image”表示相对目录

          • 新上传的图像不会被输入到ChatGPT,但会生成一个假的对话历史记录,其中一个问题说明了图像的文件名,而一个答案表明图像已被接收。

      • 模型输入输出步骤

        • 图像保存至image文件夹下,图像命名——名称+操作+预览名+组织名称

        • 使用这样的命名规则,它可以提示ChatGPT中间结果属性,即。图像,以及它是如何从一系列操作中生成的。

        • 自我问询方法:让ChatGPT通过在每一代结束时扩展一个后缀“Thought:”来不断地询问自己是否需要vfm来解决当前的问题

        • 主动向用户询问更多细节,减少GPT的主观臆断

    • VFMs:基于视觉任务的模型

      • 支持22中不同任务的视觉模型,具备视觉任务上很好的扩展性

部分实验过程摘录

论文的详细内容详见https://arxiv.org/pdf/2303.04671.pdf欧~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2921.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT实用指南(精编版)

本指南增加了大量实用的操作和详细的讲解,保证小白可以轻松上手,快速驾驭ChatGPT。 关注公众号:【互联互通社区】,回复【GPT019】获取全部报告内容。 精彩推荐 GPT001:ChatGPT专题报告合辑(精选七篇) -ChatGPT&#xf…

从原理到应用,人人都懂的ChatGPT指南 | 京东云技术团队

作者:京东科技 何雨航 引言 如何充分发挥ChatGPT潜能,已是众多企业关注的焦点。但是,这种变化对员工来说未必是好事情。IBM计划用AI替代7800个工作岗位,游戏公司使用MidJourney削减原画师人数…此类新闻屡见不鲜。理解并应用这项…

chatgpt驯化指南——不要落伍了哦

首先,我们让它自己介绍自己。 然后,给大家提供这个软件的文件包。 已发布资源,自行下载。 链接如下: (3条消息) chatgpt桌面版软件,可直接链接外部,无需梯子仅需要OPENAIKEY资源-CSDN文库 注意&#xff…

从原理到应用,人人都懂的 ChatGPT 指南

“如何充分发挥ChatGPT潜能,成为了众多企业关注的焦点。但是,这种变化对员工来说未必是好事情。IBM计划用AI替代7800个工作岗位,游戏公司使用MidJourney削减原画师人数......此类新闻屡见不鲜。理解并应用这项新技术,对于职场人来…

ChatGPT 高效使用指南

简介 ChatGPT 是一种基于人工智能(AI)技术的应用,它可以通过文字和使用者进行对话和回答问题。它采用的人工神经网络和深度学习等技术,能够学习大量的语言数据,并从中提取出语言规律和模式,从而生成具有逻…

ChatGPT 指南:如何与人工智能模型进行对话与互动

人工智能技术的快速发展使得我们能够与智能机器进行对话和互动。 ChatGPT 是一种基于 GPT-3.5 架构的强大语言模型,它能够进行自然语言处理,理解我们的问题并提供相应的回答。本文将为您提供使用 ChatGPT 进行对话和互动的详细指南。 1、提出问题 与 Cha…

ChatGPT 指南:角色扮演让回答问题更专业

让 ChatGPT 进行角色扮演 Act as ...,比如,律师、内科医生、心理医生、运动教练、哲学家、翻译、平面设计师、IT 工程师等等,从而才能让 ChatGPT 从这个角色角度来分析我们的问题,不然,它的回答可能会过于广泛。 下面以…

2023年的深度学习入门指南(1) - 从chatgpt入手

2023年的深度学习入门指南(1) - 从chatgpt入手 2012年,加拿大多伦多大学的Hinton教授带领他的两个学生Alex和Ilya一起用AlexNet撞开了深度学习的大门,从此人类走入了深度学习时代。 2015年,这个第二作者80后Ilya Sutskever参与创建了openai公…

ChatGPT 投喂指南

我想要让 ChatGPT 做这些事: 给它一份 PDF,让它分析摘要、提炼内容; 让它去看某个网页,帮我查询最新的信息; 给它一份数据表格,让它分析出数据的变化; 给它一份文本,让它总结、模…

chatGPT 指南:秒变 Excel 大神

Excel 是一款功能强大的电子表格软件,而 ChatGPT 则是一种智能语言模型,可以为 Excel 用户提供帮助和指导。本文将探讨 Excel 与 ChatGPT 的关系,并从初级、中级和高级 Excel 用户三个层次,介绍如何利用 ChatGPT 来提升 Excel 技能…

ChatGPT来了,必须紧跟时代潮流!

大家好,我是瓜叔。 正如标题所示,最近几周令人难以置信的兴奋。几乎每天都有surprise的新AI产品发布,特别是ChatGPT-4和AI绘画。这是一种科幻即将成为现实的感觉。例如,看看下面的网络图像,它是由AI生成的。当我看到它…

在Matlab上用API调用chatgpt模型

在这个快节奏的数字时代 深度学习技术正逐渐成为大家的热门话题 如果你也是一名程序员或者科研工作者 那么你一定听说过GPT模型 是一种非常流行的自然语言处理模型 各大平台都已经接入了ChatGpt模型 将其应用各行对应的领域 下面介绍如何在Matlab中使用API调用chtgpt模型…

ChatGPT+Mermaid Live Editor画流程图

1.粘贴代码通过gpt翻译成Mermaid代码&#xff0c;生成流程图 public int largestValsFromLabels(int[] values, int[] labels, int numWanted, int useLimit) {// 将元素按值从大到小排序PriorityQueue<int[]> pq new PriorityQueue<>((a, b) -> b[0] - a[0])…

ChatGpt2步制作流程图与思维导图,你确定不来看一下吗?

目录 建议收藏&#xff0c;以备不时之需 一、流程图 1、输入神奇指令 效果展示 神奇指令&#xff1a; 过程展示 2、代码导入diagrams生成流程图 二、思维导图 1、输入神奇的指令 神奇的指令 过程展示 2、使用Xmind打开 效果展示 什么&#xff1f;你还不会使用ChatGpt。…

chatgpt制作流程图

介绍 chatgpt制作流程图的方法 方法 chatgpt输出流程图文字 输出流程图mermaid代码 graph LR A[申请阶段] A --> B[填写申请表] A --> C[参加入学考试] A --> D[提交申请材料] B --> E[等待录取通知] C --> E D --> E E[录取阶段] E --> F[确认入学意向]…

你知道ChatGPT吗,你真的了解ChatGPT吗

最近&#xff0c;美国科技初创公司OpenAI旗下发布了一个智能聊天工具ChatGPT&#xff0c;至今非常的火热&#xff0c;但你真的了解ChatGPT吗&#xff1f;&#xff1f;&#xff1f; ChatGPT的全名是Chat Generative Pre-trained Transformer&#xff0c;它是是人工智能技术驱动的…

什么是ChatGPT ?以及它的工作原理介绍

ChatGPT 是 OpenAI 的最新语言模型&#xff0c;比其前身 GPT-3 有了重大改进。与许多大型语言模型类似&#xff0c;ChatGPT 能够为不同目的生成多种样式的文本&#xff0c;但具有更高的精确度、细节和连贯性。它代表了 OpenAI 大型语言模型系列的下一代产品&#xff0c;其设计非…

ChatGPT 未来的前景以及发展趋势

当谈到ChatGPT的未来和发展趋势时&#xff0c;需要考虑人工智能技术以及文本生成和交互的迅速发展。在这方面&#xff0c;ChatGPT的前景非常有希望&#xff0c;因为它是一种迄今为止最先进的人工智能技术之一。 ChatGPT是一种基于机器学习的自然语言处理技术&#xff0c;它能够…

2023年Chat GPT 应用前景分析

从2022年12月初刚上线至今&#xff0c;不到半年时间ChatGPT月活就超过了1亿用户&#xff01;可谓火的一塌糊涂&#xff0c;比尔盖茨都称&#xff1a;ChatGPT的历史意义重大&#xff0c;不亚于PC或互联网诞生。以至于ChatGPT官网长期都处于满负荷运转的状态&#xff01; 由于Ch…

来聊一聊关于ChatGPT的发展前景的问题

ChatGPT是一种基于深度学习的语言模型&#xff0c;可以自动化生成人类语言的文本。近年来&#xff0c;ChatGPT技术得到了广泛应用&#xff0c;并且在人机交互、自然语言处理、虚拟客服、智能写作等领域具有很大的发展前景。本文将从以下三个方面探讨ChatGPT的发展前景。 ChatG…