Visual chatgpt多模态大模型的前菜

刚开始感觉这就是一篇工程类文章,把各种的模型做了整合,把最近很热的两个方向chatgpt和文本生成图、图文提问整合在一起。看完文章发现自己太自傲了,绝对轻视了微软亚研院大佬们的实力。

表面看起来这是一个用chatgpt做意图理解、对话管理,然后用各种多模态视觉模型做任务(VQA、图生文)简单的系统。其实这是一个多模态的训练框架,并且是一个把多模态中多任务整合:

1.学习目标不好定

a.简单了单一模态信息就够,跨模态之间没有交互,基座模型多模态表现力不够(过拟合)

b.复杂了,模型根本收敛不了,太能训练,基座模型也是学习不到东西(欠拟合)

这篇文章给出的解法是:

1.问题要够复杂,设计出一套解决多种任务统一思维框架保证任务复杂性。(没错直接拔高一层,不在具体任务细节复杂度纠结,拔高一个复杂度,在哲学层面上提高复杂度。升纬境界瞬间不一样,还保证下游任务的通用性)

2.太复杂学习不到东西怎么办,设计解决问题思维链,保证任务复杂情况下还保证每步可以学习到东西

3.思维链是有了,链上的各个环节如何串接,太复杂了这个任务也没法解,文章解法是chatgpt作为思维链的中转管理了所有中间过程,保证了这个任务可以简单训练(把思维链转为带状态的多轮对话,即做意图理解器有做对话管理器)

实现细节:

1.利用现有的基础多模态信息作为特征抽取器

2.并且把解决问题的思维链作为多轮对话管理

3.把多模态的信息统一输入格式:图、文、历史图、多轮时序、中间特征、对话状态跳转全部转成是prompt

大道至简,这样一个统一数据、统一框架、统一解决流程,直接把各种信息、任务、处理流程统一,让这个框架可以整合各种数据各种任务学习拥有强大的表征能力和知识压榨能力;到下游任务针对性做finetune、prompt或者instruct调教,用很少数据就能在具体任务表现很好(迁移能力很强、有种结构化学习意思了)

论文部分

  • 系统原则 P:系统原则提供了 Visual ChatGPT 的基本规则,例如应对图像文件名敏感,并使用 VFMs 处理图像而不是根据聊天历史生成结果。

  • 视觉基础模型 F:Visual ChatGPT 的核心之一是各种 VFMs 的组合:F = {f1,f2,...,fN},其中每个基础模型 fi 包含一个确定的函数,具有明确的输入和输出。

  • 对话历史 H<i>:我们将第 i 轮对话的对话历史定义为先前问题答案对的字符串连接,即 {(Q1,A1),(Q2,A2),...,(Qi-1,Ai-1)}。此外,我们根据最大长度阈值截断对话历史,以满足 ChatGPT 模型的输入长度。

  • 用户查询 Qi:在视觉 ChatGPT 中,查询是一个通用术语,因为它既可以包含语言查询,也可以包含视觉查询。例如,图 1 显示了包含查询文本和相应图像的示例查询。

  • 推理历史 R(<j>)i:为了解决复杂的问题,Visual ChatGPT 可能需要多个 VFMs 的协作。对于第 i 轮对话,R(<j>)i 是从 j 调用的 VFMs 的所有先前推理历史。

  • 中间答案 A(j):在处理复杂查询时,Visual ChatGPT 将逻辑地尝试通过调用不同的 VFMs 逐步获得最终答案,从而产生多个中间答案。

  • 提示管理器 M:提示管理器旨在将所有视觉信号转换为语言,以便 ChatGPT 模型可以理解。在下面的子部分中,我们重点介绍 M 如何管理上述不同部分:P、F、Qi、F(A(j>)i)。

管理系统原则 M(P)

Visual ChatGPT 是一个系统,集成了不同的 VFMs 来理解视觉信息并生成相应的答案。为了实现这一点,需要定制一些系统原则,然后将它们转换为 ChatGPT 可以理解的提示语。这些提示语有几个目的,包括:

• Visual ChatGPT 的角色 Visual ChatGPT 的设计旨在帮助完成各种文本和视觉相关的任务,如视觉问答(VQA)、图像生成和编辑等。

• VFMs 的可访问性 Visual ChatGPT 可以访问一系列 VFMs,以解决各种 VL 任务。决定使用哪个基础模型完全由 ChatGPT 模型自己决定,因此易于支持新的 VFMs 和 VL 任务。

• 文件名的敏感性 Visual ChatGPT 根据文件名访问图像文件,因此使用精确的文件名非常重要,以避免歧义。因为一轮会话可能包含多个图像及其不同的更新版本,如果文件名被误用,将导致混淆哪个图像正在讨论。因此,Visual ChatGPT 的设计严格要求使用文件名,以确保它检索和操作正确的图像文件。

• Chain-of-Thought 如图 1 所示,为了应对一个看似简单的命令,可能需要多个 VFMs,例如,查询“在预测的深度条件下生成一朵红花,然后将其变成卡通样式”,需要深度估计、深度到图像和风格转换 VFMs。为了将更具挑战性的查询分解成子问题,Visual ChatGPT 引入了 CoT,帮助决定、利用和分派多个 VFMs。

• 推理格式的严格性 Visual ChatGPT 必须遵循严格的推理格式。因此,我们使用精细的正则表达式匹配算法解析中间推理结果,并构造 ChatGPT 模型的合理输入格式,帮助它确定下一步的执行,例如触发新的 VFM 或返回最终响应。

• 可靠性 作为一个语言模型,Visual ChatGPT 可能会编造虚假的图像文件名或事实,这可能会使系统不可靠。为了处理这些问题,我们设计提示语,要求 Visual ChatGPT 忠实于视觉基础模型的输出,不编造图像内容或文件名。此外,多个 VFMs 的协作可以增加系统的可靠性,因此我们构造的提示语将引导 ChatGPT 优先利用 VFMs,而不是基于对话历史记录生成结果。

管理基础模型M(F)

Visual ChatGPT配备了多个VFMs以处理不同的VL任务。由于这些不同的VFMs可能存在一些相似之处,例如,在图像中替换对象可以被视为生成新图像,而图像到文本(I2T)任务和图像问答(VQA)任务都可以理解为根据提供的图像给出响应,因此区分它们是至关重要的。如图3所示,Prompt Manager专门定义了以下方面,以帮助Visual ChatGPT准确理解和处理VL任务:

• 名称prompt提供每个VFM的整体功能摘要,例如回答关于图像的问题。它不仅帮助Visual ChatGPT以简洁的方式理解VFM的目的,而且作为进入VFM的入口。

• 使用prompt描述了VFM应该使用的特定场景。例如,Pix2Pix模型[35]适用于更改图像的风格。提供这些信息可以帮助Visual ChatGPT做出有根据的决策,选择适合特定任务的VFM。

• 输入/输出prompt概述了每个VFM所需的输入和输出格式,因为格式可能会有很大的差异,提供清晰的指导对于Visual ChatGPT正确执行VFMs至关重要。

• 示例(可选)prompt是可选的,但可以帮助Visual ChatGPT更好地理解如何在特定的输入模板下使用特定的VFM,并处理更复杂的查询。

用户查询的提示管理 M(Qi)

Visual ChatGPT支持各种类型的用户查询,包括语言或图像、简单或复杂的查询以及对多个图像的引用。提示管理器从以下两个方面处理用户查询:

• 生成唯一的文件名 Visual ChatGPT可以处理两种类型的图像相关查询:涉及新上传图像和引用现有图像的查询。对于新上传的图像,Visual ChatGPT生成一个带有通用唯一标识符(UUID)的唯一文件名,并添加一个表示相对目录的前缀字符串“image”,例如“image/{uuid}.png”。虽然新上传的图像不会被输入到ChatGPT中,但会生成一个虚假的对话历史记录,其中包含一个说明图像文件名的问题和一个表示已接收到图像的答案。这个虚假的对话历史记录有助于后续的对话。对于涉及引用现有图像的查询,Visual ChatGPT忽略文件名检查。这种方法已被证明是有益的,因为如果不会导致歧义,ChatGPT有能力理解用户查询的模糊匹配,例如UUID名称。

• 强制VFM思考 为确保成功触发Visual ChatGPT的VFM,我们在(Qi)后附加一个后缀提示:“由于Visual ChatGPT是一个文本语言模型,Visual ChatGPT必须使用工具观察图像,而不是想象。思考和观察只对Visual ChatGPT可见,Visual ChatGPT应该记得在最终响应中重复重要信息。思考:我需要使用工具吗?”这个提示有两个目的:

1)它提示Visual ChatGPT使用基础模型,而不是仅仅依靠想象;

2)它鼓励Visual ChatGPT提供由基础模型生成的具体输出,而不是通用的响应,如“这是你要的”。

管理基础模型输出 M(F(A(j)i))

对于来自不同视觉基础模型的中间输出 F(A(j)i),Visual ChatGPT会隐式地对它们进行总结并将它们传递给ChatGPT进行后续交互,即调用其他VFMs进行进一步操作,直到达到结束条件或向用户提供反馈。以下是内部步骤的概述:

• 生成链接文件名 由于Visual ChatGPT的中间输出将成为下一个隐式对话轮的输入,因此我们应该使这些输出更有逻辑性,以帮助LLMs更好地理解推理过程。具体来说,从视觉基础模型生成的图像保存在“image /”文件夹中,这暗示以下字符串表示图像名称。然后,将图像命名为“{Name} {Operation} {Prev Name} {Org Name}”,其中{Name}是上面提到的UUID名称,{Operation}是操作名称,{Prev Name}是输入图像的唯一标识符,{Org Name}是由用户上传或由VFMs生成的原始图像名称。例如,“image / ui3c edge-of o0ec nji9dcgf.png”是一个名为“ui3c”的Canny边缘图像,输入为“o0ec”,而这个图像的原始名称是“nji9dcgf”。通过这样的命名规则,它可以提示ChatGPT中间结果的属性,即图像,以及它是如何从一系列操作中生成的。

• 调用更多VFMs Visual ChatGPT的一个核心是它可以自动调用更多VFMs来完成用户的命令。更具体地说,我们使ChatGPT保持问自己是否需要VFMs来解决当前的问题,通过在每个生成的结尾添加一个后缀“Thought:”。

• 要求更多细节 当用户的命令不明确时,Visual ChatGPT应该向用户询问更多细节,以帮助更好地利用VFMs。这种设计是安全和关键的,因为LLMs不被允许在没有依据的情况下随意篡改或推测用户的意图,特别是当输入信息不足时。

限制

总结下来不足就是这个模型其实是多个零部件和模块组合成的,不是一体成型的。这样做不好,我们不需要分立元器件组合成的计算机,我们需要一块集成电路,或者一个芯片就可以把所有东西收纳了,这样才能更好的用来做通用计算机。(为Gpt4发布做准备啊)

虽然Visual ChatGPT 是一种有前途的多模态对话方法,但它也有一些限制,包括:

• 依赖于 ChatGPT 和 VFMs 视觉 ChatGPT 在很大程度上依赖于 ChatGPT 分配任务和 VFMs 执行任务。因此,视觉 ChatGPT 的性能受到这些模型准确性和有效性的严重影响。

• 大量的提示工程视觉 ChatGPT 需要大量的提示工程,将 VFMs 转换为语言并使这些模型描述可区分。这个过程可能耗时,并需要在计算机视觉和自然语言处理方面的专业知识。

• 有限的实时能力视觉 ChatGPT 的设计是通用的。它尝试自动将复杂任务分解为多个子任务。因此,在处理特定任务时,视觉 ChatGPT 可能会调用多个 VFMs,导致与专门针对特定任务进行训练的专家模型相比,实时能力有限。

• 标记长度限制在 ChatGPT 中的最大标记长度可能限制可以使用的基础模型数量。如果有成千上万个基础模型,可能需要一个预过滤模块来限制馈入 ChatGPT 的 VFMs。

• 安全和隐私易于插拔基础模型的能力可能引发安全和隐私方面的担忧,特别是通过 API 访问远程模型。必须仔细考虑并进行自动检查,以确保敏感数据不会被暴露或泄露。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3598.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023最新ChatGPT3.5网站源码+支持用户开通会员赚取收益功能

正文: 第一步-配置APIKEY:在"index.php"最顶部配置自己的APIKEY&#xff0c;不然网站无法使用&#xff01; 第一步-配置数据库:lib/config.php 第三步-导入数据库 第四步-PHP选择:7.3 第五步-访问网页即可&#xff01; 程序: wweoeg.lanzouw.com/ifvgL0t6yxzi…

ChatGPT常用的提示语(prompts)系列二

系列文章目录 内容翻译自&#xff1a;https://github.com/f/awesome-chatgpt-prompts&#xff0c;并加入自己的实践内容 1、 ChatGPT常用的提示语&#xff08;prompts&#xff09;系列一 文章目录 系列文章目录5、作为一个Excel工作表&#xff08;Act as an Excel Sheet&#x…

ChatGPT提示词,汇聚全网提示词,chatgpt提示词大全

免费chatgpt&#xff1a;http://chat.bctweb.cnhttp://chat.bctweb.cn 提示词使用教程&#xff1a; 将提示词发给chatgpt 后面再问的时候他会你按照提示词上的提示给你发送内容 加入用户交流群&#xff0c;了解或分享更多玩法 点击链接加入群聊【ChatAi】&#xff1a;6023542…

ChatGPT提示语编写指南

ChatGPT AI 对话模型自 2022 年 11 月下旬开始可用&#xff0c;此后用户一直在探索聊天机器人的局限性和功能。 然而&#xff0c;OpenAI 也在不断地进行调整&#xff0c;因此 ChatGPT 处于不断变化的状态。 但是我们在这个小指南中描述的提示应该是永恒的。 要获得想要的结果&…

ChatGPT提示词技巧

自计算机问世以来&#xff0c;人类与计算机之间的交互方式已经经历过几个重要的阶段&#xff1a; 指令式交互&#xff08;Command-based Interaction&#xff09; 早期的计算机系统主要采用了指令式交互方式&#xff0c;用户需要输入特定的命令或代码来完成各种任务。这种交…

玩转ChatGPT提示词 持续更新·······

导语&#xff1a; 众所周知&#xff0c;在AI的世界里&#xff0c;提示词就是和AI沟通语言的桥梁&#xff0c;提示关键词常用于AI对话及AI绘画等相关场景&#xff0c;通过准确的使用关键词&#xff0c;你就能更好的让AI辅助自己的工作&#xff0c;其中的成分重要性不言而喻&…

ChatGPT 提示词设置

提示词 Prompt&#xff08;提示词&#xff09;&#xff1a;当我们询问GPT时&#xff0c;发送的消息就是Prompt。 通过给出合适的Prompt&#xff0c;可以让GPT了解我们的想法&#xff0c;在根据我们的想法做出更加合适的判断&#xff0c;帮助我们完成任务&#xff0c;提高效率。…

最新ChatGpt提示词教程

注意&#xff1a;该文章只是用于日常提问或者是其他工作场景下使用&#xff0c;并未有深入研究。仅仅用于满足日常的需求。作者水平有限请嘴下留情。 ChatGpt 2022 年 11 月&#xff0c;Chatgpt作为一款全新的智能聊天系统&#xff0c;横空出世&#xff0c;先在北美、欧洲等地…

为什么是ChatGPT引发了AI浪潮?

目录 BERT和GPT简介 BERT和GPT核心差异 GPT的优势 GPT的劣势 总结 随着近期ChatGPT的火热&#xff0c;引发各行各业都开始讨论AI&#xff0c;以及AI可以如何应用到各个细分场景。为了不被时代“抛弃”&#xff0c;我也投入了相当的精力用于研究和探索。但在试验的过程中&…

可以顺畅使用不输Chatgpt的AI

一前言 虽然chatgpt不错&#xff0c;但是如果在咱们国家&#xff0c;想使用起来还是有一定的门槛的&#xff0c;又要科学上网&#xff0c;又要申请账号&#xff0c;申请账号还要申请虚拟手机号接收验证码&#xff0c;难道就没有适合普通人使用的AI了吗&#xff0c;直到我发现了…

【ChatGPT】ChatGPT掀起AIGC与AI浪潮

文章目录 前言 一、我为什么要这么做&#xff1f; 二、AI与AIGC 1.AI是什么&#xff1f; 2. AIGC是什么&#xff1f; 2.1 AIGC的优势 2.2 AIGC的劣势 3. AI与AIGC的区别 三、ChatGPT 四、应对措施和改变 1. 找到自己的风格 2. 学习AI的优点 3. 创新型方法 总结​​​​​​​ 前…

不仅仅是ChatGPT:分享一些AI时代的有力工具

本文已发表在哔哔哔哔-不仅仅是ChatGPT&#xff1a;分享一些AI时代的有力工具 前言 可以说AI技术在2022年底是一个技术奇点&#xff0c;完成突破之后&#xff0c;我们可以预见一个技术爆炸的时代。 在计算机的早期&#xff0c;人与计算机的交互只有键盘&#xff0c;是鼠标和G…

浅谈ChatGPT 和 对AI 的思考

新世纪以来&#xff0c;人工智能作为一个非常热门话题&#xff0c;一直收到大众的广泛的关注。从一开始的图像的分类&#xff0c;检测&#xff0c;到人脸的识别&#xff0c;到视频分析分类&#xff0c;到事件的监测&#xff0c;到基于图片的文本生成&#xff0c;到AI自动写小说…

干货分享:AI绘图学习心得-Midjourney绘画AI,让你的AI绘画之路少走弯路

干货分享&#xff1a;AI绘图学习心得-Midjourney绘画AI 最重要的Prompt和参数基本 Prompts高级Prompts 一、构图指令结构二、常用指令分享三、操作技巧总结四、常用风格词汇五、常用构图词汇六、高频实用词汇推荐&#xff1a;七、其他AI资料获取&#xff1a; 本篇没有什么长篇大…

国内能用的几个AI人工智能大模型

AILINK&#xff1a;https://kk.rknk.net 支持功能&#xff1a; ChatGPT-3.5ChatGPT-4角色设定流试输出自定义轻应用Midjourney绘图 百度文言一心&#xff1a;https://yiyan.baidu.com实时联网生成搜索信息检索PDF/Doc问答摘要 目前已逐渐开放较多的体验名额&#xff0c;有兴…

从玩具到工具|社畜程序员用AI提效的神仙操作

&#x1f449;腾小云导读 随着 AI 技术的日益发展&#xff0c;前端开发模式和提效工具也在不断地变化。作为一名前端工程师&#xff0c;如何应对 AI 带来的挑战和机遇&#xff1f;在这篇文章中&#xff0c;作者将介绍什么是 AIGC&#xff0c;并深入探讨 AI 在低代码平台的应用。…

百度生成式AI产品文心一言邀你体验AI创作新奇迹:百度CEO李彦宏详细透露三大产业将会带来机遇(文末附文心一言个人用户体验测试邀请码获取方法,亲测有效)

百度生成式AI产品文心一言邀你体验AI创作新奇迹 中国版ChatGPT上线发布强大中文理解能力超强的数理推算能力智能文学创作、商业文案创作图片、视频智能生成 中国生成式AI三大产业机会新型云计算公司行业模型精调公司应用服务提供商 总结获取文心一言邀请码方法 中国版ChatGPT上…

chatgpt赋能python:Python中的画图——创建漂亮的可视化图像

Python中的画图——创建漂亮的可视化图像 Python是一个高度可编程的语言&#xff0c;因此它非常适合用于创建各种类型的可视化。 在本文中&#xff0c;我们将介绍Python中的画图。我们将讨论如何使用Python和一些流行的数据可视化库来创建漂亮的可视化图像。我们还将探讨如何…

省钱!NewBing硬核新玩法;手把手教你训练AI模特;用AI替代同事的指南;B站最易上手AI绘画教程 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 『NewBing 的2种硬核新用法』阅读文档并回答问题 & AI绘图 社区同学分享了两种NewBing的新用法&#xff0c;不仅准确高效&#x…

AIGC的中场战事

&#xff08;图片来源&#xff1a;Pexels) 换皮、专业度、应用企业和大模型的博弈均会影响行业发展。 数科星球 原创 作者丨苑晶 编辑丨十里香 ChatGPT爆火&#xff0c;惹得众羡。 以Meta为首的企业&#xff0c;发起了对ChatGPT的“围剿”。日前&#xff0c;扎克伯格推出LLaMA“…