微软再扔AI聊天画图炸弹!图文版ChatGPT诞生了

 Datawhale干货 

发布:Visual ChatGPT,来源:新智元

【导读】要说ChatGPT已经是核弹级的现象,那么微软发布的Visual ChatGPT可以称的上宇宙大爆炸。在视觉模型加持下的ChatGPT,聊天生图全拿捏了。

图文版ChatGPT诞生了!

刚刚,微软亚研院发布了一个炸弹级模型Visual ChatGPT。

0c1b8cc9cf7ccc21a586266f6a9f917b.png

论文地址:https://arxiv.org/abs/2303.04671

以前的ChatGPT虽然具有卓越的对话能力和推理能力,但也有短板——还不能处理或生成视觉图像。

而Visual Transformers或Stable Diffusion,虽然在视觉理解和生成能力上很强大,却只有一轮固定的输入和输出。

微软亚研院学者提出的模型,就把视觉模型信息注入了ChatGPT,使用户能够与ChatGPT以语言和图像的形式交互,还能提供复杂的视觉指令,让多个模型通过多步骤协作。

微软前不久推出的Kosmos-1,就属于多模态大语言模型,传言下周发布的GPT4,据说也是转向了多模态。看来,微软在下一盘多模态的大棋

作画、上色、抠图,一键拿捏


注入视觉模型后,ChatGPT直接化身艺术大师,想要什么作品,动动嘴就行了。

-帮我画一个苹果。Visual ChatGPT直接生成了一张画好的图。

2a5ffd9f0eca9ef805742df3587b32f8.png

这还仅是前菜,Visual ChatGPT各种画风全能hold住,比如:

随便给个草图框架,它便能输出一幅精美的画作。

fa30a758a13d3ab76540cf61a7f33a39.png

另外,上色、「抠图」、深度图、基于深度图再生成图片都能拿捏。

一张简陋的图经过你的精心调教后,就变成了这个样子。

beefd991c35d4188bb4963f1e1a83811.png

当然了,Visual ChatGPT没有忘本,让它进行创作的同时,还能描述图片、回答问题。

04e437fb52efc702e47ca563afd2f515.gif

有了Visual ChatGPT的加持,微软必应简直可以制霸全世界了。

41309c9ae463c24d7f82e0dc583f669d.png

Prompt Manager,让视觉模型立刻和ChatGPT合体


研究者是如何想到这个点子的呢?

当红炸子鸡ChatGPT能输入输出文字类的信息,但是在图像理解和生成方面能力有限。

Visual ChatGPT并非是从头训练的,而是直接基于ChatGPT构建,并向其注入了许多可视化模型(VFMs)。Stable Diffusion就是可视化模型的典型代表。

VFMs虽然在文本-图像生成上展现出巨大能力,但在人机交互上却不如对话语言模型灵活。

微软亚研院的研究人员便get了一个点,将这两者结合,提出Visual ChatGPT,岂不是强强联合。

点子有了,那视觉模型信息如何注入ChatGPT呢?就是通过一系列提示。

论文中提出了Prompt Manager,具体步骤是——

1 首先明确告诉ChatGPT每个VFM的能力,并指定输入-输出格式。

2 然后转换不同的视觉信息,比如将Png图、深度图和掩模矩阵,转换为语言格式。

3 最后处理不同VFMs的历史、优先级和冲突。

d4667e8754ef7ffbb3e0b505d0ae7b61.png

在Prompt Manager的帮助下,ChatGPT可以利用这些VFMs,并以迭代的方式接收其反馈,直到满足用户的要求或达到结束条件。

如图,上传一个黄色花朵的图像,然后输入一个复杂语言指令「请根据图像的预测深度生成一朵红色花朵,然后一步一步地把它做成卡通形象」。

Visual ChatGPT便开始执行任务链:

首先应用深度估计模型来检测深度信息,然后利用深度图像模型生成一个带有深度信息的红色花朵图形,最后利用基于Stable Diffusion的风格转换VFM,将该图像转化为卡通风格。

在上述管道中,Prompt Manager通过提供可视化格式的类型,和记录信息转换的过程,来充当ChatGPT的调度器。

最后,当 Visual ChatGPT从Prompt Manager获得「卡通」提示时,将结束执行管道,并显示最终结果。

模型概述


对于一个由N个问题-答案对dfaae8aa42da66654bab729bfcc7e85c.png构成的集合,想要从第i轮对话中得到答案ed828f6302541132eca78f371737df8d.png,就需要一系列的VFM和中间输出。

我们记第i轮对话中,第j次的工具调用中间答案e3b92499d4ae1f8034caf10974e3b24d.png

这种工作机制可用一个公式表示,这个公式也定义了什么是Visual ChatGPT。

3e280c147742727312f2e000c171aaac.png

其他符号代表:P是全局原则,F是各个视觉基础模型,b09b31f8246a375d96d5640a0648fe94.png是历史会话记忆,62f3bac0adb212adecda852735b36f8a.png是这一轮的用户输入,83b0584799d8d04971483e8779058286.png是这轮对话里的推理历史,4bc3e8768c20c1a60336a6865dd68950.png是中间答案,M是Prompt Manager,用来把上面各个功能转化成合理的文本prompt,进而将其交给ChatGPT处理。

df092e695a942c0e818f200f3aa47d7c.png

左边是进行的三轮对话;中间是Visual ChatGPT如何迭代调用VFMs并提供答案的流程图;右侧是第二个QA的详细过程。

M(P)

Visual ChatGPT为了能让不同的VFM理解视觉信息并生成相应答案,需要设计一系列系统原则,并将其转化为ChatGPT能够理解的提示。

通过生成这样的提示,Prompt Manager能够帮助Visual ChatGPT完成生成文本、图像的任务,能够访问一系列VFM并自由选择使用哪个基础模型,提高对文件名的敏感度,进行链式思考和严格推理。

M(F)

Prompt Manager需要帮助Visual ChatGPT区分不同的VFM,以便准确地完成图像任务。

为此,Prompt Manager对各个基础模型的名称、应用场景、输入和输出提示以及实例给出了具体定义。

M(Q)

Prompt Manager会对用户新上传的图像生成唯一文件名,并生成假的对话历史,其中提到该名称的图片已经收到,这样可以在涉及引用现有图像的查询时忽略文件名的检查。

Prompt Manager会在查询问题之后加上一个后缀提示,来确保成功触发VFM,强制Visual ChatGPT进行思考,给出言之有物的输出。

M(F(A))

VFM给出的中间输出,Prompt Manager会为其生成链式文件名,作为下一轮内部对话的输入。

ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,Visual ChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。

1c4d36295c2970be78f8a3c04398f222.png

Prompt Manager概述

每个视觉基础模型的GPU显存使用情况如下:

98eacb2b4971437f2fe05f17f08c53fe.png

通过修改self.tools来调整模型的使用数量,便可以节省显存。

案例研究


此外,论文还分析了在各个模块,如果Prompt Manager的设计不到位,会各自出现什么问题。

比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。

005bb159fefc589e93e86f24ffe94db8.png

另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。

论文中,作者也指出了当前Visual ChatGPT存在的一些局限。

比如,需要大量的提示来将VFMs转换成语言,实时能力有限、token长度有限制等等。

作者介绍


论文一作吴晨飞,高级研究员,2020年加入微软亚洲研究院自然语言计算组,研究领域为多模型的预训练、理解和生成。

ec91cb672a025e4c562c5a278a6e6a93.png

通讯作者段楠,微软亚洲研究院首席研究员及自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,研究领域为自然语言处理、代码智能、多模态智能和机器推理等。

2b289444ff55af9a0d751100854212b9.png

Visual ChatGPT的横空出世,让ChatGPT聊天更加丝滑了。

525aa9eea8b8812aea8129d3aa1f698b.png

有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话……

也有网友说,这个应用简直堪比早期的智能手机,相当于人们早期的应用程序开发。可以想象,它们最终的使用范围会比最初设想的要广泛得多。

下一步,没准儿ChatGPT生成视频指日可待了。

参考资料:

https://arxiv.org/abs/2303.04671

https://www.reddit.com/r/MachineLearning/comments/11mlwty/r_visual_chatgpt_talking_drawing_and_editing_with/

ce76256343b6aa31979119de810083f6.png

一起“赞”三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3762.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剖析NLP历史,看chatGPT的发展

1、NLP历史演进 1.1 NLP有监督范式 ​ NLP里的有监督任务的范式,可以归纳成如下的样子。 输入是字词序列,中间一步关键的是语义表征,有了语义表征之后,然后交给下游的模型学习。所以预训练技术的发展,都是在围绕怎么…

【ChatGPT】多国“围堵”,万人抵制,AI发展的红线到底在哪?

个人主页:【😊个人主页】 文章目录 前言Chatgpt💻💻💻多国拟发ChatGPT禁令🈲🈲🈲开端发展高潮 联名抵制自我辩解🎛️🎛️🎛️名家争言比尔盖茨&am…

分享一个苹果Siri接入ChatGPT的方法,让你的Siri更智能

今天我给大家分享一个苹果Siri接入ChatGPT的方法,让你的Siri更智能; 方法很简单,只需要几步: 1、只需添加一个快捷指令 2、在唤醒Siri后,说出指令名称即可 3、Hey Siri 智能助手,我在 4、长按指令可以…

基于OpenAI(ChatGPT)进行模型微调的详细步骤

目录 0. 设置API Key1. 安装OpenAI-CLI工具2. 处理自己的数据集3. 模型微调4. 模型调用 官方教程:https://platform.openai.com/docs/guides/fine-tuning 0. 设置API Key 在操作前需要在系统环境变量里加入OpenAI的 API Key(变量名:OPENAI_…

大火的ChatGPT与表格插件结合会有哪些意想不到的效果?

大火的ChatGPT与表格插件结合会有哪些意想不到的效果? 摘要:本文由葡萄城技术团队于CSDN原创并首发。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 ChatGPT已经火了好…

推荐 4个有趣实用的 ChatGPT 开源应用

以下是 4个有趣实用的基于 ChatGPT 的开源应用,让我们一起来探索吧! 1. ChatGPT 快捷键 ChatGPT Shortcut 是一个让你使用 ChatGPT 时生产力翻倍的快捷指令网站。你只需在该开源项目中复制提示词,稍加修改后发送给 ChatGPT,就能…

ChatGPT指令集角色扮演.

Prompt 是什么 ChatGPT prompt是一个由GPT模型生成的输入文本,用于启动一个对话或问答。 ChatGPT prompt通常以一个问题或话题为中心,以引导GPT模型生成与之相关的响应。例如,“请问你今天过得如何?”可以作为一个ChatGPT prompt&…

科技大脑|快速玩转#ChatGPT之“用Chat GPT 做出行攻略”

又到了五一旅游季,很多人常为规划行程而烦恼,并且需要花很多时间做功课,这里教大家用Chat GPT安排好旅游行程。只需要简单告诉GPT你的日期和目的地,30秒就可以生成很不错的行程攻略,而且自己还可以加入特定条件&#x…

《花雕学AI》ChatGPT Shortcut Chrome 扩展:让生产力和创造力加倍的 ChatGPT 快捷指令库

你是否想要与一个智能的对话伙伴聊天,或者让它帮你完成各种任务,如写作、编程、摘要、翻译等?如果是的话,你可能会对 ChatGPT 感兴趣。ChatGPT 是一个基于 GPT-3.5 的对话式人工智能,可以与用户进行自然、流畅、有趣的…

chatgpt-mirai-qq-bot

ChatGPT for Bot 一款支持各种主流语言模型的聊天的机器人! 查看使用教程 交流群(Discord)会发布最新的项目动态、问题答疑和交流 QQ 群 。 加群之前先看这里的内容能不能解决你的问题。 如果不能解决,把遇到的问题、日志和配置…

ChatGPT成精了

ChatGPT 是OpenAI 发布的一个全新的聊天机器人模型。它到底有多厉害呢?我注册后体验了一下,你会感觉背后有个真人跟你在聊天。例如: 代码不仅可以运行,还特么有每行带有中文注释,这完全是降维打击StackOverflow。 再来…

开源LLM「RWKV」想要打造AI领域的Linux和Android|ChatAI

RWKV想逐步成为最强开源模型,中期计划取代Transformer。能如愿吗? “我们没有护城河,OpenAI也是。”近期,谷歌内部人士在Discord社区匿名共享了一份内部文件,点破了谷歌和OpenAI正面临的来自开源社区的挑战。尽管经外…

九龙证券|主力斥近8亿元暴拉设备龙头,多股已获连续加仓

苹果布局折叠屏手机,产业有望迎放量。 今日半导体芯片板块全线迸发,源杰科技、雅克科技、瑞芯微等涨停,芯源微、国科微等10余股涨超10%。AI概念股全线走低,AIGC(人工智能内容出产)、ChatGPT、游戏等方向领跌…

ChatGPT热潮席卷全球ChatGPT将带动哪些芯片的需求?ChatGPT的启示

最近,ChatGPT热潮席卷全球。 ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI于2022年12月推出的对话AI模型,仅发布2个月便实现月活突破1亿,成为历史上用户增长最快的消费级应用之一。 图来来源:纽约时报 ChatGPT火…

我们和ChatGPT聊了下如何创业,结果……

目录 你适合创业吗? 创业入门指南 如何找人、找钱、找方向? 如何找人࿱

基于ChatGPT的端到端语音聊天机器人项目实战(三)

企业级ChatGPT开发入门实战 第1课 基于ChatGPT的端到端语音聊天机器人项目实战 Gavin老师:NLP_Matrix_Space 1.4 使用FastAPI构建语音聊天机器人后端实战 在后端代码(backend)中调用了OpenAI API及其他的服务,如图1-10所示。 图1- 10 后端代码调用OpenAI API openai_requ…

chatgpt赋能python:用python分析聊天记录

用python分析聊天记录 随着社交网络的普及,人们的沟通方式也发生了变化。我们越来越多地依赖于在线通信和社交媒体来交流。我们谈论我们的想法,分享图片和视频,并使我们的关系更加亲密。然而,这些聊天记录通常散布在不同的平台和…

chatgpt赋能python:Python处理微信聊天记录

Python处理微信聊天记录 微信是现代社交生活中不可或缺的一部分,而聊天记录是记录日常交流的重要依据之一。许多人会想要进一步了解、分析或备份他们的微信聊天记录。在这篇文章中,我们将介绍如何使用Python处理微信聊天记录,助您更好地管理…

ChatGPT 引入关闭聊天记录功能

导读OpenAI 宣布在 ChatGPT 中引入了一项新功能,允许用户关闭聊天记录。相关控件目前已面向所有用户推出,可以在 ChatGPT 的设置中找到,并且可以随时更改。 公告指出,用户在禁用聊天历史记录后开始的对话不会被用于训练和改进 Op…

chatgpt赋能python:Python微信聊天记录:如何导出并分析聊天记录

Python 微信聊天记录:如何导出并分析聊天记录 微信是目前最受欢迎的聊天工具之一,但是它的聊天记录并不方便导出和分析。本文将介绍如何使用 Python 导出微信聊天记录,并进行分析。 导出微信聊天记录 打开微信客户端,并找到需要…