视觉版ChatGPT来了!MSRA全华人团队打造,微软16年老将领衔

来源:量子位

ChatGPT会画画了!

3792abf66beae7e6ec9015a948c1e381.png

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

b322918d99edb57ead9b4c6b22a2cb66.gif

还能根据新的文字指令调整图片:把猫换成狗。

071637914c4d0a6a4a4b0fc3918549d4.gif

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

04d2c9cfb9ed9eaebccefbcef5a34a98.gif

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

be96c6b046a0ae0a31576704188a2dc5.png

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

abb29ba890dc798fb24cb85dc121ba38.png

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

d37121c3b8f082e40298576b1576e26a.png

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

67d206fd3c05c1b7dc7200530e934735.png

这样一来,Visual ChatGPT的工作流大概长这样:

5a77d47d9b2e755f512eda6b71a7e5a5.png

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

df39e2d07242d819f122f514099cf0cb.png

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

1fd5600d8835e200764e26ea851294de.jpeg

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA,任职已超10年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2020年加入微软,任职3年,目前是高级研究员。

论文地址:
https://arxiv.org/abs/2303.04671

参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

26be84b2b21616ecdac747bad32d8b61.jpeg

👆 长按识别,邀请您进群!

1ad6f902c6f35895ab4ecc825f9a80aa.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19322.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软又一开源力作!专门针对老旧照片

点击上方“逆锋起笔”,公众号回复 pdf 领取大佬们推荐的学习资料开源最前线(ID:OpenSourceTop) 猿妹整编 综合自:https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life、http://raywzy.com/Old_Photo/ 微软研究团队万紫宁、张波等人开发了一种…

WorkPlus AI助理正式上线!为企业打造定制化的AI私有助理

毋庸置疑,ChatGPT的应用充满无限的想象空间。但对于企业来说,使用时面临的最核心的问题就是“存在回答准确性不足”的弊端。那企业都想要通过GPT构建内容生态,在数字化时代保持行业领先地位。 企业都想要结合行业属性、业务需求等自身特点打…

火狐插件(fireBug)

FireBug Firebug是Firefox下的一款开发类插件,现属于Firefox的五星级强力推荐插件之一。它集HTML查看和编辑、Javascript控制台、网络状况监视器于一体,是开发JavaScript、CSS、HTML和Ajax的得力助手 Firebug插件虽然功能强大,但是它已经和F…

巴比特 | 元宇宙每日必读:微软Bing重磅升级,全面开放无需排队,支持多模态输出,聊天历史记录,将推出类ChatGPT插件功能...

摘要:据财联社报道,当地时间周四(5月4日),微软公司在官网宣布了对搜索引擎必应(Bing)和Edge浏览器一系列的重磅升级,称这些举措是AI技术的新一轮创新。新闻稿写道,新版Bi…

用函数计算解决ChatGPT API的调用

目录 一、准备 1.node.js 2.阿里云函数计算 3.两行命令实现部署 第一步:初始化项目。 第二步:一键部署。 二、使用代理访问API 一、准备 1.node.js npm安装: $ npm install serverless-devs/s -gyarn安装: $ yarn global …

抖音直播各类话术?开场、留人、促单互动话术合集

直播间各类型话术 一、直播开场互动话术 直播开场互动是用来留住直播间的第一波用户的,调动第一波用户的热情,才能持续为直播间加热。 直播开场互动话术参考: 1、“欢迎大家们来到我的直播间,希望朋友们多多支持,多多…

苹果电脑如何使用Siri语音助手!

Mac 上的 Siri 也是您的智能个人助理,可帮您进行多任务处理和完成各项事务。例如,在您处理文稿期间,Mac 上的 Siri 可帮助您执行日常任务,如获取问题的快速答案、播放音乐等。您可以询问 Siri 几乎任何内容,Siri 都可以…

iOS开发——Siri语音识别

原理&#xff1a; 先用系统的录音器录音&#xff0c;让后让siri识别语音转文字 第一步 &#xff1a;在项目plist文件添加授权&#xff0c;如下图 第二步&#xff1a;导入头文件&#xff0c;添加协议&#xff0c; #import <Speech/Speech.h> #import <AVFoundation/AV…

打造Android的中文Siri语音助手(一)——小I机器人的接口

By 何明桂&#xff08;http://blog.csdn.net/hmg25&#xff09; 转载请注明出处 Iphone4S的Siri让人眼前一亮&#xff0c;网上出现了无数调戏Siri的视频。真是让android用户们心痒不已。好在随后android阵营中的高手迅速反击&#xff0c;推出了Iris。悲剧的是Iris仅支持英文&a…

1 分钟给 Siri 升个级!从智Z变身 ChatSiri!

原文链接&#xff1a;https://forum.laf.run/d/79/17 众所周知&#xff0c;Siri 是一个智 Z&#xff01;那么如果能接入大火的 chatGPT&#xff0c;是不是就会从智 Z 变成人工智能&#xff1f;&#xff01; 众所周知&#xff0c;Laf 是一个集函数、数据库、存储为一体的云开发…

iOS-Siri唤起银行类app (语音转账)

前言 最近公司App要实现下图这样一个功能&#xff0c;对iPhone手机喊 " 嘿&#xff0c;Siri&#xff0c;余额 ”或者 " 嘿&#xff0c;Siri&#xff0c;转账 ” 出现下面的列表&#xff0c;结果列表中展示我们的APP。 列表.png 百度了很久&#xff0c;没有找到这个是…

多种多样的语音连麦方式

前言 语音连麦&#xff0c;视频通话这种基础功能大家都已经非常熟悉了&#xff0c;应用场景也十分广泛&#xff0c;例如连麦直播、游戏开黑、在线合唱、视频相亲等。 anyRTC为了让开发者们可以最找到适合自己的开发系统&#xff0c;目前我们已经适配了iOS、Androd、Web、小程…

《人类简史》笔记三—— 历史从无正义

目录 一、尽管把人人生而平等喊得震天响&#xff0c;其实还是把人分成了上下等级 二、恶性循环 三、当男人究竟有什么好的&#xff1f; 一、尽管把人人生而平等喊得震天响&#xff0c;其实还是把人分成了上下等级 古时候&#xff1a; 上等人 平民和奴隶 现在&#xff1a;…

是什么让你意识到打工没出路的?

前两年有篇爆款文&#xff0c;叫《困在算法里的外卖骑手》——算法的最终目标&#xff0c;是将骑手的体力压榨到极限&#xff0c;将成本降低到极限。 很多人看完&#xff0c;都替外卖小哥叫惨。 但回头仔细一盘&#xff0c;发现自己也惨&#xff0c;那套残酷的资本主义算法&a…

男子与 AI 对话 6 周后,选择自杀!一时难分“魔鬼”还是“救星”?

整理 | 朱珂欣 出品 | CSDN程序人生&#xff08;ID&#xff1a;coder_life&#xff09; 伴随着 ChatGPT 的火热出圈&#xff0c;让 AI 在全球范围内掀起一股浪潮&#xff1a;“往赛道里挤&#xff01;” 当各大公司秉承着“冲就对了”的心态迎接 AI 带来的一切&#xff0c;却…

LangChain大型语言模型(LLM)应用开发(五):评估

LangChain是一个基于大语言模型&#xff08;如ChatGPT&#xff09;用于构建端到端语言模型应用的 Python 框架。它提供了一套工具、组件和接口&#xff0c;可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互&#x…

你不知道的 async、await 魔鬼细节

点击上方 前端Q&#xff0c;关注公众号 回复加群&#xff0c;加入前端Q技术交流群 作者&#xff1a;Squirrel_ https://juejin.cn/post/7194744938276323384 0、前言 关于promise、async/await的使用相信很多小伙伴都比较熟悉了&#xff0c;但是提到事件循环机制输出结果类似的…

我与ChatGPT又聊了聊:什么是真正的云原生大数据平台

图片来源 | 文心一格 小智&#xff1a;传统大数据平台是什么样的&#xff1f;企业使用传统大数据平台有哪些弊端&#xff1f; 小智&#xff1a;云原生为什么这么火&#xff1f;企业如何借助云原生实现数据驱动&#xff1f; 小智&#xff1a;你听过在Kubernetes上部署的容器化云…

【云原生】我将ChatGPT变成Kubernetes 和Helm 终端

{kubectl get po&#xff0c;deploy&#xff0c;svc}{kubectl run --imagenginx nginx-app --port80 --env“DOMAINcluster”}{kubectl expose deployment nginx-app --port80 --namenginx-http}{kubectl get po&#xff0c;svc&#xff0c;deploy}{curl 10.100.67.94:80}{helm…

关于云原生,我问了 ChatGPT 几个问题......

2 个月用户破亿&#xff0c;一举超过 Tik Tok 成为史上增速最快的消费级应用程序&#xff0c;ChatGPT 的诞生给沉寂的科技圈丢下了一块巨大的石头。这场生成式 AI 掀起的浪潮&#xff0c;让人不禁重回到当年人类智慧的大溃败——AlphaGo 战胜李世石&#xff0c;震撼依旧但其背后…