视觉版ChatGPT来了！MSRA全华人团队打造，微软16年老将领衔

视觉版ChatGPT来了！MSRA全华人团队打造，微软16年老将领衔

news/2024/12/23 20:44:06/文章来源:https://blog.csdn.net/weixin_47196664/article/details/129605468

来源：量子位

ChatGPT会画画了！

问它：能生成一张猫片给我吗？

立刻连文带图全有了。

还能根据新的文字指令调整图片：把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它，然后问摩托是什么颜色？它能回答出是黑色。

如上，就是由MSRA资深研究人员们提出的视觉版ChatGPT（Visual ChatGPT）。

通过给ChatGPT结合多种视觉模型，并利用一个提示管理器（Prompt Manager），他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了，GitHub揽星已超过1.5k。

简单总结一下，就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说：

这不是终极meme图制造机？

诀窍在于提示工程？

Visual ChatGPT，其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型，工作量非常大。

研究人员想到可以在ChatGPT的基础上，结合一些视觉模型。

而想要达到这一目的，关键需要一个中间站。

由此他们提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明确告诉ChatGPT，每个视觉模型的作用，并指定好输入输出格式。

第二、转换不同的视觉信息，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三、处理视觉模型的历史生成结果，以及不同模型的调用优先级、规避冲突等，让ChatGPT能够以迭代的方式接收视觉模型的生成内容，直到输出用户满意的结果。

这样一来，Visual ChatGPT的工作流大概长这样：

假如用户输入了一张图，模型会先将内容发送给提示管理器，然后转换成语言给ChatGPT判断，当它发现这个问题不需要调用视觉模型，就会直接给出输出（第一个回答）。

第二个问题时，ChatGPT分析问题内容需要使用视觉模型，就会让视觉模型开始执行，然后一直迭代，直到ChatGPT判断不再需要调用视觉模型时，才会输出结果。

论文介绍，Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力，他们还进行了大量零次试验（zero-shot experiments）。

结果如开头所示，Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然，研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量，主要取决于视觉模型的性能。

以及使用大量的提示工程，会一定程度上影响生成结果的速度。而且还可能同时调用多个模型，也会影响实时性。

最后，在输入图片的隐私安全上，还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是MSRA首席研究员，自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA，任职已超10年。

第一作者Chenfei Wu，同样是一位资深研究人员了。

据领英资料显示，他于2020年加入微软，任职3年，目前是高级研究员。

论文地址：
https://arxiv.org/abs/2303.04671

参考链接：
https://twitter.com/_akhaliq/status/1633642479869198337

推荐阅读

西电IEEE Fellow团队出品！最新《Transformer视觉表征学习全面综述》
润了！大龄码农从北京到荷兰的躺平生活（文末有福利哟！）
如何做好科研？这份《科研阅读、写作与报告》PPT，手把手教你做科研
奖金675万！3位科学家，斩获“中国诺贝尔奖”！
又一名视觉大牛从大厂离开！阿里达摩院 XR 实验室负责人谭平离职
最新 2022「深度学习视觉注意力」研究概述，包括50种注意力机制和方法！
【重磅】斯坦福李飞飞《注意力与Transformer》总结，84页ppt开放下载！
2021李宏毅老师最新40节机器学习课程！附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

👆 长按识别，邀请您进群！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/19322.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

微软又一开源力作！专门针对老旧照片

微软又一开源力作！专门针对老旧照片

点击上方“逆锋起笔”，公众号回复 pdf 领取大佬们推荐的学习资料开源最前线(ID:OpenSourceTop) 猿妹整编综合自：https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life、http://raywzy.com/Old_Photo/ 微软研究团队万紫宁、张波等人开发了一种…

阅读更多...

WorkPlus AI助理正式上线！为企业打造定制化的AI私有助理

WorkPlus AI助理正式上线！为企业打造定制化的AI私有助理

毋庸置疑，ChatGPT的应用充满无限的想象空间。但对于企业来说，使用时面临的最核心的问题就是“存在回答准确性不足”的弊端。那企业都想要通过GPT构建内容生态，在数字化时代保持行业领先地位。企业都想要结合行业属性、业务需求等自身特点打…

阅读更多...

火狐插件（fireBug）

火狐插件（fireBug）

FireBug Firebug是Firefox下的一款开发类插件，现属于Firefox的五星级强力推荐插件之一。它集HTML查看和编辑、Javascript控制台、网络状况监视器于一体，是开发JavaScript、CSS、HTML和Ajax的得力助手 Firebug插件虽然功能强大，但是它已经和F…

阅读更多...

巴比特 | 元宇宙每日必读：微软Bing重磅升级，全面开放无需排队，支持多模态输出，聊天历史记录，将推出类ChatGPT插件功能...

巴比特 | 元宇宙每日必读：微软Bing重磅升级，全面开放无需排队，支持多模态输出，聊天历史记录，将推出类ChatGPT插件功能...

摘要：据财联社报道，当地时间周四（5月4日），微软公司在官网宣布了对搜索引擎必应（Bing）和Edge浏览器一系列的重磅升级，称这些举措是AI技术的新一轮创新。新闻稿写道，新版Bi…

阅读更多...

用函数计算解决ChatGPT API的调用

用函数计算解决ChatGPT API的调用

目录一、准备 1.node.js 2.阿里云函数计算 3.两行命令实现部署第一步：初始化项目。第二步：一键部署。二、使用代理访问API 一、准备 1.node.js npm安装： $ npm install serverless-devs/s -gyarn安装： $ yarn global …

阅读更多...

抖音直播各类话术？开场、留人、促单互动话术合集

抖音直播各类话术？开场、留人、促单互动话术合集

直播间各类型话术一、直播开场互动话术直播开场互动是用来留住直播间的第一波用户的，调动第一波用户的热情，才能持续为直播间加热。直播开场互动话术参考： 1、“欢迎大家们来到我的直播间，希望朋友们多多支持，多多…

阅读更多...

苹果电脑如何使用Siri语音助手！

苹果电脑如何使用Siri语音助手！

Mac 上的 Siri 也是您的智能个人助理，可帮您进行多任务处理和完成各项事务。例如，在您处理文稿期间，Mac 上的 Siri 可帮助您执行日常任务，如获取问题的快速答案、播放音乐等。您可以询问 Siri 几乎任何内容，Siri 都可以…

阅读更多...

iOS开发——Siri语音识别

iOS开发——Siri语音识别

原理： 先用系统的录音器录音，让后让siri识别语音转文字第一步 ：在项目plist文件添加授权，如下图第二步：导入头文件，添加协议， #import <Speech/Speech.h> #import <AVFoundation/AV…

阅读更多...

打造Android的中文Siri语音助手(一)——小I机器人的接口

打造Android的中文Siri语音助手(一)——小I机器人的接口

By 何明桂（http://blog.csdn.net/hmg25） 转载请注明出处 Iphone4S的Siri让人眼前一亮，网上出现了无数调戏Siri的视频。真是让android用户们心痒不已。好在随后android阵营中的高手迅速反击，推出了Iris。悲剧的是Iris仅支持英文&a…

阅读更多...

1 分钟给 Siri 升个级！从智Z变身 ChatSiri！

1 分钟给 Siri 升个级！从智Z变身 ChatSiri！

原文链接：https://forum.laf.run/d/79/17 众所周知，Siri 是一个智 Z！那么如果能接入大火的 chatGPT，是不是就会从智 Z 变成人工智能？！ 众所周知，Laf 是一个集函数、数据库、存储为一体的云开发…

阅读更多...

iOS-Siri唤起银行类app (语音转账)

iOS-Siri唤起银行类app (语音转账)

前言最近公司App要实现下图这样一个功能，对iPhone手机喊 " 嘿，Siri，余额 ”或者 " 嘿，Siri，转账 ” 出现下面的列表，结果列表中展示我们的APP。列表.png 百度了很久，没有找到这个是…

阅读更多...

多种多样的语音连麦方式

多种多样的语音连麦方式

前言语音连麦，视频通话这种基础功能大家都已经非常熟悉了，应用场景也十分广泛，例如连麦直播、游戏开黑、在线合唱、视频相亲等。 anyRTC为了让开发者们可以最找到适合自己的开发系统，目前我们已经适配了iOS、Androd、Web、小程…

阅读更多...

《人类简史》笔记三—— 历史从无正义

《人类简史》笔记三—— 历史从无正义

目录一、尽管把人人生而平等喊得震天响，其实还是把人分成了上下等级二、恶性循环三、当男人究竟有什么好的？ 一、尽管把人人生而平等喊得震天响，其实还是把人分成了上下等级古时候： 上等人平民和奴隶现在：…

阅读更多...

是什么让你意识到打工没出路的？

是什么让你意识到打工没出路的？

前两年有篇爆款文，叫《困在算法里的外卖骑手》——算法的最终目标，是将骑手的体力压榨到极限，将成本降低到极限。很多人看完，都替外卖小哥叫惨。但回头仔细一盘，发现自己也惨，那套残酷的资本主义算法&a…

阅读更多...

男子与 AI 对话 6 周后，选择自杀！一时难分“魔鬼”还是“救星”？

男子与 AI 对话 6 周后，选择自杀！一时难分“魔鬼”还是“救星”？

整理 | 朱珂欣出品 | CSDN程序人生（ID：coder_life） 伴随着 ChatGPT 的火热出圈，让 AI 在全球范围内掀起一股浪潮：“往赛道里挤！” 当各大公司秉承着“冲就对了”的心态迎接 AI 带来的一切，却…

阅读更多...

LangChain大型语言模型(LLM)应用开发(五)：评估

LangChain大型语言模型(LLM)应用开发(五)：评估

LangChain是一个基于大语言模型（如ChatGPT）用于构建端到端语言模型应用的 Python 框架。它提供了一套工具、组件和接口，可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互&#x…

阅读更多...

你不知道的 async、await 魔鬼细节

你不知道的 async、await 魔鬼细节

点击上方前端Q，关注公众号回复加群，加入前端Q技术交流群作者：Squirrel_ https://juejin.cn/post/7194744938276323384 0、前言关于promise、async/await的使用相信很多小伙伴都比较熟悉了，但是提到事件循环机制输出结果类似的…

阅读更多...

我与ChatGPT又聊了聊：什么是真正的云原生大数据平台

我与ChatGPT又聊了聊：什么是真正的云原生大数据平台

图片来源 | 文心一格小智：传统大数据平台是什么样的？企业使用传统大数据平台有哪些弊端？ 小智：云原生为什么这么火？企业如何借助云原生实现数据驱动？ 小智：你听过在Kubernetes上部署的容器化云…

阅读更多...

【云原生】我将ChatGPT变成Kubernetes 和Helm 终端

【云原生】我将ChatGPT变成Kubernetes 和Helm 终端

{kubectl get po，deploy，svc}{kubectl run --imagenginx nginx-app --port80 --env“DOMAINcluster”}{kubectl expose deployment nginx-app --port80 --namenginx-http}{kubectl get po，svc，deploy}{curl 10.100.67.94:80}{helm…

阅读更多...

关于云原生，我问了 ChatGPT 几个问题......

关于云原生，我问了 ChatGPT 几个问题......

2 个月用户破亿，一举超过 Tik Tok 成为史上增速最快的消费级应用程序，ChatGPT 的诞生给沉寂的科技圈丢下了一块巨大的石头。这场生成式 AI 掀起的浪潮，让人不禁重回到当年人类智慧的大溃败——AlphaGo 战胜李世石，震撼依旧但其背后…

阅读更多...

最新文章

推荐文章