视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔...

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT会画画了!

7df332a0b45dd1c54c58c94e62229dc4.png

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

5670a52481201e2a2dc6ecdf9492f20f.gif

还能根据新的文字指令调整图片:把猫换成狗。

fad8053628ae14a107a3f52e24264282.gif

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

68bff59ef5dfdffffa48b6bfac5fbf70.gif

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

29a5cd6509133b77b49368173041ea87.png

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

991e1d897860eb2043dbc68c8d68bb02.png

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

8d74983937e02ee346bd599ccef605c4.png

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

cb528e4980f396e57ddcd28923995a22.png

这样一来,Visual ChatGPT的工作流大概长这样:

9af4ca514d07a971cea09bb1dadf770a.png

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

929b8ba03a5c1e63a217ff076095c6cc.png

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

3e2675138cbd8f12f3498a8150cfd037.jpeg

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA,任职已超10年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2020年加入微软,任职3年,目前是高级研究员。(下图有误)

a43a7e9358427b22bbccecfd003a07d9.png

论文地址:
https://arxiv.org/abs/2303.04671

参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

被ChatGPT带飞的AIGC如何在中国落地?量子位邀你共同参与中国AIGC产业峰会

70c2ab845e511e45f89815b93bd370ac.gif

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5213.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT之父投资生物科技公司,逆转衰老还是永生?

ChatGPT之父山姆阿尔特曼(Sam Altman)加入了杰夫贝佐斯、杰克多尔西和马克扎克伯格等人的行列,寻找延长寿命的解决方案。 据报道,OpenAI公司CEO 阿尔特曼出资1.8亿美元,帮助生物科技初创公司Retro Biosciences启动。并计划使用基因工程使细胞…

chatgpt赋能python:Python编程技能如何成为兼职挣外快的利器

Python编程技能如何成为兼职挣外快的利器 Python是一种广泛应用的编程语言,而且高效、易用。随着互联网和人工智能行业的不断发展,越来越多的人急需掌握Python编程技能。如果你是一名有10年Python编程经验的工程师,那么你的技能可以通过兼职…

智谱研究报告:揭秘ChatGPT背后的AI“梦之队”

2022年11月30日,OpenAI公司(美国致力于人工智能研究的非营利机构)发布了由大型语言模型驱动的自然语言处理工具ChatGPT。该工具通过学习和理解人类语言,能够与用户进行高质量对话,甚至还能撰写邮件、视频脚本、文案、代…

ChatGPT 团队阵容揭秘!太强了。。。

点关注公众号,回复“1024”获取2TB学习资源! 最近ChatGPT简直不要太火! 自从它横空出世之后,“某某某公司正在引进ChatGPT替代员工的工作”、“某某学生用ChatGPT代写论文”、“各大学明令禁止学生使用ChatGPT完成作业”等等新闻层…

技术狂飙,ChatGPT迎来iPhone时刻!

OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app。 瞬间冲上苹果商店免费榜第二名,效率榜第一名。 ChatGPT 的真「iPhone 时刻」来了,从现在起,我们可以在 iPhone 上使用 ChatGPT 了。随时随地用,中文语音精准识别&#xff0c…

微软推出 Office 365 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 28 日,在 2005 年的今天,腾讯 Q 店曝光,标志着腾讯进军 C2C 领域。当时国内 C2C 市场一片混战,淘宝、易趣、…

微软内部遭遇 AI 硬件短缺,被迫实施配额制;Docker 将清退开源组织|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

月费 19 美元,GitHub Copilot 企业版上线,你乐意买单吗?

整理 | 何苗 出品 | CSDN(ID:CSDNnews) 近日,微软旗下的 GitHub 发布了 Copilot 企业版,推出了一个名为“Copilot for Business”的新计划。每个用户每月仅需 19 美元就能享受企业级服务。 简单来说&#xff0c…

如何用 ChatGPT 和你的卡片笔记对话?开源应用 Quivr 尝试

卡片 我 非常喜欢使用卡片笔记。其优点明显,例如能显著减轻写作压力。在你面对空白屏幕时,写一篇文章的压力可能会很大,而随时三言两语记录卡片笔记则显得更为轻松。由于笔记以卡片形式存在,可以进行大量重组复用,对于…

AI革命!揭开增长最快互联网应用ChatGPT面纱

这个春节,整个科技领域,最火爆的事情,莫过于人工智能领域的ChatGPT了。OpenAI是一家美国的人工智能公司,成立于2015年12月。这是一家没有商业模式的公司,主打非盈利性的人工智能项目。2022年,12月初&#x…

Postman进行chatGPT调用

请求: {"prompt": "中国为什么不能用chatGPT","temperature": 0.7,"top_p": 1,"model": "text-davinci-003","max_tokens": 2048,"frequency_penalty": 0,"presence_penalt…

chatGPT deBug解决管理员登入,服务器返回401,没有拿到数据

问题复现: 连接钱包后,会调用函数,弹出窗口让用户签名 if (signatureMessage) {await signMessageAsync({message: signatureMessage,});dispatch(changeHasLoggedToTrue());}有了签名后,会调用signIn来设置本地存储 signIn函数…

程序员写代码与厨师做菜、音乐家作曲、诗人写诗——其实,这是一篇程序员做饭指南

与“瓶子”探讨做饭,谈到 AI robot 做饭机器人,我想,菜谱在此,结合 GPT-10 和 robot,一定是可以实现的吧。 特此记录。——禅与计算机程序设计艺术 2023.4.7 目录 前言 程序员做饭指南 基础知识——做饭基本术语 做菜专业术语 油温判断技巧及常见温度和单位换算表 附…

Chat GPT横空出世,会替代程序员吗?

现实版“moss”? 最近,科技界、金融界、教育界,都被ChatGPT刷屏了。ChatGPT突然蹿红,出乎了所有人的意料,包括团队。但大风之下,争议也随之而来。什么是ChatGPT?简单来说就是一台“地表最强聊天…

让ChatGPT帮我们CRUD、重构代码、修BUG

点击上方“Java基基”,选择“设为星标” 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

让ChatGPT帮我写shell脚本, 结局很感人

七问ChatGPT, 剑指shell脚本编写 step1: 初问step2: 再问step3: 三问step4: 四问step5: 五问step6: 问个derstep7: 解决问题step8: 小问一下关于ChatGPT思考 昨天浏览一篇关于脚本的技术文章的时候, 偶然看见一篇文章中写道关于mysql备份的脚本. 但是这个脚本时基于本地的MySQ…

不写代码、年薪百万,带你玩赚ChatGPT提示工程-高级提示

文章目录 前言一、Zero-Shot提示二、Few-Shot 提示Few-shot Prompting 的局限性 三、Chain-of-Thought Prompting四、Zero-Shot CoT五、Self-Consistency六、Generated Knowledge 提示七、Automatic Prompt Engineer (APE)总结 前言 随着ChatGPT的大火,提示工程在大…

ChatGpt如何注释长代码?(注释代码、添加注释)(api key)

OpenAI的GPT-3模型单次最多支持处理4096字节的会话。如果您的代码很长,导致它只能输出一半,您可以考虑以下几种解决方案: 分段发送请求:您可以将代码分为若干段,然后分别发送请求,得到每一段的注释。 使用…

为什么 ChatGPT 输出时经常会中断,需要输入“继续” 才可以继续输出?

作者:明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐…

人工智能ChatGPT 体验案例:使用ChatGPT实现java扫雷小游戏

前言 火了很长一段时间的ChatGPT、注册使用需要国外的手机号 3.1 计算机专业知识类问题 … 3.2 生活常识类 3.3 情感类 3.4 扫雷小游戏案例 package com.atguigu.java3;/*** author zyz* version 1.0* data 2023/2/20 14:42* Description:*/import java.util.Scanner;publi…