教ChatGPT学会看图的方法来了

羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

2022年流行“文生图”模型,那2023年流行什么?

机器学习工程师Daniel Bourke的答案是:反过来!

这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。

d02ac5f841d30697f27edd75cd49d086.png

不仅是基础的“看图说话”功能,写情诗讲解剧情给图片中对象设计对话等等,这个AI都拿捏得稳稳的!

比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材做菜步骤

82073b9da866e9ecbb3cd835d5de2b3d.png

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!

a05793c14e7a89006d6462cad2316aa9.png

这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。

最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

25152f742774c92714f97c31a812e0ee.png

作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。

f766e4a7ed0d1d7074bf185559e2d001.png

那么,BLIP-2神奇的地方还有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

22f9452e8f69a711268bdc2eb72fe9ce.png

给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。

6116cc06747f54b5df92a5112dfd6202.png

在对人类神态的拿捏上,BLIP-2同样把握得非常准确。

被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。

5276b8d490c531bf3451890f3982a13d.png

更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话:

a439f7c5a3e3934104c518f5635a8b59.png

它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。

c465e9f22f827bec0e3328801e98e58a.png

这不光理解能力满分,文学造诣也相当强啊!

da4d1685928d3b7fb4ad8afe74e820bc.png

让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:

猫: 嘿,狗狗,我能骑在你背上吗?

狗: 当然,为什么不呢?

猫: 我已经厌倦了在雪地里行走。

badab86a761afc8f90ae3302ff14d260.png

那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着,每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练:

第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。

63b4432b4dec76e5010e29970d1c96e2.png

为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。

最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

c6d3576b5face12b5d6470101cc66ce3.png

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。

而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。

f74af5074c25180327c9293cefd2e1b2.png

值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:

每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

6b5b31fdb5fd318321b63a039bcfd6ef.png

第一作者为Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~

论文链接:
https://arxiv.org/pdf/2301.12597.pdf

GitHub链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2

参考链接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

246711af54d448f475f6576a6ab6fb9c.jpeg

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2113.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无聊写个 chatgpt 玩玩!这不得试一试 openai 的聊天和绘画功能

chatgpt 最近很火。使用 chatgpt 问一些问题还是很有用的。比如面试题,面试题的答案。简直不要太爽。 不过闲来无事,也使用 openai 提供的api ,写了几个小页面,可以进行聊天,和绘画。 项目放在 github 上了&#xff…

精心设计的ChatGPT网页版源码最聪明的镜像ChatGPT

demo软件园每日更新资源,请看到最后就能获取你想要的: 1.精心设计的 ChatGPT网页版源码 最聪明的镜像ChatGPT ChatGPT网页版源码 最聪明的镜像ChatGPT 支持GPT3.5turbo以及GPT4.0turbo的各种版本模型 精心设计的 UI,响应式设计,支持深色模式 极快的首…

CHATGPT制作AI绘画

CHATGPT是一种基于机器学习和自然语言处理技术的人工智能应用。它可以生成自然语言文本,并且可以通过训练来学习各种不同的技能。 其中,CHATGPT制作AI绘画指的是将CHATGPT应用于绘画领域,训练CHATGPT以生成艺术作品。 CHATGPT生成绘画的基本…

一个可以免费白嫖ChatGPT和AI绘画的网站

今天给大家分享一个可以免费白嫖ChatGPT的网站:https://www.aitest.me/ 不需要登录,完全免费,不需要魔法 2. 网站集成了200多个Prompt提示词 ​ 3. 支持GPT4和联网模式 ​ ​ 4. 可以进行英语口语训练 ​ 5. 可以解析文档 ​ 6. 傻瓜式AI绘

2023最新AI创作系统/ChatGPT商业运营版网站程序源码+支持GPT4+支持ai绘画(MJ)+实时语音识别输入+免费更新版本

2023最新AI创作系统/ChatGPT商业运营版网站程序源码支持ai绘画支持GPT4.0实时语音识别输入文章资讯发布功能用户会员套餐免费更新版本 一、AI创作系统二、系统介绍三、系统程序下载四、安装教程五、主要功能展示六、更新日志 一、AI创作系统 1、提问:程序已经支持G…

【ChatGPT案例】ChatGPT帮你画漫画

【ChatGPT案例】ChatGPT帮你画漫画 这几天,心中一直有个想法:采用漫画的形式科普ChatGPT的发展过程。 但是漫画创作明显是个专业活,首先你需要好的构图想法,然后把心中的想法画出来。 怎么办?又该ChatGPT展现真正的…

ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~

文章目录 ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~HuggingFace 简介HuggingChat 登场展望 ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~ 二话不说上链接 htt…

ChatGPT与AI绘画,该上车了!

前几天的GPT-4发布会,大家都看了吗? ChatGPT有多么火爆多么强大?相信不需要再做解释,网上的各界精英早就讨论过无数次了。 自然语言处理工具这一新赛道,国内的同行也在积极参与,百度刚刚开了发布会&#xf…

2023全新UI商业版ChatGPT网页版源码V4.7.7+支持Ai绘画

正文: 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入数据库 PHP选择:7.3 访问网页即可! 配置APIKEY,登录网站后台自定义配置,不然网站无法使用! 网站后台地址/admin 默认账号:admi…

如何利用ChatGPT画图,无需插件,原生ChatGPT,实测有效

ChatGPT 很智能,很聪明。但是它被困在了互联网里,只能通过网页上的文字,和我们交流。 就像历史上的一个个有趣的灵魂,我们只能通过书中的文字和故事,才能领会到他们的千古风流。 纯文字的方式,还是太单…

最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+友邀请分佣功能+后台一键更新+网站后台管理+永久更新!

最新ChatGPT商业运营版网站源码支持AI绘画支持用户会员套餐友邀请分佣功能后台一键更新网站后台管理永久更新! 程序已支持ChatGPT4.0、Midjourney绘画、GPT3.5 API绘画、语音识别输入、用户会员套餐用户每日签到功能后台管理一键更新版本。支持手机电脑不同布局页面…

ChatGPT辅助AI绘画攻略

AI工具一定是近期设计圈爆火的话题,ChatGPT和Midjourney这两款工具不知道大家都体验过没有? 如果你是一个懒惰的艺术家,又或者作为设计师的你今天脑海里没有任何画面的情况下,那么ChatGPT和Midjourney这两款工具可以帮你解决&…

最新ChatGPT网站源码运营版+支持ai绘画(Midjourney)+GPT4.0+GPT官方3.5key绘画+实时语音识别输入+后台一键版本更新!

最新ChatGPT网站源码运营版支持ai绘画GPT4.0GPT官方3.5key绘画实时语音识别输入后台一键版本更新! 1.网站系统源码介绍: 程序已支持ChatGPT4.0、Midjourney绘画、GPT3.5 API绘画、语音识别输入、用户会员套餐用户每日签到功能后台管理一键更新版本。支…

如何使用ChatGPT辅助AI绘画?

如何使用ChatGPT辅助AI绘画? AI自动化内容生成(AIGC)是一种利用人工智能技术生成新内容的方法。它可以快速、自动、准确地从大量原始数据中生成新内容,大大提高了内容创作效率。AIGC 使用机器学习算法,自动识别文本特…

chatGPT AI绘画

chatGPT的火爆带动了很多的想象,其实国内的厂商也实现过类似的功能,但是只是在影响力上没有那么大所以不为人知,但是有一点是肯定的那就是AI创作正在以前所未有的速度侵入这个世界, 可能十年之内我们看到的任何人类产生的事物都将…

ChatGPT是怎么实现的?为什么它这么有效?

ChatGPT 能够自动生成类似于人类写作的文本,这一点非常引人注目,也令人意外。但它是如何实现的?为什么它能够如此出色地生成我们认为有意义的文本?我的目的是在这里概述ChatGPT内部的运行情况,并探讨它能够如此出色地产…

ChatGPT是如何一本正经地胡说八道的?

阅读本文大约需要5分钟 大家好,我是恩哥。 最近几天,刷屏朋友圈的只有两件事:ChatGPT横空出世,以及如何买药预防新冠。 恩哥第一时间体验了几天ChatGPT,总结下来就一句话:这个AI的聊天能力已经足以在很多…

用ChatGPT做表格真香!只需动嘴提要求和复制粘贴

明敏 发自 凹非寺量子位 | 公众号 QbitAI 托ChatGPT的福,梦想中让Excel自己统计数据,现在成真了。 △ 图源:抖音秦远国际物流 只需输入要求、数据,ChatGPT就能从头做个表。 想要增加行列、进行表内计算,通通不是问题&a…

chatGPT革了谁的命?

最近朋友圈、各大论坛、网站、短视频等平台都在热议ChatGPT4,ChatGPT确实已经引发了部分网友的失业焦虑,担心内卷。 ChatGPT是由Open AI公司开发,Open AI是一家2015年成立的创业公司,创始人包括美国创业孵化器Y Combinator前总裁阿…