多模态版ChatGPT,拿下视觉语言新SOTA, 代码已开源

点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送

文|羿阁 发自 凹非寺
源|量子位

2022年流行“文生图”模型,那2023年流行什么?

机器学习工程师Daniel Bourke的答案是:反过来!

这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。

6356dad55c9daefe86ac234fcdfe60d7.png

不仅是基础的“看图说话”功能,写情诗、讲解剧情、给图片中对象设计对话等等,这个AI都拿捏得稳稳的!

比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材做菜步骤

f760b253b74fd2ee4fbd3a0ce92fdba6.png

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!

ca81b6a4d114353fcb5677f8c6cfbe8e.png

这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。

最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

9064ace18263b4b15c2d88b133b1ea07.png

作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。

bc576cc7fa54f35017028fe9925b1d43.png

那么,BLIP-2神奇的地方还有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

8928f8a59762b6a5b02338099de57ee1.png

给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。

dde040495aaecb22b403976f594388f5.png

在对人类神态的拿捏上,BLIP-2同样把握得非常准确。

被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。

c818031a9b1f012e826622406c5252f8.png

更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话:

8992cfce3e5d7b9dae23985c2694d965.png

它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。

22410250817955c90a64aa979c7277c2.png

这不光理解能力满分,文学造诣也相当强啊!

76c16da5a67de596bbdef9bc2bd48fe1.png

让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:

猫: 嘿,狗狗,我能骑在你背上吗?
狗: 当然,为什么不呢?
猫: 我已经厌倦了在雪地里行走。

ac272e03223ce1b1c93fede8caab82e7.png

那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着,每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练:

第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。

2cdde5ed7c015337ea508918d86ae2bd.png

为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。

最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

ef37bba3b13f7e75416e791ddf713878.png

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。

而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。

09252e13d88f4668e2e8e17f68cbfd60.png

值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:

每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

84a83b85f8020bb70a3251e8b844a33a.png

第一作者为Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~

论文链接:
https://arxiv.org/pdf/2301.12597.pdf

GitHub链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26699.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

担心工作被AI取代?大模型再造一个“黄金时代”

文|光锥智能,作者|雷宇 随着人工智能在数据、算力、算法、工具、模型等方面的技术推进,AI已经实现由实验室到产业应用的层级跃升,更广范围、更深层次地影响着人们的经济发展与生产生活方式变革。 IDC数据显示&#xf…

从 Linus Torvalds 的成功中,我发现了这五个“残酷”真相

摘要:在每一位成功人士身上,我们总希望找出其与众不同之处,并以此来勉励自己。但事实证明,成功之路上还有许多我们忽略的残酷真相。 链接:https://medium.com/codex/5-harsh-truths-from-linus-torvalds-406ab20cea02 …

小米手机任意版本MIUI安装Google Play服务

声明:因年代久远,本文方法已失效。 2022-05-17:如有需要,可以试下直接下载安装gmail,因本人无测试环境,不保证可行 链接:https://share.weiyun.com/OknKLICv 打开小米应用商店 → 搜索“gmail…

小米商城项目

一、基本要求 1.1、小米商城PC Web 5-10个页面 功能:产品列表,注册,登录,产品详细,产品分类列表,瀑布流展示商品 数据使用ajax从服务器获得,技术不限(.Net,java,php,node.js,python.…

支付系统设计三:渠道网关设计02-客户端报文解析

文章目录 前言一、后台配置管理1.1 渠道配置1.1.1 渠道基本信息新增1.1.2 渠道交易类型配置1.1.3 渠道商户信息配置1.1.4 账户配置1.1.5 交易类型机构配置 1.2 渠道通讯配置1.2.1 内部渠道通讯1.2.1 外部渠道通讯 1.3 资源配置1.4 证书管理1.5 路由配置 二、运行时逻辑处理1. 控…

完美解决小爱同学蓝牙音箱(包括触屏版)连接电脑后找不到音频设备问题

前言: 最近入手了一台Redmi小爱同学触屏版8Pro,发现正常连接手机蓝牙是可以播放音乐的,但是连接电脑后虽然提示连接成功,但是不能播放音乐,在选择播放设备处没有显示该设备,如下图是正常的状态 (正常的样子…

小米互联网音箱首次促销 你买还是不买?

小米互联网音箱自去年底发布以来,凭借着时尚外观,海量内容,还有不俗音质创造了屡次售罄的佳绩。而近日,这款高性价比互联网音箱再度升级,可正式支持接入米家,从而实现更强大的远程控制功能。为了感谢广大消…

智能音箱的差评|为什么我要买一堆垃圾回来吃灰!

我终于没有躲过智能音箱的坑,还是在618的时候买了叮咚2代回来玩。 作为第一批亚马逊echo智能音箱的体验用户,这次中文版的坑是补踩了。 用了一个月,叮咚同学目前吃灰中,每天唤醒次数不超过一次。 在痛心疾首的检讨中,认…

多用户分销商城系统开发及多商家入驻的功能介绍

多用户商城是一种电子商务平台,允许多个商家在同一个平台上出售自己的产品或服务。这种商城模式可以吸引更多的消费者,因为他们可以在同一个网站上找到多个商家的产品,而不需要分别访问不同的网站。同时,多用户商城也可以为商家提…

在智能家居音箱领域上的音频功放芯片IC

目前,音频功放芯片主要应用于手机、音响、车载、可穿戴设备、计算机设备、智能家居等领域。随着人机交互逐步落地,从应用广度上对音频功放芯片需求完全放开,截止2021年以“智能音箱”、“智能家居”为代表的音频智能终端也持续放量&#xff1…

支付渠道网关设计2.0版本

文章目录 支付渠道网关设计2.0版本前言概述业务架构设计技术分层设计友情链接 支付渠道网关设计2.0版本 前言 之前写过一篇支付渠道网关设计的文章https://shanglishuai.blog.csdn.net/article/details/103545708 随着业务的复杂性,对支付业务的理解也越来越深刻…

全志成智能音箱最大赢家,索尼、腾讯、小米、百度、京东都在用,累计出货超千万台

全球范围内智能音箱销量都在持续增长,报告显示,在2018年第一季度的出货量已经超过900万台。中国已经成为仅次于美国的全球第二大智能音箱消费市场,其中国产的智能音箱产品更是占据了大头。我们都知道智能音箱的“智能”主要依靠它的心脏&…

小米荣获首张智能家居系统用户体验水平泰尔测评证书

近日,“小米全屋智能家居系统V1.0”荣获中国泰尔实验室颁发的首张智能家居系统用户体验水平泰尔测评证书。中国泰尔实验室依据中国通信标准化协会团体标准T/CCSA 357-2022 《移动互联网智能家居系统 用户体验评测方法》对其进行评估测试,测试总分达到用户…

小米商城官网(登录页,首页,详情页,我的购物车页,我的订单页,确认订单页)HTML+CSS+JS

文章目录 前言一、登录页二、首页三、我的购物车页四、我的订单页五、确认订单页六、详情页七、整体结构和效果图总结 前言 仿小米商城官网项目是本人实训内容,实训老师带着做的首页和登录页,本人在此基础上加入了我的购物车页,我的订单页&am…

小米网关+HomeAssistant获取智能硬件数据

因为想获取小米智能网关的温湿度传感器数据的可视化,希望可以和智能网关交互。 最后的技术方案采用:dockerHomeAssistant 1、安装docker 我是在mac上做的,所以去官网下载,一键安装 2、下载HomeAssistant镜像 docker pull hom…

小米智能家居接入智能家居平台homeassistant的方法

[原文] 在安装和设置完homeassistant之后,我们终于来到激动人心的一步——把智能家居产品接入homeassistant了。把智能家居产品接入homeassistant智能家居平台之后,就可以实现用亚马逊echo智能音箱或叮咚智能音箱语音控制智能家居产品;也可以实现打破品牌壁垒,让不同的品牌…

【笔记】可能是唯一能让天猫精灵方糖播放本地音乐的智能方案

微信关注公众号 “DLGG创客DIY” 设为“星标”,重磅干货,第一时间送达。 前言 如上图所示,我家也有个同款的天猫精灵方糖,“买了”(好像是个奖品)好几年了,利用率不高,主要因为资源不…

小度音箱音响酒店版使用说明

小度酒店版无屏音响配网、管理流程 1、下载“小度在酒店”APP 下载路径:https://www.hnzhzn.cn/xiaodujd.apk (用浏览器打开,目前只支持安卓手机安卓) 2、登录“小度在酒店”APP 使用酒店方提供的、并已经授权酒店使用的百度账号登录,登录后…

【小米商城-1 注册功能】

1.搭建环境(略) 2.用户名验证 1、通过创建一个QueryRunner对象创建数据库连接池 2、编写Sql查询语句 3、执行sql,返回user,如果数据库查到数据则返回数据,否则返回为空,然后将数据传到业务层也就是我们的s…

开源版GPT-3来了?Meta发布LLaMa,多数任务效果超越GPT-3,已开源

源 | 量子位 编 | 泽南 ChatGPT的热度稍有平息,蛰伏已久的Meta就迅速放出“大招”: 一次性发布四种尺寸的大语言模型LLaMA:7B、13B、33B和65B,用小杯、中杯、大杯和超大杯来解释很形象了有木有(Doge)。 还声…