中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作...

394d761a102956a99e34b36878fece29.png

进NLP群—>加入NLP交流群

夕小瑶科技说 原创
作者 | 小戏、ZenMoore
在 GPT-4 的发布报道上, GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展无疑,面向所谓的 AGI(通用人工智能),多模态显然是必经之路。但是遗憾 GPT-4 的图片输入能力尚且没有完全放开,而即使放开我们对 GPT-4 的模型结构和训练方法也知之甚少。 6a54a8d1a81760edb2575362f103d5e5.gif

而最近,中科院自动化所带来了一项有趣的工作,推出了多模态的大规模语言模型 X-LLM,同时支持图片、语音以及视频等多种模态信息作为大模型的输入,并且展现了类似于 GPT-4 的表现。比如当输入图像时,X-LLM 可以识别图像位置、理解图像中的食物。当输入视频时,X-LLM 也可以总结视频内容,检索电影片段的电影名称,基于视频内容结合图像回答问题等等。以论文中的一张图片为例,当用户希望 X-LLM 介绍输入的图片时,X-LLM 准确的理解了图片相关于游戏王者荣耀,并且给出了一定的介绍。

4f7045184453917928553ed6f9c70d4a.png

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的

c4ff91a6ee6b06d3e3904fef3d1f7cdb.png

除此之外,这篇工作也开源了相关的代码和一个简洁高质量的中文多模态指令数据集,帮助后续工作使用 X-LLM 的框架进行研究,项目的主页与论文地址如下:

论文题目:

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

论文链接:

https://arxiv.org/pdf/2305.04160.pdf

项目主页:

https://x-llm.github.io/

在进入论文之前,首先来想想一个问题,GPT-4 是如何获得其强大的多模态能力的呢?论文作者给出了一个假设:“GPT-4 的多模态能力来源于其更先进,更大的语音模型,即 GPT-4 是用语言的形式表达出了其他模态的内容”

这个假设也就是讲,需要将多模态的数据“对齐”到语言数据之中,然后再投入大模型以获得多模态能力,在这个假设的基础上,作者提出了 X2L 接口,其中 X 意味着多模态数据,而 L 则表示语言,X2L 接口即将多个单模态编码器与一个大规模语言模型(LLM)进行对齐。其中,图像接口 I2L 采用 BLIP-2 中的 Q-Former,视频接口 V2L 复用图像接口的参数,但是考虑了编码后的视频特征,语言接口 S2L 采用 CIF 与 Transformer 结构将语音转换为语言。整个 X-LLM 的训练包含三个阶段,分别是(1)转换多模态信息;(2)将 X2L 对齐到 LLM;(3)将多模态数据整合到 LLM 中。

33c322319ba8a4b0b08e9eba93b08fd9.png

具体而言,多模态信息转换的三个接口设计如下:

  • 图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;

  • 视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;

  • 语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF  模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

5064b75a6a9aa7f6ab3a239078563327.png

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到  Forbidden City。

a527270fc1d03e677cfc28c50bfb0abc.png

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

1e6ed91b916078459072102030d9e8aa.png

此外,在视频问答方面,X-LLM 也表现得相当不错,对于输入的水母游动的视频,X-LLM 可以颇为准确的为视频做出标题,并配以文字

d7db082ab1e6b611de054b4a7014b23e.png

对于敏感信息,X-LLM 也能做到识别

a7ec1365df3335dcfb7ea7f56332ccc7.png

除了 X-LLM 这样一个将大规模语音模型向多模态方向扎实推进了一步的框架外,作者也意外的发现,在英文数据集上训练的 Q-former 的参数可以转移到其他语言(汉语),并仍然保持有效性。这种语言的可传递性极大地增加了使用英语图像文本数据和其训练的模型参数平移到其他语言中的可能性,并提高了在其他语言中训练多模态 LLM 的效率。

透过这篇工作,或许我们可以一窥多模态大模型光明的未来,回到开头,多模型必然是 AGI 的必经之路,那么以语言为基准统一多模态可不可以实现呢?那就要看跟随这篇工作出现的未来了吧!


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28517.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有没有哪个瞬间,让你突然对ChatGPT感到失望? | AIGC实践

不知道你是否和我一样,在第一次使用ChatGPT输入Prompt,并得到答复的那一刻,都会忍不住地赞叹一句:握草。 但随着时间慢慢拉长,体验不断深入,想法也会慢慢改变…… 主题图 by Midjourney。Prompt&#xff1a…

Linux系统调用(2.哈工大OS实验二)

Linux系统调用与哈工大实验二 实验要求 此次实验的基本内容是:在Linux 0.11上添加两个系统调用,并编写两个简单的应用程序测试它们。 具体实验细节可以参考蓝桥云: https://www.lanqiao.cn/courses/115/learning/?id374&compatibility…

排好队,一个一个来:宫本武藏教你学队列(附各种队列源码)

文章目录 前言:理解“队列”的正确姿势一个关于队列的小思考——请求处理队列的两大“护法”————顺序队列和链式队列数组实现的队列链表实现的队列 循环队列关于开篇,你明白了吗?最后说一句 前言: 哈喽!欢迎来到黑…

分享几个线上副业!!

线上副业 有哪些可以在线上运作就能赚取生活费的方式? 我这个暑假没有去打暑假工,因为疫情原因,一直待在家里,没有收入就不能出去玩,不能买漂亮衣服,就开始了一系列的线上兼职寻找,到处碰壁&…

学会Python如何去变现?副业月收入10000+了解一下

自学 Python 之后如果不去公司上班,自己一个人可以通过此技能挣什么钱? 逆天的Python,只要你掌握了相关技术,就可以靠它赚钱,具体怎么赚,我们来看看一位小哥哥的回答。 以我差不多四年的 Python 使用经验…

悟空问答赚钱副业项目,操作的好可月入10000+

我不知道你是否做过这种项目。这也是自媒体。如果你没有,你可以试试。收入不错。 有人可能会说悟空问答已经过时了。事实上,悟空问答每天仍能挣300元。好吧,我们已经取得了经验,在这里我们也与大家分享。 基本上,每个…

ChatGPT:编写一个带UI界面的计算器

代码: import tkinter as tkclass Calculator:def __init__(self, master):self.master mastermaster.title("Calculator")self.total tk.StringVar()self.entered_number tk.StringVar()self.entered_number.set(0)self.total.set(0)self.entry tk.…

使用Java进行编曲

一、编曲部分 1.1一丢丢乐理知识 简单普及下乐理哈,这样便于读谱 钢琴谱一行分两个部分 上面一行用右手弹(主奏); 下面一行用左手弹奏(伴奏)。 1.2 关于节奏 (1)、主奏与伴奏中支持输入的35个音符: 倍低音&#…

小米系列手机(包括红米,黑鲨)开启调试模式

1. 点击我的设备 进入设置主页面,点击我的设备,点击全部参数。 2. 点击MIUI版本 连续点击MIUI版本直到出现提示,开发者权限已开启。 3. 点击更多设置 返回设置,点击更多设置。 4. 查看信息 在更多设置中就能看到开发者选项。 …

小米手机超越苹果,成欧洲第二;马斯克特斯拉内部邮件:痛恨开会,少讲黑话;Spring 6.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

MiPush四种推送对象

文档中心 推送对象目前支持四种:RegID、别名、userAccount、标签。 RegID:针对单一设备推送消息。应用调用MiPushClient类的静态方法registerPush注册小米推送服务,注册的结果将通过PushMessageReceiver继承类的onCommandResult方法和onRec…

小米正式宣布:这种手机以后买不到了…

开头先问大家一个问题,你的手机屏幕尺寸是多少? 还记得当初乔老爷子发布 iPhone 时,称 3.5 英寸是人手握持的最佳尺寸。 不过,当时苹果显然没有考虑到奥尼尔这样体格魁梧的人的使用感受... 3.5 英寸,4.0 英寸&#xf…

MIUI金凡回应用户反馈小米手机发热情况

本文转载自IT之家 IT之家 6 月 17 日消息 小米产品总监、MIUI 体验总负责人金凡近期称,已正式成立了“MIUI 先锋小组”,集中解决大家反馈的各类体验问题,做好首席客服小组。接下来会以报告的形式将工作进度发在小米社区中,请大家…

原来这样可以优雅地解决小米手机后台弹窗权限问题

/ 今日科技快讯 / 7月23日,据外媒报道,微软宣布将向总部位于美国旧金山的人工智能研究公司OpenAI投资10亿美元,为其云计算平台开发AI技术。 / 作者简介 / 本篇文章转载自nodzhang的博客,分享了他对于小米手机后台弹出界面…

时薪15美元的ChatGPT外包工人,干的都是苦力活

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 自 ChatGPT 去年 11 月发布以来,让不少打工人陷入担心失业的恐慌中,也解决了部分人的“就业问题”。 34 岁的 Alexej Savreux ,就是其中之一。 作为 …

AutoGPT:全自动的人工智能助手

让 GPT-4 为你实现一切! 随着人工智能技术的飞速发展,GPT-4 作为强大的人工智能语言模型成为了众多应用场景的核心。今天,我们将为你揭秘一款具有革命性意义的 GPT-4 应用——AutoGPT!一款让你轻松操控 GPT-4,实现各种…

文心一言、GPT3.5及GPT4的应用测评对比

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 最新亲测国内可用ChatGPT使用教程(3分钟搞定) ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 Cha…

看New Bing回答世纪难题:女友和妈妈掉水里先救谁

1.女友和妈妈掉水里先救谁 今天好奇想看看New Bing怎么回答这种世纪难题 结果New Bing非常聪明,反手建议我不要直接回答这个问题,而是换个角度哄女朋友,带着点不甘心,我继续追问它 New Bing还是耍起了滑头,我开始怀疑…

“一天宕机三次”,为什么高并发这么难?

受访者 | 陈皓 作者 | 屠敏 出品 | 《新程序员》编辑部 高并发,并不是一个新鲜的话题,全互联网公司为之“费尽心思”多年,仍然无法完全逃脱卡顿、崩溃乃至宕机的宿命。 这不近日,一款名为“羊了个羊”的小程序游戏突然爆火&am…

美图终于等来AIGC的春天

作者|陈 妍 编辑|大 风 人类历史上,经历过三次科技颠覆时刻。 第一次是上世纪90年代,PC互联网的兴起,开始把全世界连接到一起。1995年,以雅虎为代表的企业,开创免费门户网站的互联网行业商业…