达摩院开源多模态对话大模型mPLUG-Owl

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
在这里插入图片描述

  • 论文链接:https://arxiv.org/abs/2304.14178
  • 项目链接:https://github.com/X-PLUG/mPLUG-Owl
  • 在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summary

mPLUG-Owl展现出强大的图文理解能力:
在这里插入图片描述
以下是本文作者的试用结果:
在这里插入图片描述

本文贡献如下:

  • 提出一种新的模块化的训练多模态大模型的方式
  • 提出测评集OwlEval,以便测试多模态模型在视觉相关任务上的能力
  • 开源模型代码,demo代码以及模型权重文件,方便研究者进行进一步的研究。

mPLUG-Owl

模型架构

在这里插入图片描述

本文提出了 mPLUG-Owl,其整体架构如图2所示。它由视觉基础模型 f V f_V fV、视觉抽象模块 f K f_K fK 以及预训练语言模型 f L f_L fL 组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。

训练策略

在这里插入图片描述

如图1所示,目前存在三种主要的训练策略来训练端到端的多模态LLM模型。这些策略分别是:

  1. 在预训练和指令微调阶段冻结视觉模块和语言模块,调整有限的参数,如MiniGPT4。
  2. 冻结视觉模块,训练语言模块,如Kosmos-1。
  3. 在指令微调阶段冻结视觉模块,训练语言模块,如LLaVA。

然而,这些模型都冻结了视觉模块的参数调整,从而限制了不同模态之间的对齐。此外,它们缺乏单模态和多模态数据的共同训练,难以有效地激发大型模型的各种潜能。

为了克服这些限制,mPLUG-Owl采用了一种不同的训练策略。首先,其使用多模态数据训练视觉模块,并冻结语言模块。这样可以让视觉特征贴合语言特征。然后,其使用多模态和单模态数据联合调整语言模块的LoRA参数,同时冻结视觉模块。这样,模型可以学习多样化的单模态和多模态指令,同时具备单模态和多模态多轮对话能力。

实验

定量分析

在这里插入图片描述
在这里插入图片描述

如图3所示,本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D,代表对应的生成质量依次递减。从测评结果中可以看出,mPLUG-Owl 取得了最佳的结果。

为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能,本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话,分别进行人工评估。结果如图4所示。可以发现,mPLUG-Owl 具有较强的多轮对话能力。

消融实验

在这里插入图片描述

为了探究训练策略与指令数据的使用对模型结果的影响,本文还展示了消融实验的结果,如表2所示。
在这里插入图片描述

此外,本文还发现了一个有趣的现象:多模态数据的学习可以提高模型的文本单模态能力。正如表3所示,使用ChatGPT对生成结果进行评分发现,仅调整LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调整的Alpaca。

定性分析

在这里插入图片描述

从图6中可以发现,mPLUG-Owl有较强的多轮对话能力。
在这里插入图片描述

从图7中可以发现,mPLUG-Owl还具有很强的推理能力。
在这里插入图片描述

尽管mPLUG-Owl已具有较强的图文理解能力,但和GPT-4相比仍有一些差距。如图8所示,mPLUG-Owl虽然已经正确理解了笑点,但错误地将VGA插头识别为了USB插头。
在这里插入图片描述

图9展示了一些额外的笑话解释例子。
在这里插入图片描述

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关连能力。
在这里插入图片描述

如图11所示,尽管mPLUG-Owl在训练阶段仅接触了英文数据,但其展现出了有趣的多语言能力。这可能是因为mPLUG-Owl中的语言模块采用了支持多语言的LLaMa,从而出现了这一现象。
在这里插入图片描述

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力。测试结果如图12所示。
在这里插入图片描述
在这里插入图片描述

如图13、14所示,mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。
以下是更多有趣的例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更多开源应用

智能通行团队模型、论文、博文、直播合集,点击此处浏览。

​DamoFD人脸检测0.5G

RetinaFace人脸检测关键点模型

人脸活体检测模型-IR

人脸活体检测模型-RGB

FLCM人脸关键点置信度模型

人脸表情识别模型FER

人脸属性识别模型FairFace

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52687.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt真的太牛了!

真的太多人在研究了解chatgpt了 chatgpt仅仅是发展到3.5版本,就已经火的一塌糊涂,两个月活跃用户破亿,创历史记录。 原因是什么? 当然是GPT不仅仅是一个答案平台,还是一个拥有超智慧的得力助手!再形象一…

ChatGPT超智慧AI真的那么牛吗?

ChatGPT是一种基于人工智能技术的聊天机器人,它可以模拟人类的对话方式,与用户进行交互。ChatGPT的出现为企业和个人带来了很多机遇,以下是一些抓住ChatGPT带来的机遇的建议: 1. 提高客户服务质量:ChatGPT可以为企业提…

职场人必备:工作述职报告PPT模板

作为一个职场人,不管你是高管还是普通员工,都少不了要做年度或者季度总结,亦或是述职报告、会议报告等类型的总结报告。鉴于很多人都有内容,但是无法形成框架,并且做出来的PPT也非常丑的问题,我们给大家提供…

构建聊天客户界面,包括消息显示文本框、消息发送文本框、选择好友的选择框、发送按钮。并为发送按钮添加事件,把消息显示在消息窗口中。

题目:构建聊天客户界面,包括消息显示文本框、消息发送文本框、选择好友的选择框、发送按钮。并为发送按钮添加事件,把消息显示在消息窗口中。 1.创建窗体与按钮、添加实训需要的组件 JTextField text ;//文本框JButton button ;//按钮JTextA…

【元宇宙欧米说】从个人创作者的角度聊聊NFT

普通人如何进入元宇宙?什么是在Web领域常见的坑?NFT创作方式的未来发展方向在哪? 9月2日下午三点,cat civilization创作者cat小浪将以“从个人创作者的角度聊聊NFT”为题,分享自己进入元宇宙、web3领域的经验&#xf…

常用的画图工具(UML图、业务流程图、时序图)

画图工具 http://draw.io http://draw.io是一个免费的画图工具,为用户提供最强大、易用的作图功能,既支持在线画图,也支持离线画图! 支持创作系统架构图、流程图、UML图、时序图、思维导图、组织结构图、网络拓扑图、BPMN、UI界…

程序流程图

程序流程图 简介基本结构作用及优缺点常用的标准符号 简介 程序流程图是用规定的符号描述一个专用程序中所需要的各项操作或判断的图示。这种流程图着重说明程序的逻辑性与处理顺序,具体描述了微机解题的逻辑及步骤。当程序中有较多循环语句和转移语句时&#xff0…

数据流程图画法

数据流图的绘制分三步走: 1、确定系统的输入输出; 2、由外向里画系统的顶层数据流图; 3、自顶向下逐层分解,绘出分层数据流图。 销售管理系统的分层数据流图 接下来,我们作进一步解读: 一、理解数据流…

如何绘制业务流程图?

绘制业务流程图是产品经理必备掌握的技能之一,尤其是对 B 端产品经理来说,要分析好需求写好一篇完整的 PRD 文档,首先就是绘制正确的业务流程图。 什么是业务流程图 在开始讲业务流程图之前,我们需要先了解一下业务流程图的定义。…

流程图怎么画?超详细教程,各种高逼格流程图轻松搞定!

无论是在办公还是在生活中,流程图都是一个必不可少的重要辅助工具,大到建筑设计小到生活计划都需要使用流程图来帮助我们更好的完成每一件事情! 但是流程图怎么做呢?很多朋友还是不知道的,今天小编给大家带来快速绘制…

程序流程图N-S图PAD图

在需求分阶段经常使用3种方法去剖析我们所面对的业务。 程序流程图 任何复杂的程序图都应由5种基本控制结构组成或嵌套而成。 盒图(N-S图) Nassi和Scheiderman提出了一种符合结构化程序设计原则的图形描述工具,叫作盒图,也叫做…

AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测

前言 “AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现…

漫画人工智能下象棋,走一步,能看几步?

老师爱下象棋,就是谁也赢不了。 去公园下了一盘棋 ,第一步我就走了一个当头炮 ,剩下的都是大爷们帮我走的。 结果,我输了。 经过他们的总结研究,我第一步走错了 。 2022年,象棋AI下棋机器人,…

Python实现照片卡通化,一拳打破次元壁 | 机器学习

目录 前言 项目结构 核心代码 总结 前言 接着我上一篇开源机器学习的使用:如何将照片变成卡通图,animegan2-pytorch机器学习项目使用 | 机器学习_阿良的博客-CSDN博客 我还是继续把项目稍微魔改一下,依然变为一个python文件就可以执行单…

人工智能画画 yyds

最近 AI 绘画火的一塌糊涂,你输一句话 AI 自动把你描述的场景画出来。本文盘点 GitHub 上几个较火的 AI 绘画开源项目。 本期推荐开源项目目录: 1. Latent Diffusion 2. PI-REC 3. Disco Diffusion 4. DALLE 01 Latent Diffusion Stable Diffusion 是 St…

人脸动漫化AnimeGAN V2的具体实施步骤

本文提供应对课设,毕设的小伙伴们一些参考:项目是参照网络上比较火的一个项目AnimeGAN V2,然后当时的一个课题也是跟这个相关,然后我是直接调用这个的,但是中间遇到过很多的问题,现在想说明一些问题&#x…

详解生成对抗网络(GAN)- 体验AI作画

目录 1.GAN是什么? 2.GAN的计算 3.编写GAN的小小示例 4.GAN的发展与应用 5.AI作画体验-Disco Diffusion 1.GAN是什么? 2014年,因为朋友邀请协助一个计算机生成图像的项目,lanGooddellow发明了GAN(Generative ad…

人工智能下象棋,走一步,能看几步?|漫画

图文原创:谭婧 谭婧老师爱下象棋,就是谁也赢不了。 去公园下了一盘棋 ,第一步我就走了一个当头炮 ,剩下的都是大爷们帮我走的。 结果,我输了。 经过他们的总结研究,我第一步走错了 。 2022年,象…

参考文献怎么查找,去哪里查找?一篇文章讲明白这些问题

在我们撰写论文查找参考文献时,往往不知道从哪里入手,本文小编就针对下面这三个方面给大家详细讲解下: 一、查找参考文献方法 二、参考文献资料查找网站 三、参考文献格式规范 一、查找参考文献方法: 1、知网全球最大的中文数据…

与外文文献有关的那些事儿

目录 SCI是什么 一、SCI分区依据? 二、如何查找外文文献 1.常用的外文文献数据库​编辑 2.Web of Science数据库 总结 SCI是什么 SCI是美国《科学引文索引》的英文简称,其全称为:Science Citation Index,,创刊于1961年&…