MM1: Methods, Analysis Insights from Multimodal LLM Pre-training

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

相关链接:arxiv
关键字:多模态学习大型语言模型预训练视觉语言连接混合专家模型

摘要

本文讨论了构建高性能的多模态大型语言模型(MLLMs)。特别地,我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器以及各种预训练数据选择进行仔细全面的消融实验,我们确定了几个关键的设计经验。例如,我们展示了对于使用精心混合的图像标题、交错的图像文本和纯文本数据进行的大规模多模态预训练,在多个基准测试中实现最先进的(SOTA)少样本结果至关重要,与其他已发布的预训练结果相比。此外,我们展示了图像编码器与图像分辨率和图像标记计数有重大影响,而视觉语言连接器设计的重要性相对较小。通过扩展这些方法,我们构建了MM1,一个多模态模型家族,参数量高达30B,包括密集模型和混合专家(MoE)变体,这些模型在预训练指标上是最先进的,并在一系列已建立的多模态基准测试中经过监督微调后取得了有竞争力的性能。得益于大规模预训练,MM1具有吸引人的特性,如增强的上下文学习能力、多图像推理,使得少样本链式思维提示成为可能。

核心方法

在这里插入图片描述

  1. 图像编码器和视觉语言连接器的设计:我们发现图像分辨率对性能影响最大,其次是模型大小和训练数据组成。而视觉语言连接器的架构设计对最终性能的影响相对较小。
  2. 预训练数据的选择:我们发现交错的图像文本数据和纯文本数据对于少样本和纯文本性能至关重要,而对于零样本性能,标题数据最为重要。
  3. 模型架构和训练过程:我们探索了不同的预训练图像编码器,并研究了如何将视觉特征桥接到LLM空间。我们还详细阐述了如何训练MLLM,包括超参数和训练模型的哪些部分。

实验说明

实验名称数据集指标结果备注
MM1-3B多种数据源准确率73.5包括图像标题、交错图像文本和纯文本数据
MM1-7B多种数据源F1分数61.0同上
MM1-30B多种数据源准确率54.6同上

实验结果表明,MM1模型在多个基准测试中取得了先进的性能,特别是在少样本学习方面。数据来源包括图像标题、交错的图像文本文档和纯文本数据。

结论

通过仔细的建模和数据选择消融实验,我们确定了重要的经验教训,这些经验教训产生了一个在一系列少样本评估中取得SOTA结果的预训练模型。在SFT之后,这个模型家族在广泛的基准测试中产生了有竞争力的性能,同时启用了多图像推理和少样本提示。我们希望这些确定的经验教训能够帮助社区构建强大的模型,超越任何单一的具体模型架构或数据策略。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/276690.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uploads-labs靶场(1-10关)

一、搭建环境: 下载upload-labs源代码 下载链接:https://codeload.github.com/c0ny1/upload-labs/zip/refs/heads/master 将压缩包解压后的文件名改为upload-labs,然后放入phpstudy\www目录下 二、关卡通关: 1、pass-01(前端绕过&#xf…

(三)丶RabbitMQ的四种类型交换机

前言:四大交换机工作原理及实战应用 1.交换机的概念 交换机可以理解成具有路由表的路由程序,仅此而已。每个消息都有一个称为路由键(routing key)的属性,就是一个简单的字符串。最新版本的RabbitMQ有四种交换机类型&a…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:Grid)

网格容器,由“行”和“列”分割的单元格所组成,通过指定“项目”所在的单元格做出各种各样的布局。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件 仅支持GridItem…

【算法专题--双指针算法】leetcode--283. 移动零、leetcode--1089. 复写零

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 前言1. 移动零&#xff0…

使用opencv进行图片分析

opencv学习 一、配置环境并打开编译器 配置opencv在你的任意一个盘里创建一个专属于opencv的文件夹便于学习与整理 打开控制台winr输入cmd,进入后输入conda activate opencv,进入环境以后进入你所设置的opencv文件的盘,我的是D盘&#xff0…

C++_学习String

1.标准库中的string类 1. 字符串是表示字符序列的类 2. 标准的字符串类提供了对此类对象的支持,其接口类似于标准字符容器的接口,但添加了专门用于操作单字节字符字符串的设计特性 3. string 类是使用 char( 即作为它的字符类型,使用它的默…

MATLAB编译器配置:MinGW

使用 MATLAB 2022b版本,查询编译器时如上,想安装个MinGW编译器,自带的附加资源管理不好使,只能换个别的法子,经过一些参考,总结如下。 步骤1.在这里下载一个MinGW.最新版本是10.3.0.然后默认安装&#xff…

音频占用磁盘空间太多 需要把mp3音频转aac音频缩小占用空间 应该怎么操作?

一:什么是aac格式? aac是一种音频压缩格式,它是MPEG-2标准下的一种音频压缩方式,也可以作为HE-AAC,AAC或AAC-LC格式使用,是音频压缩领域中的一种重要格式。与MP3的比较,aac在保证音质的同时可以…

【NR 定位】3GPP NR Positioning 5G定位标准解读(十五)-UL-TDOA 定位

前言 3GPP NR Positioning 5G定位标准:3GPP TS 38.305 V18 3GPP 标准网址:Directory Listing /ftp/ 【NR 定位】3GPP NR Positioning 5G定位标准解读(一)-CSDN博客 【NR 定位】3GPP NR Positioning 5G定位标准解读(…

jenkin部署spring boot项目【从0到1】

写在前面,遇到的很多错误 本来想用docker启动Jenkins的,也这样做了,但是遇到了一个非常严重的问题,就是mvn命令在docker里面不生效,然后就修改文件,但是发现vi不存在,好的。接着用yum安装vi工具…

Windows蓝牙驱动开发之模拟HID设备(一)(把Windows电脑模拟成蓝牙鼠标和蓝牙键盘等设备)

by fanxiushu 2024-03-14 转载或引用请注明原作者 把Windows电脑模拟成蓝牙鼠标和蓝牙键盘,简单的说,就是把笨重的PC电脑当成鼠标键盘来使用。 这应该是一个挺小众的应用,但有时感觉也应该算比较好玩吧, 毕竟实现一种一般人都感觉…

Selenium 自动化 —— 使用WebDriverManager自动下载驱动

上一篇文章 入门和 Hello World 实例 中,我们提供了一个最简单的 Selenium 上手的例子。 但是某一天,突然发现相同的代码居然运行报错了。这是怎么回事呢? 日志排查 日志中其实提示的很明显了:Chrome浏览器和Chrome WebDriver的…

国产Copilot--通义灵码安装教程

文章目录 在 Visual Studio Code 中安装通义灵码步骤1步骤2步骤3步骤4 参考 在 Visual Studio Code 中安装通义灵码 通义灵码,是一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解…

Unity开发一个FPS游戏之二

在之前的文章中,我介绍了如何开发一个FPS游戏,添加一个第一人称的主角,并设置武器。现在我将继续完善这个游戏,打算添加敌人,实现其智能寻找玩家并进行对抗。完成的效果如下: fps_enemy_demo 下载资源 首先是设计敌人,我们可以在网上找到一些好的免费素材,例如在Unity…

NCV7356D1R2G接口集成芯片中文资料PDF数据手册参数引脚图规格书价格图片

产品概述: NCV7356 是一款用于单线数据链路的物理层器件,能够使用多种具碰撞分解的载波感测多重存取 (CSMA/CR) 协议运行,如博世控制器区域网络 (CAN) 2.0 版。此串行数据链路网络适用于不需要高速数据的应用,低速数据可在物理介…

nginx gzip性能优化 —— 筑梦之路

对比使用和不使用gzip static处理 1. 不使用 gzip static 时的 gzip 处理 如果你不使用 gzip_static 而只是 "gzip on",它每次都会被压缩并发送。 虽然它实际上可能缓存在内存中,但传统观点是 "每次都会执行压缩处理,因此 CP…

Hello,Spider!入门第一个爬虫程序

在各大编程语言中,初学者要学会编写的第一个简单程序一般就是“Hello, World!”,即通过程序来在屏幕上输出一行“Hello, World!”这样的文字,在Python中,只需一行代码就可以做到。我们把这第一个爬虫就称之为“HelloSpider”&…

Kotlin:runBlocking导致App应用出现ANR问题实例

runBlocking简介 runBlocking 是常规函数; runBlocking 方法会阻塞当前线程来等待; runBlocking 的主线程会一直 阻塞 直到 runBlocking 内部的协程执行完毕。 runBlocking导致App应用出现ANR问题实例的效果 点击页面上的 刷新按钮 调用 refreshByrunBlo…

【云原生-kubernetes系列】--kubernetes日志收集

1、ELK架构 1.1、部署ES集群 https://mirrors.tuna.tsinghua.edu.cn/elasticstack/apt/7.x/pool/main/e/elasticsearch/ 1、下载软件包 rootes-server1:~# wget https://mirrors.tuna.tsinghua.edu.cn/elasticstack/apt/7.x/pool/main/e/elasticsearch/elasticsearch-7.12.0-…

媒体播放器及媒体服务器软件Plex

什么是 Plex ? Plex 是一套媒体播放器及媒体服务器软件,让用户整理在设备上的有声书、音乐、播客、图片和视频文件,并通过流式传输至移动设备、智能电视和电子媒体播放器上。Plex 可用于 Windows、Android、Linux、OS X和 FreeBSD。 在接触 N…