大模型之多模态大模型技术

本文作为大模型综述第三篇,介绍语言大模型多模态技术。

不同于语言大模型只对文本进行处理,多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态, 能够同时处理和理解来自不同感知通道(例如视觉、听觉、语言和触觉等)的信息,并以多模态的方式表达输出。

目录:

1.多模态大模型的技术体系

2.多模态大模型的网络结构设计

1.多模态大模型的技术体系

现有的多模态大模型主要有面向理解任务的、面向生成任务的、兼顾理解和生成的、知识增强的多模态大模型。

面向理解任务的多模态大模型

面向理解任务的多模态大模型,其核心结构通常是 基于Transformer 的编码器。按照模型结构的不同,面向理解任务的多模态大模型又可再分为单流和多流两种结构。单流结构是指不同模态的特征在拼接后由一个共享的 Transformer 网络进行处理;而多流结构中,不同模态则分别由Transformer 网络进行编码处理,这些网络之间存在有一些特征上的交互融合机制。多流结构的一个典型代表是图文理解模型 ViLBERT,它采用了一种双流 Transformer 的结构,首先将文本和图像数据分别输入两个独立的 Transformer 编码器,接着使用互注意力 Transformer (Co-Attention
Transformer)层将文本和图像特征进行融合,最后所得到文本-图像特征可以被应用到视觉问答、 图像描述生成等不同的多模态的任务中。 多流结构的另一个代表是 OpenAI 公司的 CLIP模型,它采用两个独立的编码网络对图像和文本进行特征抽取,并通过对比学习将两者的特征嵌入到共享的语义空间中。 CLIP 基于 4 亿图文对进行训练,可以从自然语言监督中有效地学习视觉概念,从而获得泛化性能极强的零样本(zero-shot)分类能力。 另一个与 CLIP 类型的代表性方法ALIGN[, 使用对比损失训练了一个简单的双编码器模型,利用包含超过 10 亿个噪声图像-文本对的数据集来扩展视觉和视觉语言表征学习。 CLIP 是个图文双流结构,而 VATT[67]则是针对视频-文本-音
频数据的多流模型。与 CLIP 类似, VATT 将每个模态线性投影为特征向量,然后将其分别送到 Transformer 编码器中,并将编码后的特征在语义分层的不同粒度空间中通过对比学习来训练模型。

单流结构的一个典型代表是 VL-BERT,它将图像的描述文本和关键物体的区域特征拼接后作为 BERT 网络的输入,通过掩码掉部分文本输入和图像输入并预测所缺失的信息来进行模型训练。 此外,另一代表性方法 UNITER ,则采用了一种多任务的多模态预训练方法,相对于其它方法, 该模型增加了单词与图像区域的匹配模块,来更进一步建立图像与文本的细粒度关联。 在视频领域,单流结构的代表性方法有 VideoBERT和 ActBERT,其中 VideoBERT 是一个视频-语言模型,它融合了文本和视频作为 BERT 网络的输入;而ActBERT 采用了一种全局-局部关系的建模方法,输入不止包括文本和视频的全局信息, 还利用了视频帧中的局部信息来加强对于视频内容的理解。现有的面向理解任务的多模态大模型大多都以上面两类结构为基础,此外,也有不少方法在预训练任务上进行研究,引入更多的预训练任务或设计统一的架

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/388645.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麒麟系统查看和修改ip

查看ip ifconfig ifconfig enp0s3 192.168.1.110

使用Echarts来实现数据可视化

目录 一.什么是ECharts? 二.如何使用Springboot来从后端给Echarts返回响应的数据? eg:折线图: ①Controller层: ②service层: 一.什么是ECharts? ECharts是一款基于JavaScript的数据可视化图标库,提供直观&…

javaScript中的对象

创建 this指向 命名规则 不符合变量名的命名规则和规范使用数组关联语法获取 遍历对象 使用for(var key in 对象) 删除属性 对象引用关系

Flutter大型项目架构:私有组件包管理

随着项目功能模块越来越多,怎么去管理这些私有组件包是一个不得不面对的问题,特别对于团队开发来讲,一些通用的公共组件往往会在多个项目间使用,多的有几十个,每个组件包都有有自己的版本,组件包之间还有依…

一篇文章带你入门爬虫并编写自己的第一个爬虫程序

一、引言 目前我们处在一个信息快速迭代更新的时代,海量的数据以大爆炸的形式出现在网络之中,相比起过去那个通过广播无线电、书籍报刊等传统媒介获取信息的方式,我们现在通过网络使用搜索引擎几乎可以获得任何我们需要的信息资源。 但与此同…

Vue前端工程

创建一个工程化的vue项目 npm init vuelatest 全默认回车就好了 登录注册校验 //定义数据模型 const registerDataref({username:,password:,rePassword: }) //校验密码的函数 const checkRePassword(rule,value,callback)>{if (value){callback(new Error(请再次输入密…

python基础知识点

最近系统温习了一遍python基础语法,把自己不熟知的知识点罗列一遍,便于查阅~~ python教程 Python 基础教程 | 菜鸟教程 1、python标识符 以单下划线开头 _foo 的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用 f…

c++STL容器中vector的使用,模拟实现及迭代器使用注意事项和迭代器失效问题

目录 前言: 1.vector的介绍及使用 1.2 vector的使用 1.2 1 vector的定义 1.2 2 vector iterator(迭代器)的使用 1.2.3 vector 空间增长问题 1.2.4 vector 增删查改 1.2.5vector 迭代器失效问题。 2.vector模拟实现 2.1 std::vect…

大彩触摸屏与单片机通讯

目录: 一、概述 1、触摸屏简介 2、安装软件 1)设置VSPD软件 2)设置VisualTFT软件 3)设置串口软件 二、单片机发送指令给触摸屏 1、发送文本 2、显示与隐藏控件 1)通过指令助手生成指令 2)隐藏…

实现Obsidian PC端和手机端(安卓)同步

步骤 1:在PC端设置Obsidian 安装Obsidian和Git:确保你的PC上已经安装了Obsidian和Git。你可以从Obsidian官网和Git官网下载并安装。 克隆GitHub代码库:在PC上打开命令行(例如Windows的命令提示符或Mac/Linux的终端)&a…

Redis 初步认识

目录 1. 概述 2. 数据结构 3. 使用方式 4. 优势 1. 概述 Redis (Remote Directory Server)是一个开源的基于内存的数据存储系统; 可以用作数据库缓存和消息队列等各种场景,也是目前最热门的 NoSQL 数据库之一; 早…

LeetCode3. 无重复字符的最长子串(java实现)

今天分享的题目是LeetCode3. 无重复字符的最长子串,来看题目描述: 无重复的最长子串,题目有可能有些小伙伴没读太懂,其实就是找到不重复的最长子串,比如eg3,pwwk,那么w出现了两次就不符合要求。…

Spring源码- context:component-scan base-package标签的作用源码解析

1.扫描包路径下所有的类加载解析成bean定义信息 ClassPathBeanDefinitionScanner .doScan方法调用路径 doScan:276, ClassPathBeanDefinitionScanner (org.springframework.context.annotation) parse:95, ComponentScanBeanDefinitionParser (org.springframework.context.a…

C语言第九天笔记

数组的概念 什 么是数组 数组是 相同类型, 有序数据的集合。 数 组的特征 数组中的数据被称为数组的 元素,是同构的 数组中的元素存放在内存空间里 (char player_name[6]:申请在内存中开辟6块连续的基于char类 型的变量空间) 衍生概念&…

ClkLog:开源用户行为分析框架,让数据分析更轻松

ClkLog:开源用户行为分析框架,让数据分析更轻松 在数据驱动的时代,找到一个好用的用户行为分析工具真是难上加难。但是今天你有福了,开源免费的 ClkLog 就是你的不二选择!本文将为你详细介绍 ClkLog 的功能特点、技术架…

【初阶数据结构篇】冒泡排序和快速排序(中篇)

文章目录 冒泡排序和快速排序前言代码位置冒泡排序快速排序递归法实现hoare版本挖坑法lomuto前后指针递归法复杂度分析 非递归法实现 冒泡排序和快速排序 前言 本篇以排升序为例 代码位置 gitee 冒泡排序 动图理解 作为第一个接触的排序算法,冒泡排序想必大…

OpenCV 图像处理 轮廓检测基本原理

文章目录 基本原理关键函数和参数注意事项 示例代码示例效果代码详解findContours 函数原型findContours函数变体 基本原理 轮廓发现是图像处理中的一个重要步骤,用于检测物体的边界和形状。 图像预处理: 轮廓发现通常在灰度图像上进行。因此&#xff0…

程序员转型AI大模型好转吗?成功率高吗?

前言 在程序员圈子中,技术转型近年来一直是热门话题。随着AI技术的迅猛发展,优秀人才短缺,程序员向AI大模型转型似乎成为了一条通往职场先机的路径。但是,这条转型之路是否容易走,成功率又如何呢? 一、程…

SSM大学生体质管理系统-计算机毕业设计源码75960

摘要 基于SSM的大学生体质管理系统是一款综合性平台,融合了在线课程、健康知识、体测报告等多项功能,旨在为广大大学生提供全方位的健康管理服务。通过在线课程和健康知识模块,用户可以随时学习健康知识,掌握科学的健康管理方法&a…

大屏自适应方案

1.npm下载 npm i autofit.js2.在项目中引入 import autofit from autofit.js3.init()初始化,注意:要在mounted()里