浅析多模态机器学习

GPT-4的发布给ChatGPT带来了又一次飞跃,ChatGPT不仅支持文字输入,还能看得懂图片、甚至是漫画、梗图,以GPT-4为代表的多模态大模型非常强大。多模态大模型就是指模型可以处理多种结构/类型的数据,例如GPT-4,它既可以处理你输入的文本,也可以处理你上传的图片。

那么,多模态到底意味着什么呢?

1. 什么是多模态?

人类有五种基本感官:触觉、视觉、听觉、嗅觉和味觉。与每一种感觉相关的感觉器官向大脑发送信息,帮助我们理解和感知我们周围的世界。然而,事实上,除了这五种基本的感官之外,还有其他的人类感官是你生活中必不可少的。这些鲜为人知的感觉包括空间意识和平衡等。通过这些感官的交互,也就是多模态,以下是最常见的几种模态:

08208b50adad0951f444f94f0db8509b.png

GPT-4专注于语言和视觉作为一些基本的模态。所谓融合,是指将来自两个或多个模态的信息合并以执行预测任务。有两种类型的融合:- 早期融合:模态将在训练早期就连接起来。- 晚期融合:我需要在每个模态早期进行一些处理,然后再将它们组合起来。

看一些现实世界的例子,了解什么是MMML应用:

f5416e862fbb0558f5b164b326726378.png

2. 单模态分类模型及一些基本概念

从单模态的分类模型开始,分析视觉、文本和声音模态的基本处理方法,还试图澄清了数据集、最近邻居、神经网络基础、推理和模型参数等相关术语和概念。

2.1 单模态的分类模型

从一种模态的分类模型开始,例如视觉分类,给定一张图片,它是不是一只狗呢?

aac2e0e95703107250a10b2b4f1f8141.png

这是三个二维矩阵叠加在一起形成的彩色图像,如何解决这个图像分类问题呢?因为大多数神经网络或分类器只接受二维矩阵,为了制作这个输入向量,需要将这个三维向量分解并将它们叠加在一起,就像下面的图像所示的那样。然后,才能能够通过多分类输出来获取目标的对象分类。

b1d6755e8f0f5b57872217743a95b754.png

对于单模态模型,首先有一个输入,可以是如上所述的3D矩阵,然后将其传递到已经训练好的模型中,得到一个分类(单类或多类)或回归输出。

对于单词、句子或段落这样的模态而言,有两种类型:书面(文本)和声音(转录)。举个例子,假设从一段文本中提取了一个单词,想要了解这是正面还是负面的情绪。该怎么做呢?

096d50fd8708c09d21f6ec6bf3e2eb40.png

为了简单起见,可以使用one-hot向量,这是一个非常长的向量,其长度是字典的长度。这个字典是我们的模型从训练集中创建的,计算出它所发现的所有去重后的单词。对于每一个单词,在向量中有一个索引条目。需要注意的是,某些非常低频的词语,可能不在字典中。

用这个one-hot向量将作为最大熵模型的输入向量,进而进行情绪分类,命名实体分类(名字 vs 地方 vs 实体),或者词性标注(动词,名词,形容词)等。如果想要更细粒度地按单词运行模型,就可以这样做。

但是,如果想要处理更大量的文本,比如一句话或一段话,该怎么办呢?

可以将输入向量变成一个词袋向量,但它仍然是一种one-shot编码,现在对目标文档中的每个单词进行编码,如果一个维度上有这个单词就是1,否则就是0。然后可以运行同样的任务,就像上面做的情绪分类一样。

59710474cba72be28a40c5a8f6d49c60.png

最后,在看看声音模态。假设正在聆听一个音频,基本上,音频是一个非常长的一维向量,可以使用此向量并运行分类问题以转录语音。在实践中,人们用时间窗口在音频信号中切片,并开始处理该数据集以创建Spectogram。在这个音频中,检查获取了多少低频与高频成分,以千赫为记录在Spectogram中。然后,我们将这个Spectogram转换为模型的输入向量。

f01dc7139194617a21b0621d001ec5f8.png

除了仅仅进行转录外,还可以使用这些模型来获取情感分类或语音质量。

2.2 相关术语

数据集是带有标签的样本集合,包括:

  • 训练集:在这个训练集上学习分类器

  • 验证集:通过查看L1或L2函数在此处选择最佳的超参数,基本上希望看到哪些超参数会带来最佳的结果。

  • 测试集:在这个保留的测试集上评估分类器。

最近邻居:最简单但仍然是最有效的分类器之一。    - 在训练时间,时间复杂度为O(1),测试时间为O(N)     - 它使用距离度量来找到最近的邻居。    - 它将使用L1(曼哈顿)或L2(欧几里得)距离。

2.3 神经网络基础

根据激活函数的不同,一个神经元可以被称为一个线性分类器。神经网络中每个部分的组成和功能如下:

1)定义一个神经元的得分函数,目标是预测该类别标签的得分。例如,对于图像分类问题“这是一只狗、猫、鸟还是猪?”,可以将为鸭子、猫、鸟和猪各设置一个神经元。具有线性激活函数的神经元如下图所示:

01f775cd04402932159722405c901d68.png

接下来,在这里学习权重和偏置值。

  • 定义损失函数(可能是非线性的)

  • 优化参数的权重(考虑梯度下降)

然后,考虑多层前馈神经网络。

8c18a13627b661e0237e5b9c5c04c172.png

这个多层网络由一个输入层,几个隐藏层,以及一个可能包含激活函数的输出层组成。每个前面的隐藏层的输出作为后面层的输入。

最后,我还有两个概念需要澄清:

  • 推理:用于测试。推理可以被看作是通过输入获得评分/输出的过程。它既是获得这个分数的行为,也涉及到它的使用。

  • 模型参数:在训练时使用,将使用基于梯度的方法进行优化。基本上,需要有固定训练的数据,通过学习得到最小损失的权重和偏差。

0d6804e6878fd1746292c07b8cb91a27.png

3. 多模态机器学习的核心问题

多模态是一种新的人工智能范式,其中各种模态(文本、语音、视频、图像)与多种智能处理算法结合,以实现更高的性能。

业界有多种实现多模态的方式,通过多模态机器学习,希望确保该空间中的相似性对应着相应概念的相似性,通过存在的其他模态, 给出缺失的模态内容。多模态应用目前包括各种任务,如信息检索、映射和融合。

在多模态机器学习中,大约有五个核心问题——表示、翻译、对齐、融合和协同学习。

3.1 多模态的数据表达

多模态数据的最大挑战是以一种方式总结来自多个模态(或视图)的信息,以便综合使用互补信息,同时过滤掉冗余的模态部分。由于数据的异质性,一些挑战自然而然地出现,包括不同类型的噪声、模态(或视图)的对齐以及处理缺失数据的技术。目前,主要有两种的方法来完成多模态表达:联合表达和协调表达。

94203b65f69c4954cf3f0e5ba8ab4de1.png

e4d29954af325d698d89512a96b9dd62.png

协调表达

多模态数据必须在非常弱的(它们的空间不重叠)或非常强的(最终成为联合表示)之间协调,通过结构化的协调来完成嵌入。

f2c5fdaec46213b83ac0b929760e266e.png

协调表达涉及将所有形式投射到它们的空间中,但这些空间使用约束进行协调。这种方法对根本上非常不同并且可能不适用于联合空间的形式更有用。由于自然界中形式的多样性,协调表达在多模态表示领域中比联合表达具有巨大优势,使用约束进行协调是一种强大的方法。

联合表达

联合表达涉及将所有模态投影到一个共同的空间,同时保留来自给定模态的信息。训练和推理时需要所有模态的数据,这可能会使处理缺失数据变得困难。另外,通过递归模型,可以在每个时间步融合模态的不同视图,最终使用联合表示完成手头的任务(如分类,回归等)。

对于所有模态在推断时都存在的任务,联合表达更适合。另一方面,如果缺少其中一种模态,则协调表达更适合。

3.2 多模态机器翻译

多模态机器翻译涉及从多个模态中提取信息,基于这样的假设,附加的模态将包含有用的输入数据的替代视图。在这个领域中最重要的任务是口语翻译、图像引导翻译和视频引导翻译,它们分别利用音频和视觉模态。这些任务与它们的单语对应任务——语音识别、图像字幕和视频字幕——不同之处在于需要模型生成不同语言的输出。(来源) 下面我们可以看到一个图像字幕的例子出了大错:

898a3706b2ccc54bce3522a065ae9de8.png

上述模型无法将视觉场景与语法句子进行同步理解,这对于强大的多模态模型至关重要。多模态翻译模型有两种类型:基于示例的和生成式的。

7fba8b0331d6c45c88226dcf2bcbbc3d.png

基于示例的模型将存储一个翻译词典,如上所示,然后将其从一种语言模态映射到另一种。在推理过程中,模型将从字典中提取最接近的匹配项,或通过推断字典提供的信息创建翻译。这些模型需要存储更多的信息,运行速度非常缓慢。

生成模型在推理时不需要参考训练数据即可产生翻译。生成模型有3个类别,分别是基于语法的、变压器模型和连续生成模型。

3.3 多模态的对齐

多模态对齐是找到两种或更多模态之间的关系和对应。

78d8fb2f49b5fc00e4b0fcbbf3a98203.png

为了对齐不同的模态,模型必须测量它们之间的相似度并处理长距离依赖关系。多模态对齐涉及的其他困难包括缺乏注释数据集、设计好的模态相似性度量以及存在多个正确的对齐方式。主要有两种类型的多模态对齐:- 显式对齐 :其目标是找到模态之间的对应关系,并对同一事件的不同模态数据进行对齐。例如:将语音信号与转录对齐。- 隐式对齐 :对齐有助于解决不同任务时的模型(例如“注意力”模型)。它是多个下游任务(如分类)的先驱。例如:机器翻译

3.4 多模态的融合

多模态融合可能是更重要的问题和挑战之一。融合是将来自两个或两个以上模态的信息结合起来解决分类或回归问题的实践。使用多个模态提供更强大的预测能力,使我们能够捕获互补信息。即使其中一个模态缺失,多模态融合模型仍可使用。

5bc7c0f0c2fe39cc5aa5c818063bd5a6.png

3.5 协同学习

协同学习是将学习或知识从一种模态转移到另一种模态的挑战。对于在资源有限的模态下建立模型——如缺乏注释数据、嘈杂的输入和不可靠的标签,从资源丰富的模态中转移知识是相当有用的。

1fdcc84c4f79574ab550460866b99022.png

小结

多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能。多模态机器学习中的核心问题包括表示、翻译、对齐、融合和协同学习。其中,多模态数据的表达是最大的挑战之一,需要使用联合表达和协调表达等方法。多模态机器翻译涉及从多个模态中提取信息,基于这样的假设,附加的模态将包含有用的输入数据的替代视图。多模态对齐是找到两种或更多模态之间的关系和对应,多模态融合可能是更重要的问题和挑战之一,协同学习是将学习或知识从一种模态转移到另一种模态的挑战。

【参考资料与关联阅读】

  • http://multicomp.cs.cmu.edu/research/multimodal-representation

  • https://scholar.harvard.edu/files/diane/files/NAS.pdf

  • 系统学习大模型的20篇论文

  • 深度学习架构的对比分析

  • 解读Toolformer

  • 解读TaskMatrix.AI

  • 解读ChatGPT中的RLHF

  • 一文读懂“语言模型”

  • 知识图谱的5G追溯

  • 图计算的学习与思考

  • AI系统中的偏差与偏见

  • 面向AI 的数据生态系统

  • 机器学习与微分方程的浅析

  • 神经网络中常见的激活函数

  • 老码农眼中的大模型(LLM)

  • 《深入浅出Embedding》随笔

  • 机器学习系统架构的10个要素

  • 清单管理?面向机器学习的数据集

  • DuerOS 应用实战示例——机器狗DIY

  • 《基于混合方法的自然语言处理》译者序

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38166.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4发布!

GPT-4更能理解“抽象”ChatGPT怎么用?继续往下看 在网上,不少网友对此次ChatGPT的迭代表现的既兴奋又担忧。GPT-4增强了高级推理和处理复杂指令方面的能力,另外,它还具有更多的创造力。OpenAI给出了几个使用范例,如说明…

OpenAI GPT-4震撼发布:多模态大模型

OpenAI GPT-4震撼发布:多模态大模型 发布要点GPT4的新功能GPT-4:我能玩梗图GPT4:理解图片GPT4:识别与解析图片内容怎样面对GPT4 申请 GPT-4 API 前言: 🏠个人主页:以山河作礼。 📝​📝:本文章是帮助大家更加…

1.自动标注工具:CVAT---介绍

1.自动标注工具:CVAT—介绍 简介:CVAT是用于计算机视觉的免费,在线,交互式视频和图像注释工具。可以用于模型训练数据的标注。在线测试网站 这里是在线测试网站 文章目录 1.自动标注工具:CVAT---介绍前言一、效果二、…

标注2.0:数据标注员如何进行从业选择?

作为一个2020年3月份才正式正名的一个岗位,开始就受到了很多关注,但也引发了很多争议。经过几年的发展人工智能很多领域已经落地初见成效,数据标注也逐渐要进入一个“洗牌期”。但很少有人关注从业者的发展,不管是在百度还是知乎去…

Tina_Linux_syslog_使用指南

Tina Linux syslog 使用指南 1 基本介绍 syslog 可以说是一套统一管理系统日志的机制,尤其常用于记录守护进程的输出信息上。因为守护进程不存在控制终端,它的打印不能简单地直接输出到stdin 或 stderr。 使用syslog 时,一般需要关注两部…

Linux外壳程序编程 shell编程 引号详解

shell是命令语言、命令解释程序及程序设计语言的统称; shell是一个命令语言解释器,它拥有自己内建的shell命令; Shell(Bash)单引号、双引号和反引号用法详解; 尽量使用 $(命令) 的方式来引用命令的输出,…

【OS命令注入】常见OS命令执行函数以及OS命令注入利用实例以及靶场实验—基于DVWA靶场

目录 1 OS命令注入概述2 常见OS命令注入函数及例子2.1 system()函数2.2 exec()函数2.3 shell_exec()函数2.4 passthru()函数2.5 popen()函数2.6 反引号结构 3 OS命令注入漏洞的利用3.1 查看系统文件3.2 显示当前路径3.3 写文件 4 OS命令注入漏洞的防御5 OS命令注入漏洞靶场实验…

Linux —— tftp 使用

提示:tftp 命令在 uBoot 系统和 Linux 系统下的使用是不一样的 前言 在 Linux 移植过程或裸机开发中,经常要使用到 tftp 命令,本文围绕该命令相关的网络配置及使用做出记录,本文中,开发电脑命名为上位机,新…

linux 之TFTP的使用

简介 TFTP是用来下载远程文件的最简单网络协议,它其于UDP协议而实现。嵌入式linux的tftp开发环境包括两个方面:一是linux服务器端的tftp-server支持,二是嵌入式目标系统的tftp-client支持。因为u-boot本身内置支持tftp-client,所以…

嵌入式linux与windows之间的tftp文件传输(保姆级)

目录 前言一、为什么要文件传输二、利用共享文件夹(简要流程)三、tftp传输与环境搭建四、传输前的准备工作五、测试准备工作是否完成六、传输文件6.1、windows中tftp32的配置6.2、嵌入式Linux(板子)中获取或发送文件6.2.1、tftp命令用法 前言 在我们接触嵌入式Linux之前&#…

用于医疗领域的聊天机器人ChatDoctor

ChatGPT系列文章 文章目录 ChatGPT系列文章ChatDoctor数据集模型训练参考资料 ChatDoctor ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge 论文地址:https://arxiv.org/pdf/2303.14070.pdf 在通用领域中的大型语言…

2021年中国互联网行业投融资运行现状及未来发展趋势分析[图]

互联网指的是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。 一、全球互联网行业投融资运行现状 国际环境更趋复杂严峻,世界经济复苏放缓,通胀压力上升与疫情蔓延交织。2021年…

2021年中国企业风险投资发展现状及未来发展趋势分析[图]

企业风险投资是指有明确主营业务的非金融企业在其内部和外部所进行的风险投资活动。企业从事风险投资的形式主要有两种:一种是把用于风险投资的资金委托给专业的风险投资公司进行管理,由其成立的投资基金根据委托方的战略需要选择投资目标;另…

最强对话模型 ChatGPT 向 Google 搜索发起挑战

GPT-3 发布的两年后,我们没等来它的亲弟弟 GPT-4,而是在今天亲眼见证了 OpenAI 带来了一种全新的 AI 聊天机器人——ChatGPT,也可以称之为是 GPT-3 家族里面的亲戚,它不仅可以解释代码、编写情景喜剧脚本,也可以为用户…

Google 新一代音乐识别

文 / Google AI 苏黎世办公室 James Lyon 2017 年,我们发布了具有闻曲知音功能的 Pixel 2,就是利用深度神经网络为移动设备带来低功耗、始终开启的音乐识别功能。在开发 “闻曲知音” 时,我们的目标是打造一个小巧高效的音乐识别器&#xff0…

谷歌AudioLM :通过歌曲片段生成后续的音乐

AudioLM 是 Google 的新模型,能够生成与提示风格相同的音乐。该模型还能够生成复杂的声音,例如钢琴音乐或人的对话。结果是它似乎与原版没有区别,这是十分让人惊讶的。 为什么生成音乐如此困难? 创作音乐并不是一件容易的事。生成音频信号&…

“程序员交友网站” SO 突然裁员 10%,网友:ChatGPT 出来后就不咋用了

在ChatGPT影响下,知名开发者问答社区Stack Overflow撑不住要裁员了! 随着用户大规模转战ChatGPT,Stack Overflow访问量大幅骤降,且盈利情况不容乐观。 CEO Prashanth Chandrasekar在公开信中坦言:正处于困难时期。 具…

巴比特 | 元宇宙每日必读:浙江发布2023年元宇宙产业发展工作要点,6月底前组建元宇宙产业联盟,年底打造20家“专精特新”企业...

摘要:据浙江省发改委官网 4 月 24 日消息,浙江省发改委等 5 部门近日联合印发《浙江省元宇宙产业发展 2023 年工作要点》。《工作要点》制定了十六项主要任务,并提出在2023 年 4 月底前建立元宇宙部门工作协同机制;6 月底前组建元…

免费版GPT-4!美国AI初创公司推出Forefront Chat,火到官网崩溃

免费版 GPT-4 到底香不香? AI初创企业正式推出Forefront Chat 近日,Forefront AI 正式推出 Forefront Chat,允许用户免费体验 GPT-4 的强大功能。ForeFront AI 是一家总部位于纽约的软件开发公司,联合创始人分别为 Jimmy Grease…

VTK笔记-生成MIP图像-vtkImageSlabReslice类

MIP MIP(Maximum/Minimum Intensity Projection),最大/最小密度投影重建。   MIP可以较真实地反应组织密度差异,使得血管的异常改变、形态、走形强化;但是只适用于外观形态的显示。   在容积扫描数据中对每条径线上…