abstract:
多模态情绪分析和抑郁估计是利用多模态数据预测人类心理状态的两个重要研究课题。以前的研究主要集中在开发有效的融合策略,以交换和整合来自不同模式的心智相关信息。一些基于mlp的技术最近在各种计算机视觉任务中取得了相当大的成功。受此启发,我们在本研究中以特征混合的视角探索了多模态方法。为此,我们引入了完全基于MLP的多模态特征处理框架CubeMLP。CubeMLP由三个独立的MLP单元组成,每个单元都有两个仿射变换。CubeMLP接受所有相关的模态特征作为输入,并在三个轴上混合它们。利用CubeMLP提取特征后,对混合多模态特征进行平面化处理,用于任务预测。我们的实验是在情感分析数据集:CMU-MOSI和CMU-MOSEI,以及抑郁估计数据集:AVEC2019上进行的。结果表明,CubeMLP可以以更低的计算成本实现最先进的性能。
intro:
随着社交媒体的普及,多模态数据已经成为个人和公众交流的重要手段。在这种情况下,从多模态数据估计人类的心理状态变得越来越重要。多模态数据通常包括文本、声学和视觉信息,从多模态数据中提取特征特征为二维矩阵,其中Lm和Dm分别为模态m的序列长度和特征通道大小。
为了有效地处理多模态特征, Zadeh等[37]首先在张量融合网络(Tensor Fusion Network, TFN)中引入了笛卡尔积,将所有涉及的模态特征在𝐿𝑚轴上进行融合。随后,许多研究者提出模态之间存在双向关系和互补信息,并应用注意机制计算模态对(如文本和声学)的共同注意[9,39]。最近,随着基于transformer的结构的显著成功[34],一些作品试图将自注意机制用于模态相互作用[3,4,11,35]。这些趋势方法的核心主要是模态之间的信息交换。
这些信息交换方法的结果可以看作是特征混合。例如,TFN[37]和一些顺序型共注意方法[19,39]试图在模式之间混合𝐿𝑚轴上的特征,而通道型共注意方法[21]试图在𝐷𝑚上进行混合。对于基于transformer的方法[3,4,11,35],它们采用自关注机制,并在𝐿𝑚轴上执行配对模态之间的复杂混合,这也可以视为通过另一个模态来增强一个模态。
由于在计算机视觉应用中越来越多地使用变压器,最近提出了许多变体,如ViT[7]和ViViT[1]。另一方面,Transformer对自我关注有很大的内存需求,这是Transformer架构的一个主要缺点。因此,完全由多层感知器(mlp)组成的结构引起了人们的兴趣。例如,MLP-mixer[31]和ResMLP[32]使用mlp来替代自关注机制设计。通过用mlp代替自我关注,这些技术在保持高性能的同时显著降低了计算成本。
受基于mlp技术的启发,本文提出了一种简单而有效的基于mlp的多模态特征处理框架CubeMLP。
在预处理过程中,我们将模态特征整合成一个多模态张量,其中𝑀为模态个数,𝐿为序列长度,𝐷为特征通道的大小。CubeMLP由三个MLP单元组成,分别对应三个轴(𝐿、𝑀和𝐷)。第一个MLP单元被设计用于混合𝐿轴上的特征,这个过程称为顺序混合。模态混合(𝑡、𝑎和𝑣)由𝑀轴上的第二个MLP单元执行。最后,𝐷轴上的第三个MLP单元执行通道混合。每个MLP单元包含两个完全连接的层,每个层都包含一个仿射变换,可以在数学上表示为一个带有偏差的矩阵𝑊。在CubeMLP中,我们使用提出的三种MLP设计结构在每个可能的轴上混合多模态特征。之后,混合特征被平面化并馈送到分类器进行预测。在此过程中,融合多模态特征,并在任意轴上交换多模态信息。
贡献如下:
- 我们提出了一个完全基于MLP的多模态特征处理框架CubeMLP。CubeMLP在三个轴上混合特征:序列(𝐿)、模态(𝑀)和通道(𝐷)。在混合过程中,不同的多模态信息(𝑡,𝑎和𝑣)被有效地传输和共享,以提取重要特征用于情感分析和抑郁检测。
- 我们建议使用mlp来大大减少计算负担,同时与一些最先进的方法取得竞争结果,这证明了我们的CubeMLP是一种有效的多模态特征处理结构。
-
我们在两个心理状态估计任务上进行了彻底的实验,以验证CubeMLP的有效性:多模态情绪分析和多模态抑郁检测。结果表明,我们的方法与最先进的情感分析方法具有良好的竞争力,同时在抑郁症检测方面取得了很大进展。
related work:
多模态和抑郁部分略过
mlp-based models:
基于mlp的模型是一种新的视觉任务结构。在ViT[7]中,首先使用Transformer进行图像处理。它将图像分成几个小块,并将它们提供给Transformer。显著的性能提升引发了许多其他变化[1,20],但计算负担仍然很大。因此,提出了一些基于mlp的模型,包括MLP-Mixer[31]、ResMLP[32]和Hire-MLP[10]。这些方法抛弃了自关注机制,代之以效率更高的mlp。通常,这些模型中包含两个独立的MLP,一个MLP处理通道,另一个处理令牌。
受基于mlp模型固有结构的启发,我们发现它可以很自然地转移到多模态特征处理中。由于多模态特征通常由三个轴(顺序、模态和通道)组成,我们添加了一个额外的MLP来全面混合这些特征。详细的结构在第3节中说明。
methods:
提取的特征被输入到堆叠的立方体mlp块中进行混合。
为了预测,混合特征被平面化。
其中 MLP unit:
CubeMLP是一种简单而有效的多模态特征处理结构。我们的任务是从视频中的人类话语中预测情绪倾向或抑郁程度,其中每个话语都是模型的输入样本。在一个话语中,提供了三种方式,包括文本(𝑡)、声学(𝑎)和视觉(𝑣)。我们的方法概述如图1所示。每个模态特征首先通过特定的方法提取。特征提取后,我们不像以前的方法那样在序列级别或通道级别交换跨模态信息[4,41]。
相反,我们在顺序,通道和模态级别上单独执行混合。具体来说,CubeMLP用于通过各自的MLP单元混合所有轴上的多模态特征。然后将混合的多模态特征传递给分类器,以执行情绪分析或抑郁检测的预测。
MD,我怎么没想到啊,让人提前发了
特征提取部分略过
CubeMLP:
提取特征后,我们首先在第二维上将扩展为,然后沿着扩展轴将它们连接起来组成多模态特征,其中𝑀是模态的数量。然后,将多模态特征传递给聚合层堆叠的cubemlp,以便混合如图1所示。
CubeMLP块由三个MLP单元组成,每个MLP单元被设计成在其各自的轴上混合多模态特征。
具体地说,第一个MLP目的是作用域L轴的序列混合
第二个MLP,目的是作用于M轴的的模态混合
第三个MLP,目的是作用于D轴的通道混合
每个MLP单元由两个完全连接的层和一个非线性激活组成,全连通层也可以看作是两个变换。
让我们考虑𝐿轴上的第一个顺序混合MLP单元。张量𝑋可以看作是一组向量,在(𝑚𝑑)∈{(1,1),(1、2),…,(2,1),(2,2),…,(𝑀,𝐷)}。是𝑚-th模态和𝑑-th通道的向量。序列混合MLP中的每个变换可以表示为:。
其中是两个矩阵的可学习参数,是L轴上的降维,他是一个超参数,在下面讨论,AffL的公式代表所有的都会共享参数WL和BL。
MLP unit可以被数学公式表示为:
其中参数解读:
第一个MLP unit输出的张量可以被考虑成一个系列的vector,其中(m,d)的范围是
其他两个unit是一样的
其中M'和D'分别是M轴和D轴上的降维,他们的公式表示为:
预测:
根据之前的工作[11,37],混合多模态特征𝑋‘∈𝑅𝐿’ ×𝑀‘ ×𝐷’被扁平化为𝑋‘∈𝑅𝐿’𝑀‘𝐷’。然后,将平坦的特征馈送到分类器𝑓𝑐:𝑅𝐿‘𝑀’𝐷'→𝑅,以预测情绪倾向或抑郁程度。
我们使用平均绝对误差(MAE)作为多模态情感分析训练过程中的损失函数,这是一个回归任务:
其中N是样本数。利用MAE计算预测结果与地面真实值之间的绝对误差。MAE对小错误的影响比高阶错误的影响更大,允许模型在微妙的情感上达到更好的准确性。
因此,MAE经常被用作情感分析的关键性能指标[2,11,12,37]。
对于抑郁检测,我们训练模型以一致性相关系数(CCC)损失作为损失代价来回归抑郁趋势: