论文笔记：是什么让多模态学习变得困难？

整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记

背景
方法
- OGR
- 基于最小化OGR的多监督信号混合
- 在实践中的应用
实验

背景

直观上，多模态网络接收更多的信息，因此它应该匹配或优于其单峰网络。然而，最好的单模态网络往往优于多模态网络。这种观察在不同的模态组合以及不同的视频分类任务和基准上是一致的。如表一所示：

本文提出了两个主要原因：多模态网络往往容易过拟合；不同的模态过拟合和泛化率不同，因此使用单一优化策略联合训练它们是次优的。图一展示了一些尝试的改进，包括dropout、早停、SE门和NL门等，然而，这些方法都无法解决这些问题。
本文提出了一种称为顺应性混合（Gradient-Blending）的技术缓解这种情况，这是一种新的训练方案，与任务无关、与架构无关，通过多个监督信号的最佳混合来最小化OGR（在下文中提出）。

方法

OGR

我们首先假设单峰学习和多峰学习的基本形式：
$\mathcal{L}(\mathcal{C}(\varphi_m(X)),y)$ $\mathcal{L}_{multi}(\mathcal{C}(\varphi_{m_1}\oplus\varphi_{m_2}\oplus...\ \varphi_{m_k}),y)$ 其中， $\mathcal{C}$ 表示分类器， $\varphi_m$ 表示模态特定权重， $y$ 是标签。多峰网络是单峰网络的超集，对于多峰网络中任何一个模态，通过选择最好权重，可以构造与单峰网络同样好的解，然而在实际情况，这是不可能的。
过拟合通常被理解为在训练集中学习到的模式不会推广到目标分布。基于这一点，我们可以将第 $N$ 个时期的过拟合定义为 $\mathcal{L}_N^T$ 和 $\mathcal{L}_N^V$ 之间的差距。两个模型检查点之间的训练质量可以通过过拟合和泛化的变化来衡量（图3中的 $\Delta G$ ， $\Delta O$ ）。在检查点 $N$ 和 $N + n$ 之间，我们可以定义过拟合与泛化比（OGR）： $OGR\equiv|\frac{\Delta O_{N,n}}{\Delta G_{N,n}}|=|\frac{\Delta O_{N+n}-O_N}{\mathcal{L}_N^*-\mathcal{L}_{N+n}^*}|$
在这里插入图片描述
直观上，我们可以在训练期间最小化 $OGR$ ，但是有两个麻烦：1、全局优化OGR将是非常昂贵的。2、如果是欠拟合模型，那么这个损失会非常小。
因此，我们建议解决一个无穷小问题：给定梯度的几个估计，将它们混合以最小化无穷小 $OGR^2$ ，我们将此混合应用于优化流程。每个梯度步长在验证损失的每单位增益上尽可能少地增加泛化误差，从而最大限度地减少过拟合。在多模态设置中，这意味着我们将来自多个模态的梯度估计结合起来，并最小化OGR2，以确保每个梯度步长现在产生的增益不比单个最佳模态的增益差。这个 $L^2$ 问题允许一个简单的封闭式解决方案，易于实现，并且在实践中工作得很好。
考虑一个单一的参数更新步骤，其估计为梯度。由于两个检查点之间的距离很小，我们使用一阶近似： $\Delta G ≈ <\nabla \mathcal{L}^*,g^*>$ 和 $\Delta O ≈ <\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*>$ 。因此，对于单个向量 $g^*$ ， $OGR^2$ 为: $OCR^2=(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*>}{<\nabla \mathcal{L}^*,g^*>})^2$

基于最小化OGR的多监督信号混合

我们可以通过为每个模态的特征和融合特征分别添加分类器来获得梯度的多个估计（下图c）。通过分别反向传播每个损失来获得每模态梯度 $\{\hat g_i\}_{i=1}^k$ 。我们的下一个结果允许我们将它们全部混合到具有更好泛化行为的单个向量中。
在这里插入图片描述设 ${v_k\}_0^M$ 是 $\mathcal{L}^*$ 的一组估计值，其过拟合近似为 $\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k><\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_j>]=0,j\neq k$ 。给定约束 $\sum_kw_k=1$ ，该问题的最优权重 $w_k\in \mathcal{R}$ ： $w^*=arg min \mathbb{E}[(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,\sum_kw_kv_k>}{\mathcal{L}^*,\sum_kw_kv_k})^2]$ are given by: $w^*_k=\frac{1}{Z}\frac{<\mathcal{L}^*,v_k>}{\sigma_k^2}$ 其中， $\sigma_k^2\equiv\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k>]$ ， $Z$ 是一个标准化常数 $Z=\sum_k\frac{<\mathcal{L}^*,v_k>}{2\sigma_k^2}$ 。

在实践中的应用

我们采用多任务架构来构建上述优化的近似解决方案。即为所有模态构建单独的损失。在每个反向传播步骤中，模态 $m_i$ 梯度是 $\nabla \mathcal{L}_i$ ，来自融合损失的梯度记为 $\mathcal{L}_{k+1}$ 。产生混合梯度： $\mathcal{L}_{blend}=\sum_{i=1}^{k+1}w_i\mathcal{L}_i$ 通过适当选择 $w_i$ ，就产生了实现梯度混合的方便方法。直观地，损失重新加权重新校准学习时间表，以平衡不同模态的泛化/过拟合率。
在实践中，我们无法看到目标分布结果（测试集）测量OGR。为了测量OGR，我们保留训练集的子集V来近似目标分布。算法1提供了一种连续混合权重估计。以及两种不同的梯度混合方法（算法2，算法3）：1.离线渐变混合（Offline Gradient-Blending）：只计算一次权重，并使用一组固定权重来训练整个时期。2.在线渐变混合（Online Gradient-Blending）：完整版本，定期重新计算权重（例如，每n个epoch称为超级epoch），并使用超级epoch的新权重来训练模型。

实验

本文使用三种视频数据集进行消融：Kinetics、mini-Sports和mini-AudioSet：
在这里插入图片描述
本文的方法超过了单峰和后期融合。本文进一步验证了朴素联合训练中的过拟合问题：

在这两个数据集上，音频模型过拟合最多，视频过拟合最少。与仅视频模型相比，朴素联合音频-RGB模型具有较低的训练误差和较高的验证误差;即朴素音频-RGB联合训练增加了过拟合，解释了与单独视频相比的准确性下降。我们扩展了分析，考虑了三种模态（音频、RGB和光流）的所有4种可能组合。在每种情况下，朴素联合训练的验证准确度都明显低于最佳单流模型（表1），而训练准确度几乎总是更高。
不同优化器的比较：
在这里插入图片描述
表四给出了本文的方法与朴素联合训练和最佳单流模型的比较：

G-Blend在不同的基准测试和任务上优于所有基线方法：

在AudioSet上与最新方法的比较。GBlend在性能上大大优于现有的方法：
在这里插入图片描述与EPIC-Kitchen最先进方法的比较: