1.多模态数据:
不同的存在形式或信息来源均可被称之为一种模态。由两种或两种以上模态组成的数据称之为多模态数据(多模态用来表示不同形态的数据形式,或者同种形态不同的格式,一般表示文本、图片、音频、视频、混合数据)。
多模态数据是指对于同一个描述对象,通过不同领域或视角获取到的数据,并且把描述这些数据的每一个领域或视角叫做一个模态。
2.多模态数据融合:
主要是指利用计算机进行多模态数据的综合处理,负责融合各个模态的信息来执行目标预测。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。
3.多模态融合分类法:
A.模型无关的融合方法:简单但实用性低,融合过程容易产生损失
融合发生的时间是一个重要的考虑因素。针对不同的融合时期或融合水平,模型无关的融合方法共有三种。
早期融合:又称为特征融合,是指对模态进行特征提取之后立刻进行的一种融合方式。特征融合的优势在于可以在早期利用来自不同模态的多个特征之间的相关性,适用于模态之间高度相关的情况。
后期融合:也称为决策层融合,指的是在每种模态都做出决策(分类或回归)之后才进行的融合。进行后期融合,需要使用相应的模型对不相同的模态进行训练,再对这些模型输出的结果进行融合。该融合方式可以处理简单的数据异步性,允许使用最适合分析每种单一模态的方法,如音频使用隐马尔可夫模型(Hidden Markov Model,HMM)、图像使用可支持向量机(Support Vector Machines,SVM)
混合融合:综合了早期融合与后期融合的优点,但也使得模型的结构变得复杂并加大了训练的难度。由于深度学习模型所具有的灵活性和多样性的结构特点,比较适合使用混合融合方法。
B.基于模型的融合方法:较复杂但准确率高、实用性强,也是目前运用的主流方法。
多核学习(Multi-Kernel Learning,MKL)方法:是内核支持向量机(SVM)方法的扩展,是深度学习之前最常用的方法,其允许使用不同的核对应数据的不同视图,由于核可以看作各数据点之间的相似函数,因此该方法能更好地融合异构数据且使用灵活。
图像模型方法:主要通过对图像进行分割、拼接、预测的操作将浅层或深度图形进行融合,从而得到最终的融合结果。常见的图像模型分为生成式(联合概率)模型和判别式(条件概率)模型。图像模型的优势主要是它们容易发掘数据中的空间结构和时间结构,通过将专家知识嵌入到模型中,使得模型的可解释性增强。缺点是特征之间具有复杂的依赖关系,并且模型的泛化性不强。
神经网络方法:使用长短期记忆网络(Long Short-Term Memory,LSTM)和循环神经网络(Recurrent Neural Network,RNN)来融合多模态信息。
。