ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

基本介绍:CVPR, 2023, CCF-A

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

        多模态情感识别(MER)旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色,但多模态固有的异质性仍然是一个挑战,不同模态的贡献差异显著。在本研究中,我们通过提出解耦的多模态蒸馏(DMD)方法来缓解这一问题,促进灵活且自适应的跨模态知识蒸馏,旨在增强每个模态的判别性特征。具体来说,每个模态的表示被解耦为两部分,即模态无关和模态专属空间,以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元(GD-Unit)来处理每个解耦的部分,从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成,其中每个节点表示一个模态,每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式,蒸馏权重可以自动学习,从而实现多样化的跨模态知识传递模式。实验结果表明,DMD在性能上持续优于最先进的MER方法。可视化结果显示,DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

        多模态情感识别(MER)旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据,例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,拥有诸多吸引人的应用,如智能辅导系统、产品反馈评估和机器人技术。

        对于MER,同一视频片段中的不同模态通常是互补的,能够提供额外的线索,用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合,即模型旨在编码和整合来自多种模态的表示,以理解原始数据背后的情感。尽管主流MER方法取得了显著成果,但不同模态之间的固有异质性仍然困扰我们,增加了稳健多模态表示学习的难度。不同的模态(如图像、语言和声音)在传递语义信息时采用不同的方式。通常,语言模态由有限的转录文本组成,其语义比非语言行为更为抽象。如图1(a)所示,语言在MER中发挥着最重要的作用,而模态之间的固有异质性导致了不同模态在性能上的显著差异。

        减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1(b)所示,然而,手动分配蒸馏方向或权重可能非常繁琐,因为存在多种潜在的组合方式。因此,模型应根据不同的示例自动学习调整蒸馏方向,例如,许多情感更容易通过语言识别,而有些情感则更容易通过视觉识别。此外,不同模态间的显著特征分布不匹配,使得直接的跨模态蒸馏效果不佳。

        为此,我们提出了一种解耦的多模态蒸馏(DMD)方法,用于学习模态间的动态蒸馏,如图1(c)所示。通常,每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦,我们设计了一种自回归机制,预测解耦后的模态特征,并对其进行自监督回归。为了巩固特征解耦,我们引入了一种边界损失,用于规范模态和情感之间表示关系的接近度。因此,解耦的图蒸馏(GD)范式减少了从异质数据中吸收知识的负担,并使每个GD能够以更专业和有效的方式执行。

        基于解耦的多模态特征空间,DMD在每个空间中使用一个图蒸馏单元(GD-Unit),以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成,其中(1)节点代表模态中的表示或分类结果,(2)边表示知识蒸馏的方向和权重。由于模态无关(同质)特征之间的分布差距被充分缩小,GD可以直接应用于捕捉模态间的语义关联。对于模态专属(异质)特征,我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示,并减少了不同模态中存在的高级语义概念之间的差异。为了简化,我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏(HomoGD)和异质图知识蒸馏(HeteroGD)。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

        本研究的贡献可以总结为以下几点:

  1. 我们提出了一种解耦的多模态蒸馏框架,即解耦的多模态蒸馏(DMD),用于学习模态间的动态蒸馏,以实现稳健的多模态情感识别。在DMD中,我们明确将多模态表示解耦为模态无关/专属空间,以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式,蒸馏的方向和权重可以自动学习,从而实现灵活的知识传递模式。
  2. 我们在公开的MER数据集上进行了全面的实验,取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性,且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/430279.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MODELS 2024:闪现奥地利,现场直击报道

周末出逃!小编闪现至奥地利林茨,亲临第27届MODELS 2024国际会议,以第一视角引领你深入会议现场,领略其独特风采。利用午饭时间,小编紧急码字,只为第一时间将热点资讯呈现给你~ 会议介绍: MODEL…

数据结构篇--折半查找【详解】

折半查找也叫做二分查找或者对数查找,是一种在有序数组中查找特定元素的查找算法。 折半查找的算法步骤如下: 将目标关键字key与数组中的中间元素比较,若相等则查找成功。key大于中间元素,就到数组中大于中间元素的部分进行查找&…

吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.1-2.2

目录 第四门课 卷积神经网络(Convolutional Neural Networks)第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)2.1 为什么要进行实例探究?(Why look at case studies?&…

【ComfyUI】自定义节点ComfyUI_LayerStyle——模仿 Adob​​e Photoshop 的图层样式、图层混合、图文混合、添加不可见水印

官方代码:https://github.com/chflame163/ComfyUI_LayerStyle.git 相关资料下载:https://pan.baidu.com/s/16vmPe6-bycHKIjSapOAnZA?pwd0919 简介 在ComfyUI画布点击右键 - Add Node, 找到 “😺dzNodes”。 节点根据功能分为5组&#xff…

深入Android UI开发:从自定义View到高级布局技巧的全面学习资料

在Android开发的世界中,UI设计和实现是吸引用户的关键。本文将为您介绍一套全面的Android UI开发学习资料,包括详细的学习大纲、PDF文档、源代码以及配套视频教程,旨在帮助您从自定义View到高级布局技巧,全面提升您的UI开发技能。…

基于SpringBoot+Vue+MySQL的电影院购票管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着电影产业的蓬勃发展,电影院已成为人们休闲娱乐的重要场所。然而,传统的电影院购票管理系统存在诸多不便,如购票流程繁琐、排队时间长、无法提前选座等问题,给观众的观影体验带…

uni-data-select 使用 localdata 传入数据出现 不回显 | 下拉显示错误的 解决方法

目录 1. 问题所示2. 正确Demo3. 下拉显示错误(Bug复现)4. 下拉不回显(Bug复现)1. 问题所示 uni-app的下拉框uni-data-select 使用 localdata 传入数据 主要总结正确的Demo以及复现一些Bug 数据不回显数据不显示下拉选项2. 正确Demo 详细的基本知识推荐阅读:uni-app中的…

java项目之健身房管理系统源码(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的健身房管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 健身房管理系统的主要使用…

ModbusTCP通讯错误的排查

Modbus是一种由MODICON公司开发的工业现场总线协议标准,是一项应用层报文传输协议。该协议用于传输数字和模拟变量[1]。有关该协议的报文具体格式,以及一些基本概念,见[1]。 本文以一个例子,阐述当ModbusTCP通讯出现错误的时候&a…

深度学习01-概述

深度学习是机器学习的一个子集。机器学习是实现人工智能的一种途径,而深度学习则是通过多层神经网络模拟人类大脑的方式进行学习和知识提取。 深度学习的关键特点: 1. 自动提取特征:与传统的机器学习方法不同,深度学习不需要手动…

VOC2007数据集

目标检测入门code 文件目录 下载数据集——在官网下载VOC2007数据集 下载训练数据集 TRAIN data 下载测试数据集 TEST data 解压数据集 解压——训练数据集,在服务器上,目录为VOCdevkit 部分文件目录 全部文件总目录 解压——测试数据集 (…

移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——14.AVL树

1.AVL 树 1.1AVL 树的概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树,查 找元素相当于在顺序表中搜索元素,效率低下。因此,两位俄罗斯的数学家G.M.Adelson-Velskii 和E.M.Landis在1962…

数据结构之图的遍历

文章目录 广度优先遍历深度优先遍历 广度优先遍历 广度优先遍历过程类似于二叉树的层序遍历,从起始顶点开始一层一层向外进行遍历 比如现在要找东西,假设有三个抽屉,东西在那个抽屉不清楚,现在要将其找到,广度优先遍历…

【FFT】信号处理——快速傅里叶变换【通俗易懂】

快速傅里叶变换(Fast Fourier Transform, FFT)是一种用于将信号从时间域转换到频率域的算法。 傅里叶变换的核心思想是:任何周期性信号都可以分解成多个不同频率的正弦波或余弦波的叠加。 简单来说,FFT可以帮助我们理解一个信号…

鲲鹏计算这五年:硬生态基本盘稳住,才能放手进击软生态

文 | 智能相对论 作者 | 叶远风 数智化深入发展、新质生产力成为主旋律的当下,本土计算产业的发展被寄予越来越多的关注和期待。自2019年开启以来,鲲鹏计算产业生态已经整整走过5个年头。 因此,今年华为全联接大会的鲲鹏之夜,在…

大模型价格战,打到了负毛利,卷or不卷?

国产大模型淘汰赛在加速。这轮淘汰赛会持续一两年,只有少数真正具备实力的基础模型企业能继续活下去 中国市场的大模型价格战已经打了近半年。这轮价格战已经打到了负毛利,而且暂时没有停止迹象。头部云厂商仍在酝酿新一轮降价。这轮降价会在今年9月下旬…

【初阶数据结构】详解二叉树 - 树和二叉树(三)(递归的魅力时刻)

文章目录 前言1. 二叉树链式结构的意义2. 手搓一棵二叉树3. 二叉树的遍历(重要)3.1 遍历的规则3.2 先序遍历3.3 中序遍历3.4 后序遍历3.5 遍历的代码实现3.5.1 先序遍历代码实现3.5.2 中序遍历代码实现3.5.3 后序遍历代码实现 4. 统计二叉树结点的个数5.…

【iOS】MVC架构模式

文章目录 前言MVC架构模式基本概念通信方式简单应用 总结 前言 “MVC”,即Model(模型),View(视图),Controller(控制器),MVC模式是架构模式的一种。 关于“架构模式”&a…

828华为云征文|华为云Flexus X实例docker部署最新Appsmith社区版,搭建自己的低代码平台

828华为云征文|华为云Flexus X实例docker部署最新Appsmith社区版,搭建自己的低代码平台 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Ng…

Apache Hudi现代数据湖核心技术概论

1. 什么是 Apache Hudi 1.1 简介 Apache Hudi (Hadoop Upserts Deletes and Incrementals) 是一个开源的数据湖框架,旨在提供高效的数据管理和数据更新功能。它允许在大数据平台上执行诸如数据插入、更新和删除操作,同时支持增量式数据处理。Hudi 最初…