SER论文阅读:SPEECH EMOTION RECOGNITION WITH CO-ATTENTION BASED MULTI-LEVEL ACOUSTIC INFORMATION

论文:https://arxiv.org/abs/2203.15326
代码:https://github.com/vincent-zhq/ca-mser

Title: SPEECH EMOTION RECOGNITION WITH CO-ATTENTION BASED MULTI-LEVEL ACOUSTIC INFORMATION
题目:基于共注意的多层次声学信息语音情感识别

语音情感识别(SER)旨在帮助机器仅从音频信息中理解人的主观情感。然而,提取和利用全面深入的音频信息仍然是一项具有挑战性的任务。在本文中,提出了一个端到端语音情感识别系统,利用多级声学信息和新设计的共注意模块。首先利用CNN、BiLSTM和wav2vec2分别提取多层声学信息,包括MFCC、谱图和嵌入的高级声学信息。然后将这些提取的特征作为多模态输入,并通过所提出的共同注意机制进行融合。实验在IEMOCAP数据集上进行,我们的模型通过两种不同的与说话人无关的交叉验证策略实现了具有竞争力的性能。
情感的自动识别在人机交互和监控等方面有广泛的应用。一些研究者提出将声音信息与文本信息相结合,学习高水平的语境信息来帮助做出最终的情绪预测。然而,对于大多数情感识别应用程序来说,相应的转录并不总是可用的。此外,现有的自动语音识别系统生成的文本也会引入单词识别错误,干扰情绪识别任务。由于单一的音频数据更容易获得,因此仅从音频信号中进行情感感知要比使用额外的文本和视觉信号进行多模态情感识别容易得多。将多种声音信息整合起来,将语音情感识别问题转化为多层次融合问题,是一种利用完整音频信息的有效方法。
在本文中,我们介绍了三种不同的编码器用于多级声学信息:用于谱图的CNN,用于MFCC的BiLSTM和用于原始音频信号的基于变压器的声波提取网络wav2vec2。利用所设计的共注意模块,利用MFCC和谱图特征提取的有效信息对每帧进行加权后优化得到最终的wav2vec2嵌入(W2E)。我们将这三个提取的特征串联起来,用最终融合的信息进行最终的情感预测。提出的模型在广泛使用的IEMOCAP数据集上超越了目前的竞争模型,它采用了“保留一个说话者”和“保留一个会话”的交叉验证策略。
在这里插入图片描述

在将原始音频话语分割成多个片段后,将一个片段的三个层次的声学信息(MFCC、谱图和W2E)引入到各自的特征编码器网络中,并与所提出的共注意方法进行融合,最终实现情感识别。
本文将多层次声学信息定义为基于人类知识的低层MFCC、基于深度学习的高层谱图和W2E的结合,从而涵盖语音信号在频率和时域的特征。MFCC序列采用双向LSTM处理,dropout为0.5且平坦。先对预训练的AlexNet的谱图图像进行重塑。对AlexNet提取的特征进行类似于MFCC特征的操作。原始音频片段直接发送到相应的wav2vec2处理器和wav2vec2模型,以获得目标的原始wav2vec2输出
考虑到三种声音信息源在最终情绪预测中的作用相似,我们利用它们之间的相关性来指导特征的适应。通常,最后一帧或wav2vec2输出的平均值被用来表示wav2vec2特征。很明显,在序列维数中我们丢失了一些有效的信息。
数据集:IEMOCAP是一个广泛使用的情感识别数据集,从十个不同的演员记录的音频、视频、转录和动作捕捉信息。根据其他人的研究[12,7,5],我们将“高兴”和“兴奋”合并到“高兴”的范畴中,并考虑了来自4种情绪的5531个声音话语,即愤怒、悲伤、高兴和中性。为了更准确地评估模型的性能,我们使用5次保留一个会话和10次保留一个说话人的交叉验证策略来测试我们的模型,以生成与说话人无关的结果。同时,我们使用常用的加权精度(W A)和非加权精度(UA)作为评价指标。
使用的原始音频信号采样在16khz。我们将每段音频分成3秒的几个片段。当一个段小于3秒时,将对这个段应用0填充操作以保持相同的长度。一个音频话语的最终预测结果将由该话语的所有分割片段决定。
为了充分利用不同层次的语音信息,我们在这个SER任务中使用了三种声学信息:MFCC、谱图和W2E。MFCC是一种考虑到人类听觉特征的40维htk风格的Mel频率特征。它是用librosa库[20]从原始音频片段中提取出来的。谱图和W2E是音频信号的深层特征。对于光谱图,应用了一系列40毫秒的汉明窗,跳长为10毫秒,这里我们将每个加窗块视为一个帧。每一帧被转换成一个频率域,其长度为800的离散傅里叶变换(DFT)。前200个DFT点被用作输入谱图特征。我们最终得到了每个音频片段大小为300*200的谱图图像。和多模态情感识别方法[21]一样,W2E是通过预训练的基于变压器的wav2vec2网络获得的。它是语言的深层特征在时域的反映。
在这里插入图片描述

对于leave-one-session-out验证策略,我们提出的方法在UA和W A方面的最佳性能分别为69.80%和71.05%。对于“留一个说话人”验证策略,该方法的UA值最高,为72.70%。同时,在这个不平衡的IEMOCAP数据集上,它在W A中的性能也具有竞争力,与UA的结果非常相似,为71.64%。
在这里插入图片描述

该方法利用了时域和频域的多层次声学信息。表2为不同声信息组合下模型性能的烧蚀研究。前三行是只有一个声学信息层次的情感识别结果:MFCC、谱图和W2E。在最终的情感识别中,W2E比其他方法具有更好的性能。接下来的三行总结了不同特性与W2E结合的结果。后四行展示了不同组合特征与加权W2E信息共同关注后的结果。多种声学信息的结合和提出的共同注意模块对整个模型的性能有很大的提高。消融研究也显示了所提出的共同注意机制的有效性。从表2的最后两行可以看出,联合注意机制进一步优化了融合数据,其性能优于直接拼接操作,分别提高了4.42%和4.89%的W A和UA。如图2所示,经过共同注意的加权W2E和最终合并特征的t-SNE可视化结果,与未进行共同注意的未加权W2E和最终合并特征的结果相比,分类边界更加清晰。从图3中我们还可以观察到,由最终归一化混淆矩阵得到的具有共注意的模型最终分类结果要比没有共注意的模型好得多。
在这里插入图片描述

本文提出了一种利用多层次声学信息的基于协同注意的SER系统。通过设计不同的编码器,该模型可以从原始音频信号中获得特定特征的信息,并为SER问题提供互补的声学信息。此外,该方法还引入了一种基于共注意的融合方法来获得加权的wav2vec2嵌入并结合最终的特征。在IEMOCAP数据集上的实验表明,我们提出的方法在不同的与说话人无关的交叉验证方法下获得了具有竞争力的性能。在未来,我们希望结合来自不同语言或数据集的知识来提高最终的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【英语演讲】Informative Speech

写在前面: 本专栏用于收纳我本学期在《英语演讲》课上的present的所有演讲文稿,一来是记录文案防止在自己电脑上误删了hh(虽然成功传上来我可能就立马会删掉orz),二来是方便大家学习与交流(啦)。…

动画对话框实现

炫酷的动画对话框 关键技术 AlertDialog的自定义 代码 //创建对话框实例dlg new AlertDialog.Builder(this).create();dlg.show(); //显示对话框Window window dlg.getWindow(); //获取对话框窗口window.setGravity(Gravity.CENTER); …

chatgpt智能提效职场办公-ppt怎么蒙层

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 在 PowerPoint 中添加蒙版图层,可以在幻灯片中创建一个半透明的矩形或形状,并在其上方添加或放置其他对象。 下…

作文批改网如何粘贴英语作文

批改网的英语作文不允许被粘贴的话,下面提供四种办法使用复制粘贴功能:   1。移除监听事件即可开启 在浏览器中打开,鼠标右键选择检查,或者按快捷键F12打开调试窗口 点击Console 输入以下代码: $(#contents).…

ChatGPT实战100例 - (01) 秒出思维导图

文章目录 ChatGPT实战100例 - (01) 秒出思维导图一、需求与思路1. 需求:快速的头脑风暴2. 思路:生成markdown然后转化嗯 二、生成markdown语法的思维导图1. 问题2. 回答 三、把markdown文本转换成思维导图1. 转换2. 下载 ChatGPT实战100例 - (01) 秒出思…

ChatGPT解答:PYQT5 的mwindow源码文件里面写了很多的函数方法,随着时间的推移越来越多,代码行数太多,影响了性能,如何解决

ChatGPT解答: PYQT5 的mwindow源码文件里面写了很多的函数方法,随着时间的推移越来越多,代码行数太多,影响了性能,如何解决 以下为可复制的内容与实例: PYQT5 的mwindow源码文件里面写了很多的函数方法&a…

如何正确定位自己,并婉拒多的offer

前言 如果你采用了前文介绍的方法,也拿到了多家公司的offer。那么选择困难的时候,就需要你正确定位自己,做出决策。这时,你也要想明白你到底是要什么。我推荐给你的方法是...... 1. 正确定位自己 在自己评估自己的时候&#xff0c…

程序员找工作竟遭25家公司的婉拒!网友:真心佩服他的勇气~

每个人的追求不一样,也许是因为我本身是一个没有野心的人,所以比较容易知足,不太愿意花那么多的时间和精力去追逐功名利禄,但是最近看到下面这个程序员网友的经历使我燃气了熊熊的欲望之火 可见,这名程序员的坚持并没有…

10岁女程序员,婉拒谷歌 Offer ,凭实力影响着所有年轻人!

点击上方“开源社”关注我们 | 转载自:核桃编程教育 | 编辑:王皓月 | 责编:Corrie 开源社引言 这是一个全民编程的时代,这是一个不分岁月创造奇迹的时代。继82岁程序员若宫正子独立开发 iPhone 手游、90后美女张怡从小白到AI算法工…

罗永浩重返科技圈,却故人难寻

阅读本文大概需要 2.6 分钟。 宣布年后就会回归科技界的时候,罗永浩自己可能都没想到,这个回归之路比预想的要漫长一些。 在进军 AR/VR 之前,他得重回讲台,卖直播培训课。虽然只是撑场面,每期只讲一个半小时&#xff0…

现代C++的文艺复兴

广播分享下2022全球C及系统软件技术大会盛会,不知道的可以提前关注下。 鉴于上海疫情发展,全球C及系统软件技术大会预计推迟至2022年5月20-21日举办。 2022全球C及系统软件技术大会 | 官方网站 本文是全球 C 及系统软件技术大会联合主席李建忠老师为C…

我们公司没销售 - 疫情下企业软件的互联网营销

瘟疫似乎没完没了了,两年前写的文章,现在看起来竟然还有意义,再翻出来改改。 说到没销售,其实有很多商业形态都没有销售人员,运转得都挺好,这没什么可大惊小怪的。 不过,我们是个做企业软件的公…

42岁码农今年找工作记录

作者:胡说 | 编辑:对白的算法屋 https://zhuanlan.zhihu.com/p/461526410 给自己记录一下。32岁的时候还在硅谷大厂做架构师,35岁的时候回国在阿里P8,然后自己任性的去挑战各种奇葩的方向。现在一个大型外企里面做着一些不疼不痒的…

代码随想录算法公开课!

关注代码随想录的录友,基本都是跟着代码随想录一起刷题的。 目前代码随想录的内容是完全开放在代码随想录网站,Github,和Gitee上,同时也出版了《代码随想录》纸质版。 这套刷题顺序和题解帮助了非常多的录友。 而现在我打算将《…

广州搬砖第三年,从一枚小菜鸡到架构师

theme: cyanosis 前言 在广州搬砖三年,我觉得蛮有意思的,真真正正有所成长的,也让我从一名小菜鸡成长为一名架构师,当然中间也遇到很多艰辛,当我回过头去看的时候,这些都是我成长的垫脚石,雕刻…

35岁程序员面试时被嫌弃年纪大,被婉拒了,太扎心了

老张是一名java程序员,35岁,有丰富的开发经验。 最近老张到一家互联网创业公司面试,去面试前,张工在电话里就先和HR表明自己的期望薪资范围,免得最后技术面通过了,而薪资方面达不到要求,浪费彼此…

计算机研究生考426分单科多少,考研初试426分,第一名的成绩,只因为是跨考,却被老师婉拒?...

某个考生,考研初试426分,第一名的成绩,只因为是跨考,却被老师婉拒? 跨专业考研到底又有多难? 最近,有个江苏南京的家长,拿着这张图片来问我,是不是说跨专业考研的学生&am…

一个 SAP 开发工程师的 2022 年终总结:四十不惑

儿时对于一年四季,我最中意的便是冬季,因为冬季意味着即将到来的寒假,可以回到老家,和多日不见的玩伴们痛痛快快玩上一段时间。冬季也总是和春节联系在一起,过年就意味着可以从长辈那拿到一笔压岁钱,把自己…

程序员加班回家,被快递小哥误当小偷

(给程序员的那些事加星标) 综合自:浙视频、微博 【导读】:最近有个和程序员相关的视频火了,一快递小哥(小董)在深夜投快递时遇上一位加班到深夜回家的程序员,由于快递小哥不了解程序…

非对口专业测试人,婉拒猎头、放弃6份高薪offer,你敢信?

从非对口的国贸专业,步入测试之路;从红色旅游小城湘潭,迈入国际化都市上海。“明确方向-及时实践-谨慎选择-踏实扎根-计划未来”。她的每一步,都走得格外坚定有力......话不多说,让我们一起来看看这位小姐姐的成长故事…