语音情感识别调研

语音情感识别调研

  • 1、情绪识别综述
  • 2、语音情感识别算法
  • 3、语音特征提取
  • 4、相关项目
    • 1、用 LSTM、CNN、SVM、MLP 进行语音情感识别
    • 2、DST:基于Transformer的可变形语音情感识别模型
    • 3、语音情感基座模型emotion2vec
    • 4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络
    • 5、CA-MSER: 多模态语音情感识别
  • 5、应用
  • 6、竞赛

1、情绪识别综述

概述
语音情绪识别(Speech Emotion Recognition,SER)是指通过一段语音的声学特征(该特征与语音的内容信息和语种信息无关)来识别说话人的情绪状态的技术。说话人可通过调整发音器官的动作来改变语音信号的声学特征来表达不同的情绪。目前基于语音信号的情绪识别模型主要分为两类:离散形式情绪描述模型和连续形式情绪描述模型。离散形式情绪描述模型通过将情绪描述为离散的、形容词标签的形式,如生气(anger)、开心(happiness)、惊讶(surprise)、恶心(disgust)、害怕(fear)和难过(sad)等。连续形式情感描述模型将情绪描述为多维情感空间中的点,空间中的每一维对应情感的一个心理学属性。例如在一个二维的空间中,激活度(arousal)表示情感激烈程度,效价(valence)表示情感正负面程度。开心(happiness)可以用高激活度和高效价来表示,难过(sad)可以用低激活度和低效价来表示。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

2、语音情感识别算法

当今语音情感识别系统所采用的识别算法可以分为如下两类:离散语音情感分类器,维度语音情感分类器。

1.离散语音情感分类器
它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。比如GMM(高斯混合模型),SVM,KNN,HMM(隐马尔可夫模型)。

2.维度语音情感分类器
该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

(一)、传统方法
传统语音情绪识别方法一般分为两个步骤:情绪特征提取和统计建模。语音情绪识别常用的特征包括:
(1)韵律和能量特征,情绪的变化直接反映在整体韵律和能力的变化上。
(2)语音质量特征,发音人的情绪质量会影响语音质量。
(3)谱特征,虽然情绪变化直接反映在韵律和能量等长时连续信息中,这种变化也会间接的反映在谱特征本身的分布形态中。
(4)Teager能量特征,研究表明语音信号的Teager能量特征可以表征不同频带之间的相互作用。
上述四种特征是帧级别的,缺少上下文信息,因此称为局部特征。另一种特征是在这些局部特征的特征基础上,提取特征的长时统计量,包括最大值、最小值、均值、方差等,这些统计量称为全局特征。
统计建模方法包括离散情绪模型和连续情绪模型,离散语音情绪建模基于各种通用分类模型,包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等。连续情绪模型通过建立合理的回归模型,对所定义的连续情绪属性进行拟合和预测。Tian等人基于AVEC2012数据集和IEMOCAP数据集在四个维度(激发值、期待值、强势度、愉悦度)上进行情绪预测。

(二)基于深度学习的方法
早期基于DNN的情绪识别将DNN作为替代SVM的分类工具。后续出现了使用DNN预测帧级别的情绪后验概率,并基于HMM对句子进行建模的方法。声谱图+CRNN:最近很多人用声谱图加上CNN,LSTM这些深度学习模型来做。Attention-CNN、SOTA、wav2vec2等。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

3、语音特征提取

韵律学特征:
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。

声音质量特征:
音质特征是语音的一种主观评价指标,描述了声门激励信号的性质,包括发声者语态、喘息、颤音及哽咽,用来衡量语音纯净度、清晰度和辨识度。

基于谱的相关特征
基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。

音频检测的关键技术-MFCC特征提取,为了从音频信号中提取语音信息,目前使用的是普遍用于分析音频信号的mfcc值。MFCC(梅尔频率倒谱系数),梅尔频率是基于人耳听觉特性提取出来的,和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征,其主要应用于语音数据的特征提取。
链接:https://zhuanlan.zhihu.com/p/496818604

4、相关项目

评估指标:
指标:weighted accuracy(WA)、unweighted accuracy(UA)、weighted average F1(WF1);其中WA表示加权准确率,UA表示普通准确率,WF1表示加权F1 score。
GitHub topic一些相关项目:https://github.com/topics/speech-emotion-recognition

1、用 LSTM、CNN、SVM、MLP 进行语音情感识别

用 LSTM、CNN、SVM、MLP 进行语音情感识别,Keras 实现。
改进了特征提取方式,识别准确率提高到了 80% 左右。原来的版本的存档在 First-Version 分支。(传统机器学习,没具体评估指标)
代码:https://github.com/Renovamen/Speech-Emotion-Recognition

2、DST:基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Recognition》。该论文提出一个可变形的Transformer结构来对语音情感信号进行建模,能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址:https://arxiv.org/abs/2302.13729
代码仓库:https://github.com/HappyColor/DST

在这里插入图片描述

3、语音情感基座模型emotion2vec

在此背景下,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者们联手开发了一个通用的语音情感表征模型emotion2vec 。
本文提出的emtion2vec为一种自监督预训练方法,其核心为句子级别损失与帧级别损失,以及在线蒸馏范式。采用data2vec自监督框架,emotion2vec模型在预训练阶段包含两个网络:教师网络T和学生网络S。这两个网络拥有相同的架构,包括由多层卷积神经网络组成的特征提取器F,以及由多层Transformer组成的主干网络B。

论文链接👇:https://arxiv.org/abs/2312.15185
开源代码仓库👇:https://github.com/ddlBoJack/emotion2vec

在这里插入图片描述

4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征,再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合,更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。
在这里插入图片描述

5、CA-MSER: 多模态语音情感识别

是南洋理工&&天大 发表在ICASSP 2022的关于语音情感识别(Speech Emotion Recognition, SER)的工作,SER 指的是从音频数据中分析说话人的情感,是一个典型的情感分类任务。本文作者从音频数据中提取了多个不同级别的声学特征(原始音频信号、MFCC 和梅尔谱),将他们看作多模态信息进行处理,并且设计了 co-attention 模块进行多模态信息融合,在 IEMOCAP 数据集上取得了不错的效果。
在这里插入图片描述
开源代码地址:https://github.com/Vincent-ZHQ/CA-MSER

5、应用

宠物情绪识别:
智能狗项圈,界定狗子的喜怒哀乐
韩国的初创公司 Petpuls Lab,从 2017 年起便开始研发一种智能狗项圈,以帮助铲屎官更准确、更有效地理解自家狗子。智能项圈 Petpuls 的第一代,于 2018 年 2 月在韩国市场推出,之后受到广泛好评。去年该产品的第二代问世,售价 99 美金(约 640 元人民币)。

猫言猫语也能被翻译?喵喵?
前段时间,一位前 Amazon 工程师开发了一项应用程序 MeowTalk,能够把猫咪的「喵喵喵」翻译成短语,从而让人们知道它在表达什么。

教育领域:可以通过语音情感识别系统实时掌握学生的情感状态,利用其对情感特有的分析辨别能力,实时分析系统接收到的学生回复,及时地了解和把握学生的真实情感状态,从而迅速做出反馈并进行调整,大大增强了课堂效果和提高了学生的学习效率。

医学领域:面对诸多医患之间无法沟通交流的现象,语音情感识别系统发挥了极其重要的作用。当遇到情绪波动、抗拒交谈或是精神受创、难以沟通的患者,语音情感识别系统将会迅速做出反应并分析患者此刻的心理状态。

服务领域:普通的人工客服只会机械性、重复性地回答客户的问题和需求,不能做到灵活变通,从而致使部分客户产生抵触的情绪,导致客源的损失。而语音情感识别将会对此采取针对性的分析,当监测出客户情绪有负面波动时,则及时切换人工客服进行协调,有效地减少了客源损失量。
除上述领域外,语音情感识别在智能娱乐、电子商务、汽车驾驶、辅助测谎和人机交互[等应用程序非常重要。

6、竞赛

(1)多模态情感识别挑战赛
该竞赛开始于2016年,该竞赛英文名称为The multimodal emotion recognition challenge,统称为MEC或MER,由清华大学陶建华教授联合中国科学院自动化研究所连政助理研究员,南洋理工大学Erik Cambria教授,帝国理工学院Björn W. Schuller教授、奥卢大学赵国英教授在国际顶级人工智能学术会议ACM MM上举办。
(2)多模态情感分析挑战赛
英文全称 The Multimodal Sentiment Analysis Challenge(MUSE)。开始于2020年,由多媒体国际顶级会议ACM Multimedia举办,英国帝国理工学院、德国奥斯堡大学、芬兰奥卢大学等高校共同发起。
链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

参考:https://blog.csdn.net/weixin_44200133/article/details/134999341

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/303961.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【PyQt5篇】使用QtDesigner添加控件和槽

文章目录 &#x1f354;使用QtDesigner进行设计&#x1f6f8;在代码中添加信号和槽 &#x1f354;使用QtDesigner进行设计 我们首先使用QtDesigner设计界面 得到代码login.ui <?xml version"1.0" encoding"UTF-8"?> <ui version"4.0&q…

穿越代码之海:探寻结构体深层逻辑,展望未来应用新天地

欢迎来到白刘的领域 Miracle_86.-CSDN博客 系列专栏 C语言知识 先赞后看&#xff0c;已成习惯 创作不易&#xff0c;多多支持&#xff01; 结构体作为一种数据结构&#xff0c;其定义和特点决定了它在各种应用中的广泛适用性。随着科技的进步和新兴行业的不断涌现&#xf…

C++——IO流

目录 一&#xff0c;C语言的输入与输出 二&#xff0c;流是什么 三&#xff0c;C标准IO流 3.1 四个全局流对象 3.2 OJ题中的输入和输出 3.3 自定义类型重载输入和输出 四&#xff0c;C文件IO流 4.1 C文件操作步骤 4.1.1 操作文件的类 4.1.2 文件打开方式 4.1.3 文件操…

【数据下载】SODA数据更新至2022并教学下载

【数据下载】SODA数据更新至2022并教学下载 我为什么那么喜欢使用SODA数据&#xff1f; 就是三维网格化的数据&#xff0c;好用。 但是需要高分辨率还是需要找别的。 以前分享过SODA数据下载&#xff0c;但上次版本过于凌乱。因此重新借助更新再分享一次&#xff0c;不为过。…

前端mock数据——使用mockjs进行mock数据

前端mock数据——使用mockjs进行mock数据 一、安装二、mockjs的具体使用 一、安装 首选需要有nodejs环境安装mockjs&#xff1a;npm install mockjs 若出现像上图这样的错&#xff0c;则只需npm install mockjs --legacy-peer-deps即可 src下新建mock文件夹&#xff1a; mo…

Python | 超前滞后分析

Nino SST Indices (Nino 12, 3, 3.4, 4; ONI and TNI) 有几个指标用于监测热带太平洋&#xff0c;所有这些指标都是基于海表温度(SST)异常在一个给定的区域的平均值。通常&#xff0c;异常是相对于30年的周期来计算的。厄尔尼诺3.4指数(Nio 3.4 index)和海洋厄尔尼诺指数(Ocea…

【JavaWeb】Day39.MySQL概述——数据库设计-DQL(二)

数据库设计-DQL 聚合函数 聚合函数查询就是纵向查询&#xff0c;它是对一列的值进行计算&#xff0c;然后返回一个结果值。&#xff08;将一列数据作为一个整体&#xff0c;进行纵向计算&#xff09; 语法&#xff1a; select 聚合函数(字段列表) from 表名 ; 注意 : 聚合…

C++的stack和queue类(一):适配器模式、双端队列与优先级队列

目录 基本概念 stack的使用 queue的使用 适配器模式 stack.h test.cpp 双端队列-deque 仿函数 优先队列 priority_queue的使用 queue.h文件 stack.h文件 test.cpp文件 日期类的比较 商品的比较 结论 基本概念 1、stack和queue不是容器而是容器适配器&…

unable to find a medium containing a live file system解决办法!

背景&#xff1a; 用Ventoy制作U盘系统安装盘&#xff0c;只需要把ISO镜像拷进去就可以&#xff0c;可以放多少个镜像取决于U盘的大小&#xff0c;无需重复制作。Ventoy 将U盘的第一个分区默认格式化为exFAT文件系统来存放ISO文件。 但是&#xff0c;今天鲲鹏920平台安装银河…

实景三维技术在推进城市全域数字化转型的作用

4月2日&#xff0c;国家数据局发布《深化智慧城市发展推进城市全域数字化转型的指导意见&#xff08;征求意见稿&#xff09;》&#xff08;下称&#xff1a;《指导意见》&#xff09;&#xff0c;向社会公开征求意见。 《指导意见》作为推进城市数字化转型的重要文件&#xf…

蓝桥杯 交通信号 2022研究生组

问题&#xff1a; Dijstra算法变形题&#xff0c;有向边分正行和逆行方向&#xff0c;注意逆行的绿灯时间是正行的红灯时间。 这题的关键是理清从当前节点出发&#xff0c;到下一个节点是哪一时刻&#xff0c;理清这一点后&#xff0c;再跑Dijstra算法求最短路。 假设curr_t时…

美团一面,面试官让介绍AQS原理并手写一个同步器,直接凉了

写在开头 今天在牛客上看到了一个帖子&#xff0c;一个网友吐槽美团一面上来就让手撕同步器&#xff0c;没整出来&#xff0c;结果面试直接凉凉。 就此联想到一周前写的一篇关于AQS知识点解析的博文&#xff0c;当时也曾埋下伏笔说后面会根据AQS的原理实现一个自定义的同步器…

C++笔记(函数重载)

目录 引入&#xff1a; 定义&#xff1a; 易错案例&#xff1a; 引入&#xff1a; 对于实现相似功能的函数&#xff0c;在命名时&#xff0c;我们常会出现命名重复的问题。对于C语言&#xff0c;编译器遇到这种命名重复的情况&#xff0c;会进行报错。而我们的C为了更方便程…

前端开发中地图定位与距离计算的应用实践

前端开发中地图定位与距离计算的应用实践 在前端开发中&#xff0c;地图功能的应用日益广泛&#xff0c;无论是用户位置的定位、目标距离的计算&#xff0c;还是地址的解析与展示&#xff0c;地图都发挥着不可替代的作用。本文将重点介绍前端开发中实现地图定位、距离计算以及…

Docker部署前后端分离项目

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; 开发环境篇 ✨特色专栏&#xff1a; M…

Unity类银河恶魔城学习记录12-7-2 p129 Craft UI - part 2源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI_CraftWindow.cs using UnityEngine.UI; using TMPro; using UnityEngin…

CentOS7.9创建本地yum源操作步骤报错解决方法

1.基础信息 CentOS7.9-mini最小化安装的系统&#xff0c;在离线安装rpm时候需要大量依赖&#xff0c;需要花费大量时间去查找依赖包。受于环境限制无法接入互联网使用公开yum源&#xff0c;于是便有了搭建本机yum源的想法&#xff0c;在网上下载CentOS7.9标准版“CentOS-7-x86_…

windows 系统下 mysql 数据库的下载与安装(包括升级安装)

windows 系统下 mysql 数据库的下载与安装&#xff08;包括升级安装&#xff09; 一、mysql 介绍&#xff1a; MySQL 是一个关系型数据库管理系统&#xff0c;由瑞典 MySQL AB 公司开发&#xff0c;属于 Oracle 旗下产品。 MySQL 是最流行的关系型数据库管理系统之一&#xf…

pyqt5 QScrollArea组件

本示例中&#xff0c;演示了QScrollArea的使用&#xff0c;以及QScrollBar的样式设定&#xff0c;在代码中使用setStyleSheet设置样式&#xff0c;记得要优先设置scrollArea&#xff0c;再设置窗口的样式&#xff0c;不然QScrollBar的样式会不起作用&#xff0c;使用QSS设置没有…

hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

分析&#xff1a; 在启动hadoop服务的时候&#xff0c;遇到了这个问题&#xff1a; hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 这个一看就是&#xff0c;密钥问题 于是ssh 主机名就行测试 需要输入密码&#xff0c;就说明这里有问…