PyTorch基于深度神经网络的语音情绪识别

【图书推荐】《PyTorch语音识别实战》-CSDN博客

《PyTorch语音识别实战(人工智能技术丛书)》(王晓华)【摘要 书评 试读】- 京东图书 (jd.com)

 情绪数据的获取与标签的说明

首先是语音情绪数据集的下载,在这里使用瑞尔森情感语音和歌曲视听数据集(RAVDESS)。RAVDESS语音数据集包含1440个文件,覆盖两种不同类型的数据:演讲和歌曲。这个数据集由24名专业演员(12名女性,12名男性)录制。言语情绪包括中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶等8种情绪。每种情绪都包含两种情绪强度(正常、强烈)。

读者可以自行下载RAVDESS数据集,在这里使用Audio_Speech_Actors_01-24.zip这个子数据集进行情感分类,其结构如图5-4所示。 

下面讲解情绪文件的标签问题。这个数据包含中性、平静、快乐、悲伤、愤怒、恐惧、厌恶、惊讶8种情感,本项目只使用里面的Audio_Speech_Actors_01-24.zip数据集,说话的语句只有Kids are talking by the door和Dogs are sitting by the door。这一点请读者注意。

 情绪数据集的读取

下面对情绪数据集进行读取,在读取之前需要注意,每个文件都存放在不同的文件夹中,而每个文件夹也有若干不同的情绪文件。因此,在读取时需要首先完成文件夹的读取函数:

import numpy as np
import torch
import os
import librosa as lb
import soundfile# 列出所有目录下文件夹的函数
def list_folders(path):"""列出指定路径下的所有文件夹名"""folders = []for root, dirs, files in os.walk(path):for dir in dirs:folders.append(os.path.join(root, dir))return foldersdef list_files(path):files = []for item in os.listdir(path):file = os.path.join(path, item)if os.path.isfile(file):files.append(file)return files

由于这里是对音频进行读取,我们在第4章对音频数据降维的时候完成了基于Librosa库的音频读取和转换,读者可以直接使用其代码,如下:

#注意采样率的变更
def audio_features(wav_file_path, mfcc = True, chroma = False, mel = False,sample_rate = 22050):audio,sample_rate =  lb.load(wav_file_path,sr=sample_rate)if len(audio.shape) != 1:return Noneresult = np.array([])if mfcc:mfccs = np.mean(lb.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40).T, axis=0)result = np.hstack((result, mfccs))if chroma:stft = np.abs(lb.stft(audio))chroma = np.mean(lb.feature.chroma_stft(S=stft, sr=sample_rate).T, axis=0)result = np.hstack((result, chroma))if mel:mel = np.mean(lb.feature.melspectrogram(y=audio, sr=sample_rate, n_mels=40, fmin=0, fmax=sample_rate//2).T, axis=0)result = np.hstack((result, mel))# print("file_title: {}, result.shape: {}".format(file_title, result.shape))return result

这里需要注意的是,由于读取的是不同数据集,而采样率会跟随数据集的不同而变化,因此这里的采样率设置为22 050。

下面展示了完整的数据读取代码。为了便于理解,我们对每种情绪做了文字定义,并将这些定义与相应的情绪序号进行关联。需要注意的是,在前面的讲解中,情绪序号是排在文件名的第三个位置的数据。因此,我们可以通过对文件名进行文本分割提取出情绪序号,并根据序号与情绪的对应关系读取并理解相应情绪的标签。代码如下:

ravdess_label_dict = {"01": "neutral", "02": "calm", "03": "happy", "04": "sad", "05": "angry", "06": "fear", "07": "disgust", "08": "surprise"}folders = list_folders("./dataset")
label_dataset = []
train_dataset =  []
for folder in  folders:files = list_files(folder)for _file in files:label = _file.split("\\")[-1].replace(".wav","").split("-")[2]ravdess_label = ravdess_label_dict[label]label_num = int(label) -1 #这里减1是由于初始位置是1,而一般列表的初始位置是0result = audio_features(_file)train_dataset.append(result)label_dataset.append(label_num)train_dataset = torch.tensor(train_dataset,dtype=torch.float)
label_dataset = torch.tensor(label_dataset,dtype=torch.long)print(train_dataset.shape)
print(label_dataset.shape)

最终的打印结果是将训练数据和label数据转换为torch的向量,代码如下:

torch.Size([1440,40])
torch.Size([1440])

在这里只使用了MFCC的特征作为音频特征,而对于其他特征读者可以自行尝试。特别需要注意的是,这里MFCC的维度是40,这与后续模型的输入维度相同。当改变输入特征的长度后,后续的模型维度也要变化。

基于深度神经网络示例的模型设计和训练

本小节讲解情绪模型的设计和训练。在这里我们可以直接使用在5.1.2节中定义的深度神经网络示例框架,基于其实现模型的训练。完整代码如下:

import torch
import torch.nn as nn
import torch.optim as optim# 定义模型
class DNN(torch.nn.Module):def __init__(self, input_size = 40, hidden_size = 128, output_size = 8):super(DNN, self).__init__()self.hidden = torch.nn.Linear(input_size, hidden_size)self.relu = torch.nn.ReLU()self.output = torch.nn.Linear(hidden_size, output_size)def forward(self, x):x = self.hidden(x)x = self.relu(x)x = self.output(x)return x# 准备数据
import get_data
train_data = get_data.train_dataset.to("cuda")
train_labels = get_data.label_dataset.to("cuda")
train_num = 1440# 初始化模型和优化器
model = DNN().to("cuda")
optimizer = optim.Adam(model.parameters(), lr=1E-4)
criterion = nn.CrossEntropyLoss()# 训练模型,由于数据较少,这里一次性读取数据
for epoch in range(1024):optimizer.zero_grad()outputs = model(train_data)loss = criterion(outputs, train_labels)loss.backward()optimizer.step()if (epoch+ 1)%10 == 0:accuracy = (outputs.argmax(1) == train_labels).type(torch.float32).sum().item() / train_numprint("epoch:",epoch,"train_loss:", (loss),"accuracy:",(accuracy))print("-------------")

在训练循环中,每次迭代都先将梯度清零,然后计算模型的输出。接着计算损失值,并进行反向传播和参数更新。每10个epoch打印一次训练损失和准确率,结果如下所示。

…
epoch: 999 train_loss: tensor(1.5577, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.42569444444444443
-------------
epoch: 1009 train_loss: tensor(1.5536, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.4270833333333333
-------------
epoch: 1019 train_loss: tensor(1.5495, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.4305555555555556
-------------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/394361.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sourcemap使用

sourcemap是什么以及怎么生成就不过多阐述了&#xff0c;这是之前看到的一篇文章感觉介绍的很详细&#xff1a;弄懂 SourceMap&#xff0c;前端开发提效 100% 浏览器加载sourcemap 我们线上代码一般不会开启sourcemap&#xff0c;在排查线上的问题时&#xff0c;可以通过浏览器…

DataX PostgreSQL 读写支持Geometry类型

这里写目录标题 简要说明依赖代码 简要说明 通过简单修改源码中关于相关的reader、writer和DBUtil工具类&#xff0c;实现表到表之间的Geometry字段类型数据的输送&#xff0c;目前修改仅测试过在postgresql的postgis插件下的Geometry类型可行。 依赖 1.通过gitclone 或者 到…

用户规模NO.1之后,钉钉还有多大的成长空间?

近日&#xff0c;第三方数据机构QuestMobile发布的《2024半年度中国移动互联网实力价值榜》显示&#xff0c;钉钉与微信、淘宝、抖音等一同入榜 “TOP50赛道用户规模NO.1 App”&#xff0c;蝉联效率办公赛道榜首。 可以看出&#xff0c;现阶段钉钉打开了较大的市场空间&#x…

Qt 跨平台APP单实例运行实现

一.调用方法 支持coreApplication和简单的application两种继承&#xff1a; 二.源码地址&#xff1a; SingleApp: Qt 单实例实现

android13 串口编号修改 串口名修改

总纲 android13 rom 开发总纲说明 目录 1.前言 2.技术分析 别名定义的语法规则 3.修改示例 使用别名 注意事项 4.不生效分析 5.编译查看 6.其他方法 7.彩蛋 1.前言 更改Android设备的串口编号涉及对系统深层次的配置进行修改,通常是为了解决硬件兼容性问题或满足特…

选择文件鼠标右键自定义菜单

注册表路径 计算机\HKEY_CLASSES_ROOT\*\shell 效果 操作 1.定位 winr&#xff0c;输入regedit, 地址栏输入以下路径&#xff0c;并回车。 计算机\HKEY_CLASSES_ROOT\*\shell 2.在shell上右键&#xff0c;新建项 3右键新建字符串值&#xff0c;Icon,Position 4 右键新建c…

LabVIEW压电陶瓷阻抗测试系统

开发了一种基于LabVIEW软件与PXI模块化仪器的压电陶瓷阻抗测试系统。该系统能在高电压工作条件下测量压电陶瓷的阻抗特性&#xff0c;包括阻抗模值与阻抗角的频率特性&#xff0c;为压电陶瓷的进一步分析与应用提供了重要参考。 项目背景 现有的阻抗测试仪大多只能在低电压条件…

【多模态】Flamingo: a Visual Language Model for Few-Shot Learning

链接&#xff1a;https://arxiv.org/pdf/2204.14198 论文&#xff1a;Flamingo: a Visual Language Model for Few-Shot Learning Introduction Motivation&#xff1a;仅使用少量标注样本来快速适应新任务的建模方式是多模态机器学习研究的一个挑战与难点定位&#xff1a;a …

案例分享-国外UI设计界面赏析

国外UI设计倾向于简洁的布局和清晰的排版&#xff0c;减少视觉干扰&#xff0c;提升用户体验。通过合理的色彩搭配和图标设计&#xff0c;营造舒适愉悦的使用氛围。 设计师不拘泥于传统框架&#xff0c;勇于尝试新元素和理念&#xff0c;使界面独特有趣。同时&#xff0c;强调以…

指纹失效,忘记iPhone屏幕解锁密码怎么应对?

为保证手机的安全及隐私&#xff0c;我们会给手机设置屏幕锁屏密码&#xff0c;通过输入设置密码来解锁手机屏幕锁&#xff0c;但为了给大家提供快速便捷的解锁方式&#xff0c;苹果公司提供了指纹解锁&#xff0c;不仅解锁更便捷了还极大地增强了设备的安全性。但有时我们手指…

Prompt万能框架与常用评估指标

引言 在人工智能的飞速发展中&#xff0c;大型语言模型&#xff08;LLM&#xff09;已成为研究和应用的热点。LLM以其强大的语言理解和生成能力&#xff0c;在诸如自然语言处理、文本生成、问答系统等多个领域展现出巨大潜力。然而&#xff0c;要充分发挥LLM的能力&#xff0c…

【Material-UI】按钮组:Split Button 详解

文章目录 一、Split Button 概述1. 组件介绍2. 基本用法 二、Split Button 的应用场景1. 提交操作2. 导出操作3. 文件操作 三、Split Button 的样式定制1. 变体&#xff08;Variants&#xff09;2. 颜色&#xff08;Colors&#xff09; 四、Split Button 的优势1. 提升用户体验…

信创安全 | 新一代内网安全方案—零信任沙盒

在当今数字化时代&#xff0c;访问安全和数据安全成为企业面临的重要挑战。传统的边界防御已经无法满足日益复杂的内网办公环境&#xff0c;层出不穷的攻击手段已经让市场单一的防御手段黔驴技穷。当企业面临越来越复杂的网络威胁和数据泄密风险时&#xff0c;更需要一种综合的…

数字新时代,如何守护网络空间安全?(非常详细)零基础入门到精通,收藏这一篇就够了

- 书籍推荐 - 网络空间已经成为继陆、海、空、天之后的第五疆域。随着大数据、云计算、人工智能的迅速发展&#xff0c;网络入侵、信息恶意窃取、数据篡改以及伪造攻击等行为严重影响国家安全&#xff0c;也损害公民、法人及其他组织的合法权益。毫无疑问&#xff0c;网络空间安…

华为OD-D卷多段线数据压缩

下图中&#xff0c;每个方块代表一个像素&#xff0c;每个像素用其行号和列号表示。 为简化处理&#xff0c;多段线的走向只能是水平、竖直、斜向45度。 上图中的多段线可以用下面的坐标串表示&#xff1a;(2, 8), (3, 7), (3, 6), (3, 5), (4, 4), (5, 3), (6, 2), (7, 3), (8…

Java语言程序设计基础篇_编程练习题**16.11(创建表示字母出现次数的直方图)

目录 题目&#xff1a;**16.11&#xff08;创建表示字母出现次数的直方图&#xff09; 习题思路 1.HistogramPane类 2. HistogramPaneDemo类 代码示例 结果展示 题目&#xff1a;**16.11&#xff08;创建表示字母出现次数的直方图&#xff09; 编写一个程序&#xff0c;从文件…

CAD启动时自动加载vba程序方法

启动AutoCAD时自动启动你的dvb文件&#xff0c;方法如下&#xff1a; 方法一、加载 VBA 时&#xff0c;它会在 AutoCAD安装 目录中&#xff0c;查找名为 acad.dvb 的工程删除&#xff0c;将你的dvb文件命名为acad.dvb,替换掉原始文件即可。方法二、启动 AutoCAD 时&#xff0c…

Python 异步编程:Sqlalchemy 异步实现方式

SQLAlchemy 是 Python 中最流行的数据库工具之一&#xff0c;在新版本中引入了对异步操作的支持。这为使用异步框架&#xff08;如 FastAPI&#xff09;开发应用程序带来了极大的便利。在这篇文章中&#xff0c;简单介绍下 SQLAlchemy 是如何利用 Greenlet 实现异步操作的。 什…

proteus仿真c51单片机(四)双机串口通信(电路设计及代码)

实验要求 1.通过甲机的按键给乙机发送控制字符&#xff0c;同时也可以实现乙机给甲机发送控制字符 2&#xff0e;用PROTEUS软件根据所给电路画出电路图&#xff0c;用KEIL软件调试程序和编译&#xff0c;最后在PROTEUS软件中实现仿真。 3.甲乙两个单片机通过串口进行通信&am…

第R2周:Pytorch实现:LSTM-火灾温度预测

nn.LSTM() 函数详解 nn.LSTM 是 PyTorch 中用于创建长短期记忆&#xff08;Long Short-Term Memory&#xff0c;LSTM&#xff09;模型的类。LSTM 是一种循环神经网络&#xff08;Recurrent Neural Network&#xff0c;RNN&#xff09;的变体&#xff0c;用于处理序列数据&#…