自动化构音障碍严重程度分类:基于声学特征与深度学习的研究 学习技术

自动化构音障碍严重程度分类

原文名称:Automated Dysarthria Severity Classification:A Study on Acoustic Features and Deep Learning Techniques

摘要

本文比较了不同深度学习技术和声学特征在构音障碍严重程度分类中的应用。研究评估了深度神经网络(DNN)、卷积神经网络(CNN)、门控递归单元(GRU)和长短期记忆网络(LSTM),并使用梅尔频率倒频系数(MFCCs)和常量Q倒频系数(CQCCs)作为基本语音特征。此外,还探讨了低维特征表示的效用,使用i-vectors进行分类。实验使用UA-Speech和TORGO数据库,结果显示基于MFCC的i-vectors的DNN分类器表现最佳,在UA-Speech数据库中说话者相关场景下准确率达到93.97%,说话者无关场景下准确率为49.22%。

引言

A. 动机与相关工作

构音障碍是由于语音生成子系统的协调不良或故障引起的运动性言语障碍。其严重程度的评估对诊断、治疗和自动语音识别系统有重要意义。传统方法依赖于语言病理学家的主观评估,存在不一致性和高成本问题。因此,开发自动构音障碍严重程度分类系统至关重要。

B. 贡献

本文的主要贡献包括:

  • 使用MFCCs和CQCCs分析基本深度学习架构(DNN、CNN、GRU、LSTM)的性能。
  • 评估DNN分类器上的韵律、声门、语音和发音特征,并进行降维分析。
  • 实现两级学习分类器,第一层使用i-vector子空间建模,第二层基于DNN分类。
  • 使用轮流留一说话者的交叉验证实验生成说话者无关模型。

数据库

A. 标准美式英语构音障碍数据库

本文使用了两个标准数据库:TORGO和UA-Speech。TORGO包含来自健康说话者和构音障碍患者的对齐声学和测量的3D发音特征;UA-Speech包含来自13名健康说话者和19名构音障碍患者的数据,用于训练和测试模型。
在这里插入图片描述

实验设计

A. 分析MFCCs和CQCCs

通过DNN、CNN、GRU和LSTM模型分析MFCCs和CQCCs的性能。结果表明,MFCCs在说话者相关场景中表现更好,而CQCCs在说话者无关场景中表现更佳。

B. 分析特定言语障碍特征

使用声门、发音、语音和韵律特征与DNN模型结合,评估它们在突显语音副语言方面的有效性。结果表明,发音特征提供了最佳结果。

C. i向量分析

i向量是一种面向说话人验证的方法,将高维GMM超向量空间映射到单一的总变异空间。本文使用i向量与DNN结合,构建分类器以区分不同严重程度的构音障碍。

特征设计

A. MFCC和CQCC提取

对于每30毫秒的帧,计算13维MFCC及其前两次导数,帧移为10毫秒。CQCC的带宽限制在100Hz - 8kHz,每八度的箱数量设置为48。

B. 特定言语障碍特征提取

从DisVoice python库和Kaldi工具包提取特定言语障碍特征,包括韵律、发音、声门和发声特征。

分类器设计

A. 基线分类器

使用支持向量机(SVM)和随机森林(RF)作为基线分类器。优化参数后,SVM和RF在不同实验中表现出不同的最佳配置。

B. 深度学习分类器

构建DNN、CNN、GRU和LSTM模型,调优层数和参数,以获得最佳分类性能。

结果与讨论

A. 分析MFCC和CQCC

DNN和CNN模型在MFCC上表现优于其他模型,但随着模型复杂性的增加,泛化能力下降。CQCC在说话者无关场景中表现更好。

B. 分析特定言语障碍特征

DNN在所有情况下表现优于SVM,但RF分类器的结果接近DNN。发音特征提供了最佳结果。

C. 分析i-Vectors

使用i-vectors和DNN结合,iMFCC在说话者相关和无关场景中均表现最佳,显著提高了分类准确率。

D. 评估模型的说话者依赖性

通过LOSO交叉验证实验评估模型在未见说话者场景下的表现。结果显示,CQCC在说话者无关场景中表现更好,而MFCC在已见说话者场景中表现更佳。

结论

本文首次详细调查了使用不同声学特征的各种深度学习模型在构音障碍严重程度分类中的应用。研究表明,MFCC在所有分类器上提供了最低的计算复杂性,而DNN-iMFCC框架在准确性方面表现最佳。未来工作将探索最新的最先进特征x-vectors以及增强Teager能量运算符(ETEO)在区分不同构音障碍严重程度级别中的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/566.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】ELMO、GPT、BERT、BART模型解读及对比分析

文章目录 一、基础知识1.1 Word Embedding(词嵌入)1.2 词嵌入模型1.3 神经网络语言模型NNLM 二、ELMO2.1 ELMO的提出2.2 ELMO核心思想2.3 ELMO的优缺点 三、GPT3.1 Transformer3.2 GPT简介3.3 GPT模型架构3.4 预训练及微调3.5 GPT和ELMO对比 四、BERT4.1…

EasyExcel(二)导出Excel表自动换行和样式设置

EasyExcel(一)导出Excel表列宽自适应 背景 在上一篇文章中解决导出列宽自适应,然后也解决了导出列宽不可超过255的问题。但是实际应用场景中仍然会有导出数据的长度超过列宽255。这时导出效果就会出现如下现象: 多出列宽宽度的内容会浮出来,影响后边列数据的显示。 解决…

【深度学习】多目标融合算法(二):底部共享多任务模型(Shared-Bottom Multi-task Model)

目录 一、引言 1.1 往期回顾 1.2 本期概要 二、Shared-Bottom Multi-task Model(SBMM) 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 三、总结 一、引言 在朴素的深度学习ctr预估模型中(如DNN),通常以一个行…

分类模型为什么使用交叉熵作为损失函数

推导过程 让推理更有体感,进行下面假设: 假设要对猫、狗进行图片识别分类假设模型输出 y y y,是一个几率,表示是猫的概率 训练资料如下: x n x^n xn类别 y ^ n \widehat{y}^n y ​n x 1 x^1 x1猫1 x 2 x^2 x2猫1 x …

快速导入请求到postman

1.确定请求,右键复制为cURL(bash) 2.postman菜单栏Import-Raw text,粘贴复制的内容保存,请求添加成功

第432场周赛:跳过交替单元格的之字形遍历、机器人可以获得的最大金币数、图的最大边权的最小值、统计 K 次操作以内得到非递减子数组的数目

Q1、跳过交替单元格的之字形遍历 1、题目描述 给你一个 m x n 的二维数组 grid,数组由 正整数 组成。 你的任务是以 之字形 遍历 grid,同时跳过每个 交替 的单元格。 之字形遍历的定义如下: 从左上角的单元格 (0, 0) 开始。在当前行中向…

专题 - STM32

基础 基础知识 STM所有产品线(列举型号): STM产品的3内核架构(列举ARM芯片架构): STM32的3开发方式: STM32的5开发工具和套件: 若要在电脑上直接硬件级调试STM32设备,则…

基于Django的个性化餐饮管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 该系统的研发对于餐饮行业具有重要意义。首先,通过个性化餐饮管理系统的应用,餐饮企业能够精准把握顾客需求,提供定制化服务,从而增强顾客粘性,提升顾客满意度。其次&a…

scala代码打包配置(maven)

目录 mavenpom.xml打包配置项&#xff08;非完整版&#xff0c;仅含打包的内容< build>&#xff09;pom.xml完整示例&#xff08;需要修改参数&#xff09;效果说明 maven 最主要的方式还是maven进行打包&#xff0c;也好进行配置项的管理 以下为pom文件&#xff08;不要…

plane开源的自托管项目

Plane 是一个开源的自托管项目规划解决方案&#xff0c;专注于问题管理、里程碑跟踪以及产品路线图的设计。作为一款开源软件&#xff0c;Plane 的代码托管在 GitHub 平台上&#xff0c;允许任何人查看和贡献代码。它为用户提供了便捷的项目创建与管理手段&#xff0c;并配备了…

wireshark排除私接小路由

1.wireshark打开&#xff0c;发现了可疑地址&#xff0c;合法的地址段DHCP是192.168.100.0段的&#xff0c;打开后查看发现可疑地址段&#xff0c;分别是&#xff0c;192.168.0.1 192.168.1.174 192.168.1.1。查找到它对应的MAC地址。 ip.src192.168.1.1 2.通过show fdb p…

Elasticsearch:使用 Playground 与你的 PDF 聊天

LLMs作者&#xff1a;来自 Elastic Toms Mura 了解如何将 PDF 文件上传到 Kibana 并使用 Elastic Playground 与它们交互。本博客展示了在 Playground 中与 PDF 聊天的实用示例。 Elasticsearch 8.16 具有一项新功能&#xff0c;可让你将 PDF 文件直接上传到 Kibana 并使用 Pla…

【C++】深入理解string相关函数:实现和分析

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;1. 使用 stoi 和 stol 函数1.1 stoi 和 stol 的基本概述参数说明进制支持示例代码与解析运行结果解析 异常处理 &#x1f4af;2. 使用 stod 和 stof 函数2.1 stod 和 stof …

“AI智能服务平台系统,让生活更便捷、更智能

大家好&#xff0c;我是资深产品经理老王&#xff0c;今天咱们来聊聊一个让生活变得越来越方便的高科技产品——AI智能服务平台系统。这个系统可是现代服务业的一颗璀璨明珠&#xff0c;它究竟有哪些魅力呢&#xff1f;下面我就跟大家伙儿闲聊一下。 一、什么是AI智能服务平台系…

回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测

回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测 目录 回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测。 程序设计 完整代码&#xff1a;回…

页面滚动下拉时,元素变为fixed浮动,上拉到顶部时恢复原状,js代码以视频示例

页面滚动下拉时,元素变为fixed浮动js代码 以视频示例 <style>video{width:100%;height:auto}.div2,#float1{position:fixed;_position:absolute;top:45px;right:0; z-index:250;}button{float:right;display:block;margin:5px} </style><section id"abou…

【Vim Masterclass 笔记09】S06L22:Vim 核心操作训练之 —— 文本的搜索、查找与替换操作(第一部分)

文章目录 S06L22 Search, Find, and Replace - Part One1 从光标位置起&#xff0c;正向定位到当前行的首个字符 b2 从光标位置起&#xff0c;反向查找某个字符3 重复上一次字符查找操作4 定位到目标字符的前一个字符5 单字符查找与 Vim 命令的组合6 跨行查找某字符串7 Vim 的增…

力扣 岛屿数量

从某个点找&#xff0c;不断找相邻位置。 题目 岛屿中被“0”隔开后 &#xff0c;是每一小块状的“1”&#xff0c;本题在问有多少块。可以用dfs进行搜索&#xff0c;遍历每一个点&#xff0c;把每一个点的上下左右做搜索检测&#xff0c;当检测到就标记为“0”表示已访问过&a…

Python学习(四)调用函数、定义函数、函数参数、递归函数

目录 一、调用函数1&#xff09;函数介绍2&#xff09;数据类型转换 二、定义函数1&#xff09;定义函数2&#xff09;空函数3&#xff09;参数检查4&#xff09;返回多个值 三、函数的参数1&#xff09;位置参数2&#xff09;默认参数3&#xff09;可变参数4&#xff09;关键字…

汽车基础软件AutoSAR自学攻略(三)-AutoSAR CP分层架构(2)

汽车基础软件AutoSAR自学攻略(三)-AutoSAR CP分层架构(2) 下面我们继续来介绍AutoSAR CP分层架构&#xff0c;下面的文字和图来自AutoSAR官网目前最新的标准R24-11的分层架构手册。该手册详细讲解了AutoSAR分层架构的设计&#xff0c;下面让我们来一起学习一下。 Introductio…