自动化构音障碍严重程度分类
原文名称:Automated Dysarthria Severity Classification:A Study on Acoustic Features and Deep Learning Techniques
摘要
本文比较了不同深度学习技术和声学特征在构音障碍严重程度分类中的应用。研究评估了深度神经网络(DNN)、卷积神经网络(CNN)、门控递归单元(GRU)和长短期记忆网络(LSTM),并使用梅尔频率倒频系数(MFCCs)和常量Q倒频系数(CQCCs)作为基本语音特征。此外,还探讨了低维特征表示的效用,使用i-vectors进行分类。实验使用UA-Speech和TORGO数据库,结果显示基于MFCC的i-vectors的DNN分类器表现最佳,在UA-Speech数据库中说话者相关场景下准确率达到93.97%,说话者无关场景下准确率为49.22%。
引言
A. 动机与相关工作
构音障碍是由于语音生成子系统的协调不良或故障引起的运动性言语障碍。其严重程度的评估对诊断、治疗和自动语音识别系统有重要意义。传统方法依赖于语言病理学家的主观评估,存在不一致性和高成本问题。因此,开发自动构音障碍严重程度分类系统至关重要。
B. 贡献
本文的主要贡献包括:
- 使用MFCCs和CQCCs分析基本深度学习架构(DNN、CNN、GRU、LSTM)的性能。
- 评估DNN分类器上的韵律、声门、语音和发音特征,并进行降维分析。
- 实现两级学习分类器,第一层使用i-vector子空间建模,第二层基于DNN分类。
- 使用轮流留一说话者的交叉验证实验生成说话者无关模型。
数据库
A. 标准美式英语构音障碍数据库
本文使用了两个标准数据库:TORGO和UA-Speech。TORGO包含来自健康说话者和构音障碍患者的对齐声学和测量的3D发音特征;UA-Speech包含来自13名健康说话者和19名构音障碍患者的数据,用于训练和测试模型。
实验设计
A. 分析MFCCs和CQCCs
通过DNN、CNN、GRU和LSTM模型分析MFCCs和CQCCs的性能。结果表明,MFCCs在说话者相关场景中表现更好,而CQCCs在说话者无关场景中表现更佳。
B. 分析特定言语障碍特征
使用声门、发音、语音和韵律特征与DNN模型结合,评估它们在突显语音副语言方面的有效性。结果表明,发音特征提供了最佳结果。
C. i向量分析
i向量是一种面向说话人验证的方法,将高维GMM超向量空间映射到单一的总变异空间。本文使用i向量与DNN结合,构建分类器以区分不同严重程度的构音障碍。
特征设计
A. MFCC和CQCC提取
对于每30毫秒的帧,计算13维MFCC及其前两次导数,帧移为10毫秒。CQCC的带宽限制在100Hz - 8kHz,每八度的箱数量设置为48。
B. 特定言语障碍特征提取
从DisVoice python库和Kaldi工具包提取特定言语障碍特征,包括韵律、发音、声门和发声特征。
分类器设计
A. 基线分类器
使用支持向量机(SVM)和随机森林(RF)作为基线分类器。优化参数后,SVM和RF在不同实验中表现出不同的最佳配置。
B. 深度学习分类器
构建DNN、CNN、GRU和LSTM模型,调优层数和参数,以获得最佳分类性能。
结果与讨论
A. 分析MFCC和CQCC
DNN和CNN模型在MFCC上表现优于其他模型,但随着模型复杂性的增加,泛化能力下降。CQCC在说话者无关场景中表现更好。
B. 分析特定言语障碍特征
DNN在所有情况下表现优于SVM,但RF分类器的结果接近DNN。发音特征提供了最佳结果。
C. 分析i-Vectors
使用i-vectors和DNN结合,iMFCC在说话者相关和无关场景中均表现最佳,显著提高了分类准确率。
D. 评估模型的说话者依赖性
通过LOSO交叉验证实验评估模型在未见说话者场景下的表现。结果显示,CQCC在说话者无关场景中表现更好,而MFCC在已见说话者场景中表现更佳。
结论
本文首次详细调查了使用不同声学特征的各种深度学习模型在构音障碍严重程度分类中的应用。研究表明,MFCC在所有分类器上提供了最低的计算复杂性,而DNN-iMFCC框架在准确性方面表现最佳。未来工作将探索最新的最先进特征x-vectors以及增强Teager能量运算符(ETEO)在区分不同构音障碍严重程度级别中的应用。