基于语音的阿尔茨海默病检测识别

摘要

阿尔茨海默病（AD）是一种进行性神经退行性疾病，会严重损害认知功能，导致记忆力减退和其他行为改变。它是全球第七大死因，有数百万人受到影响。早期准确检测 AD 对于改善患者预后和减缓疾病进展至关重要。机器学习（ML）和深度学习（DL）模型的最新进展表明，使用患者的语音信号检测 AD 具有巨大潜力，因为语音模式的细微变化，例如流利度降低、发音困难和认知能力下降，可以作为疾病的早期指标，为早期诊断提供了一种非侵入性且具有成本效益的方法。本调查论文全面回顾了当前关于 ML 和 DL 技术通过分析患者的语音信号，利用各种声学和文本特征进行 AD 检测的文献。此外，它还概述了疾病引起的大脑变化、相关风险因素、公开可用的数据集以及利用 ML 和 DL 检测 AD 的未来方向。

关键词：

阿尔茨海默病（AD）;深度学习（DL）;机器学习（ML）;语音信号;声学特征;语言特征

1. 引言

阿尔茨海默病（AD）是一种进行性神经系统疾病，主要影响大脑正常运作的能力，被认为是第七大死亡原因 [1]。它是最常见的痴呆形式，其特征是认知能力逐渐下降，包括记忆力、推理和语言技能。这种下降通常伴随着行为和性格的变化 [2]。随着疾病的进展，患者的认知和功能能力会逐渐丧失，最终需要全天候护理。AD 的这种认知能力下降与较高的死亡率密切相关，一项研究发现 4 年内的死亡率为 50% [3]。AD 占全球所有痴呆病例的 70-80% [4]，其发病率随着年龄的增长而显着增加 [5]。根据世界卫生组织的数据，2020 年全球有 10 亿人年龄在 60 岁或以上。预计到 2050 年，这一数字将增加到 21 亿人。值得注意的是，预计这些老龄化人口的三分之二将来自低收入到中等收入国家 [6]。此外，全球痴呆症患者人数预计将从 2019 年的 5500 万飙升至 2050 年的 1.39 亿。AD 和其他痴呆症被认为是治疗成本最高的疾病 [5]。在美国，2019 年用于痴呆护理的支出为 1.3 万亿美元，预计到 2030 年成本将上升到 2.8 万亿美元。虽然 AD 的确切病因和病理生理学仍不明确且存在争议 [7]，但人们普遍认为，遗传、环境和生活方式因素的结合会增加一个人一生中患 AD 的风险 [5]。在大脑中，会发生显著的生理变化，其特征是两种导致脑物质降解的有毒蛋白的积累 [4]。这些蛋白质，包括淀粉样斑块和过度磷酸化的 tau，形成神经原纤维缠结，导致神经元丢失 [7]。尽管关于 AD 的生理根本原因存在几种相互竞争的假设，但主要理论集中在淀粉样蛋白的积累上 [4]。

对于诊断 AD，没有金标准诊断评估。诊断过程通常从体格检查和回顾患者的病史开始。在此之后，进行各种行为、认知和功能评估以评估认知能力下降的严重程度。然后可以采用生物标志物测试来排除认知障碍的其他潜在原因，并确定支持 AD 诊断的生物标志物。这些生物标志物分为两种类型：成像和液体。成像生物标志物，包括磁共振成像（MRI）和正电子发射断层扫描（PET）扫描，有助于评估与 AD 相关的化合物的积累并检测生理变化。液体生物标志物涉及分析血液和脑脊液（CSF）以识别这些化合物。要开始诊断过程，患者必须首先了解痴呆症状[8]。平均而言，75% 的痴呆患者仍未得到诊断，在低收入和中等收入国家，诊断不足率飙升至 90% [9]。传统的诊断方法侧重于评估由患者病史和影像学研究支持的认知和行为状态。然而，认知缺陷通常仅在疾病的晚期才被发现，此时可能已经发生了显著且不可逆的脑损伤 [4]。

鉴于诊断 AD 的挑战和对早期检测的迫切需求，专注于分析患者语音的计算机辅助诊断（CAD）系统已成为一个突出且快速发展的研究领域。在本文中，对设计用于检测阿尔茨海默病的 CAD 系统进行了全面回顾，为该领域提供了几个关键贡献。首先，我们对现有系统进行深入的比较分析，标准化评估标准以促进直接比较。其次，我们讨论了 AD 引起的大脑结构变化，以及与该疾病相关的关键风险因素。第三，我们全面概述了通常用于开发和评估用于阿尔茨海默病检测的 CAD 系统的公开数据集。通过根据注释类型（例如，标记的疾病阶段、认知测试结果）对这些数据集进行分类，我们旨在指导研究人员为他们的研究选择合适的数据集。第四，我们确定了该领域的关键差距和挑战，例如需要更强大的早期检测方法和多模态数据的整合。这些贡献旨在为研究人员、临床医生和开发人员提供阿尔茨海默病检测中 CAD 系统状态的详细且可作的概述，指导这一关键医疗保健领域的未来创新。

2. 阿尔茨海默病

AD 是一种慢性神经退行性疾病，会逐渐损害记忆、认知和日常功能。作为痴呆症的主要原因，它构成了重大的公共卫生挑战，对个人及其家庭产生了深远的影响。了解这种复杂疾病背后的机制和促成因素对于早期发现和有效干预至关重要。本节重点介绍该疾病的两个关键方面：大脑结构变化和风险因素。

2.1. 大脑结构变化

AD 会导致大脑发生相当大的结构变化 [10]。这些可以分为宏观或微观改变。虽然宏观变化与全身性脑病理一致，并且类似于其他神经退行性疾病中观察到的变化，但 AD 的微观变化具有高度特异性。与 AD 相关的生理变化和病理特征在整个大脑中分布不均匀。相反，它们最初表现在海马体中，然后通过互连的神经网络逐渐扩散到其他大脑区域，导致 AD 患者普遍的认知能力下降 [11]。

通常，AD 大脑表现出中度皮质萎缩，尤其是在多模态关联皮层和边缘叶结构中。这种萎缩在额叶和颞叶皮层尤为明显，导致脑沟间隙扩大和脑回萎缩。此外，楔前回和后扣带回等后皮质区域也显示萎缩。侧脑室额角和颞角增大以及整体脑重量减轻是常见的。虽然内侧颞叶萎缩（影响杏仁核和海马体）是 AD 的特征，但它也可能发生在其他与年龄相关的疾病中。另一个常见特征是蓝斑中神经黑色素色素沉着的丧失。虽然这些宏观特征并非 AD 所特有，但当排除其他神经退行性疾病时，它们可以支持诊断 [10]。图 1 说明了健康个体与阿尔茨海默病患者的大脑结构的比较。

AD 的微观病理既具有特异性又不同 [10]。它的特点是两种关键化合物——淀粉样蛋白-ββ（一个ββ）肽和 tau 蛋白——在大脑的特定区域，导致老年斑的形成。一个ββ被广泛认为是与 AD 的病因和进展有关的主要化合物 [12]。该肽是淀粉样蛋白前体蛋白（APP）裂解衍生的废物。APP 是一种跨膜蛋白，在大脑中起着至关重要的作用，包括调节突触形成和修复、铁输出和顺行神经元转运 [13]。在 AD 中，APP 的加工变得失调，导致 A 的消除受损ββ.因此，Aββ积聚在细胞外间隙和血管壁中，导致疾病的病理学[12]。

Tau 蛋白是一个调节微管稳定性和神经元功能的微管相关蛋白家族 [4]。tau 蛋白的失调和聚集是神经退行性疾病中最常见的病理特征 [12]。在健康神经元中，tau 蛋白有助于稳定微管，这对于维持细胞结构和促进细胞内运输至关重要。然而，在阿尔茨海默病（AD）中，tau 蛋白会过度磷酸化。这种修饰导致 tau 从微管中分离，并聚集成神经原纤维缠结。这些缠结会破坏微管功能，损害神经元运输，并导致神经元变性和认知能力下降 [4]。随着时间的推移，这些神经原纤维缠结在神经元内积累，加剧了疾病的进展 [12]。图 2 显示了随着疾病进展，淀粉样蛋白斑块和神经原纤维缠结在大脑中的分布。

Computers 14 00036 g001

图 1.健康的尸体大脑与患有阿尔茨海默病病理的尸体大脑的比较 [10]。箭头表示与正常大脑相比，阿尔茨海默病患者大脑中的脑沟扩大和回回狭窄，这些特征在冠状切片中更为明显。箭头突出显示了侧脑室额角和颞角的扩大。圆圈标志着脑桥被盖内蓝斑中色素沉着神经元的丢失。这些更改并非 AD 所独有。

Computers 14 00036 g002

图 2.阿尔茨海默病病理学通过大脑的进展，说明了淀粉样斑块和神经原纤维缠结的扩散。

2.2. 风险因素

蛋白质积累始于 AD 的确切原因尚不完全清楚。然而，有证据表明，年龄、遗传、合并症和生活方式选择等因素会影响发生 AD 的风险，其中遗传和年龄的影响最大 [14]。特别是遗传学占风险的 70% [15]。尽管某些环境因素（如金属）可能会增加患 AD 的风险 [16]，但目前的证据表明，AD 的发生率在全球范围内几乎相同，这表明环境可能不是主要决定因素 [12]。

导致 AD 的遗传因素很复杂，涉及多个基因，但载脂蛋白 E （APOE）是与风险增加联系最紧密的基因，使其至少升高了 300% [17]。APOE 在大脑中高度表达，以三种常见的亚型存在：APOE2、APOE3 和 APOE4 [12]。这些亚型影响 Aββ积累方式不同，APOE2 和 APOE3 有助于缓解风险，而 APOE4 加剧了风险。APOE2 有助于处理 Aββ沉积并显著降低患 AD 的风险，而 APOE3 降低 Aββ口供。大约 50% 的 AD 病例与 APOE4 有关，APOE4 会损害 A 的摄取ββ通过与 A 竞争性结合ββ受体 [17]。

随着年龄的增长，人们患 AD 的风险会显著增加，研究表明，高达 50% 的 85 岁以上的人会受到这种疾病的影响 [16]。研究表明，衰老会降低大脑抵御 A 的能力ββ积累。即使是健康的老年人，在一定年龄后也往往会出现老年斑 [16]。这种减弱的防御能力，加上疾病的缓慢进展，通常会导致疾病被诊断和忽视，直到出现明显的认知能力下降，通常是在个体年龄较大时。

3. 数据集

生成良好的医疗数据集对于推进医疗保健领域的机器学习（ML）应用至关重要。它们是开发可协助诊断、治疗计划、药物发现甚至预测患者预后的算法的基础。生成医疗数据集存在重大挑战，包括不完整、不平衡或标记不一致，从而难以训练准确的模型。然而，克服这些困难对于释放机器学习在医疗保健领域的全部潜力以及开发能够改善患者护理和治疗结果的强大、准确的模型至关重要。本节介绍了一些与 AD 相关的当前医学数据集。

3.1. 痴呆症Bank Pitt 语料库

Pitt 语料库 [18] 是在 1983 年至 1988 年间通过匹兹堡大学医学院的阿尔茨海默氏症研究计划（ARP）在美国国家老龄化研究所的资助下完成的。ARP 的目标是评估与 AD 相关的广泛行为神经因素。该研究的资格标准要求参与者年龄在 44 岁以上，在发病前能说流利的英语，至少受过七年级教育，没有主要神经系统疾病史，没有服用影响中枢神经系统的药物，能够参加神经心理学测试，简易精神状态检查（MMSE）评分大于 10，并能够给予知情同意。此外，痴呆受试者的看护人必须给予知情同意。该研究队列由 104 名健康对照（HC）和 208 名痴呆症患者（PwD）组成，两组中大多数是女性。HC 组的平均年龄为 63.8 岁，平均 MMSE 评分为 29.1 分。同时，PwD 组的平均年龄为 71.4 岁，平均 MMSE 评分为 18.4 分。创建了三个不同的基于任务的语音记录集，PwD 和 HC 组都对 Cookie Theft Image 做出响应。此外，只有 PwD 组完成了单词流利度任务和故事回忆任务。

3.2. ADReSS 2020 套装

通过自发语音识别阿尔茨海默病痴呆（ADReSS）挑战集由 Interspeech 2020 制作 [19,20]。它包括增强的录音、转录和来自 Pitt Corpus 的录音选择的音频块，特别是 Cookie Theft Image 任务。还提供了元数据，其中包括每个主题的年龄、性别和 MMSE 分数。这组由 HC 组的 78 名参与者和 78 名残疾参与者组成，性别和年龄平衡。该数据集的目标是尝试为基于语音的阿尔茨海默病 CAD 系统提供标准数据集。

3.3. ADReSSo 2021 年

通过自发语音（仅音频）集合识别阿尔茨海默病痴呆（ADReSSo） [21] 是从 Cookie 盗窃图像识别任务和 Pitt 语料库的单词流利任务中选择的年龄和性别匹配的录音。该数据集由 237 名参与者组成，每个参与者都有自己的录音。在这组中，115 人患有 AD，122 人在健康对照组。

3.4. Carolinas 对话集

卡罗来纳州对话馆藏（Carolinas Conversation Collection， CCC） [22,23] 是一个包含来自不同民族、种族和语言群体的老年人访谈的音频和视频记录的语料库。此语料库由南卡罗来纳医科大学和北卡罗来纳大学夏洛特分校联合创建。受试者由一名年轻的采访者和一名年龄更接近的采访者进行采访。该数据集并不专门关注 AD，但它更广泛地研究了衰老如何影响言语以及老年人如何与比他们年轻和年龄相仿的人交谈。这些访谈不是针对特定任务的，而是自然的基于语音的访谈。此语料库由两个队列组成。第一组包括与 125 名 65 岁及以上的人进行的 200 次对话，这些人患有 12 种慢性病，这些慢性病在卡罗来纳州导致死亡人数最多。同时，第二组包括与 125 名同年龄段的成年人的 200 次对话，他们都患有认知障碍，其中大多数人患有 AD。

3.5. 威斯康星州纵向研究

威斯康星州纵向研究（WLS） [24] 是一项长期的、正在进行的研究项目，始于 1957 年，旨在评估威斯康星州高中生对高等教育的需求。1962 年，威斯康星大学麦迪逊分校（University of Wisconsin-Madison）社会学教授威廉·休厄尔（William H. Sewell）随机选择了 1957 届毕业生的三分之一，组成了一批10,31710,317参与者。定期数据收集始于 1964 年，重点关注参与者的教育、职业和居住状况。随着时间的推移，该研究扩展到包括来自参与者的兄弟姐妹、子女和配偶的数据，以及有关健康、认知功能和 Medicare 注册的新信息。到 1990 年，WLS 已发展成为一项全面的衰老研究，跟踪从青春期到老年的参与者。在 2010-2011 年数据收集期间，WLS 引入了参与者完成各种基于认知语音的任务的录音，包括字母流利度、地点相似性任务、数字排序和 Cookie 盗窃图像描述任务。这些认知评估，加上参与者的健康数据（特别是痴呆诊断），为开发基于语音的 AD CAD 系统提供了有价值的数据集。

3.6. Dem@Care

Dem@Care数据集 [25] 由希腊塞萨洛尼基希腊阿尔茨海默病相关疾病痴呆协会（GAADRD）的 Dem@Care 项目收集。该数据集包含广泛的数据，包括视频和音频记录、生理传感器读数以及来自运动、睡眠和插头传感器的详细信息，所有这些都旨在推进痴呆和相关认知障碍的研究。该数据集是从 65 岁及以上的老年人中收集的，包括男性和女性。Dem@Care 数据集中的语音数据包括 24 名被诊断患有阿尔茨海默病（AD）的患者和 8 名健康个体的录音。这些数据是通过要求参与者查看图片并描述其内容、观看后根据记忆描述图片、重复一系列句子以及快速重复发音“pa-ka-ka”来收集的。

表 1 总结了上述数据集，包括参与者数量（包括健康个体和 AD 患者）、用于收集这些数据的语音任务及其可用性。

表 1.数据集概述。

Table 1. Overview of datasets.

Name	Population	HC	AD	Task	Availability
Pitt Corpus [26]	312	104	208	IR, WF, SR	UR
ADReSS [19]	156	78	78	IR	UR
ADReSSo [21]	237	122	115	IR, WF, UR
CCC [22]	125	-	125	I	UR
WSL [24]	10,317	-	-	IR, WF, SS, DO	UR
Dem@Care [25]	32	8	24	IR, PR, R, WF	UR

Abbreviation Guide: HC: Healthy Control Group, AD: Alzheimer’s Disease Group, IR: Image Response, WF: Word Fluency, SR: Story Recall, PR: Picture Recall, I: Interview, SS: Spot Similarities, R: Sentence Repetition, DO: Digit Ordering, UR: Upon Request.

4. AD 中基于语音的诊断方法

人工智能（AI）正在彻底改变医疗保健领域，其在诊断阿尔茨海默病中的应用是一项重大突破。目前的研究重点是利用人工智能方法分析来自脑部扫描、遗传信息和认知测试的大量数据，以在早期阶段诊断 AD，这是一项被认为具有挑战性的任务。通过检测人类医生可能遗漏的细微模式和生物标志物，AI 可以在症状变得严重之前很久就识别出阿尔茨海默病的早期迹象，从而及时进行干预。这种早期发现可以改善治疗结果，加强患者护理，并为家庭提供管理疾病的关键指导。本研究探讨了通过分析患者言语来采用 AI 方法诊断 AD 的研究。分析患者语音可以显著降低医疗成本，因为这些数据可以无创方式收集，从而能够实时准确地评估患者信息。图 3 说明了开发 AD CAD 系统所涉及的关键步骤。

图 3.CAD 系统的可视化概述，用于通过分析语音信号来区分健康个体与 AD 或 MCI 患者。

4.1. 传统机器学习模型

语音分析正在成为诊断阿尔茨海默病的一种有前途的工具，它利用机器学习（ML）方法来检测语言模式的细微变化和认知能力下降。阿尔茨海默病患者经常表现出语言障碍，例如难以找到单词、重复的措辞或碎片化的句子，这些在随意交谈中可能会被忽视。通过识别这些模式，AI 模型可以帮助检测阿尔茨海默病的早期迹象。本节探讨了使用语言和声学特征与传统 ML 模型相结合来分析语音以进行 AD 检测的各种研究。

4.1.1. 基于语言特征的模型

基于语言特征的模型利用分析语言的句法、语义和语用级别的语言特征，以及传统的机器学习技术，来识别语音模式的变化以进行 AD 诊断。例如，Ben Ammar 等 [27] 引入了一个分析语音信号以诊断 AD 的系统。首先，采用预处理步骤来提高音频质量。此过程包括删除背景噪音和删除无法处理的片段，例如咳嗽、重叠语音或笑声。之后，生成的语音样本被转换为文本。然后，从参与者语音文件的转录中提取语言特征。这些语言特征在句法、语义和语用层面进行了分析，因为正常个体和 AD 患者之间的这些水平存在统计学差异 [28,29]。随后，研究了三种特征选择方法，以确定可以有效区分正常个体和 AD 患者的最相关特征。这些方法包括信息增益、k 最近邻（KNN）和支持向量机（SVM）递归特征消除。最后，使用了三个分类器来验证它们在区分健康个体和 AD 个体方面的表现。本研究中使用的分类器是 SVM 、神经网络（NN）和决策树。他们的结果表明，使用基于 KNN 的特征选择方法的 SVM 优于其他方法，实现了79%79%.一项类似的研究 [30] 调查了言语任务，如过度学习的叙述回忆（ONR）、对话语音（CS）、新颖的叙述重述（NNR）、图片描述（PD）和程序回忆（PR），在诊断轻度认知障碍（MCI）和 AD 方面的有效性。首先，从转录中提取各种语言特征。然后，通过特征选择方法减少这些特征，包括基于互信息的特征排序，以及 logistic 回归（LR）结合递归特征消除;最后，使用 SVM 将健康个体与 MCI 和 AD 患者区分开来，实现78±8%78±8%在 ONR 任务中评估时。Soroski 等人 [31] 最近的一项研究检查了自动转录对 AD 检测性能的影响。他们利用 Google Cloud 语音转文本（STI）服务从语音数据自动生成转录文本，并将其与手动转录进行比较。从转录本中提取语言特征，例如词性（PoS）、上下文无关的语法规则等，并输入到三个不同的 ML 分类器中：LR、随机森林（RF）和高斯朴素贝叶斯（GNB）。此外，他们还探索了 BERT [32] 模型检测 AD 的利用。他们的实验表明，手动转录的性能明显优于自动转录，实现了最高的受试者工作特征（ROC）曲线下面积（AUC）74.3%74.3%使用 LR 分类器。

此外，Adhikari 等 [33] 研究了将自然语言处理（NLP）方法与 ML 和 DL 模型相结合以识别 AD 患者的有效性。首先，从转录中删除了不必要的信息，例如标点符号。然后，使用矢量化方法和词嵌入提取各种特征;前者包括术语频率-逆文档频率（TF-IDF）和计数矢量化器（CV），而后者是 Word2Vec [34] 和 fastText [35]。最后，评估了几种 ML 分类器——即 KNN、RF、决策树（DT）、XGB、朴素贝叶斯（NB）和 AdaBoost，以及 DL 模型，包括卷积神经网络（CNN）、Kim 架构 [36]、双向长短期记忆（BiLSTM） [37] 以及 CNN 和 BiLSTM 的组合 [38]——在区分健康个体和 AD 患者方面的有效性。此外，作者还研究了将注意力机制纳入 DL 模型的有效性。他们的结果表明，NB 分类器实现了最高的准确性94%94%当使用 TF-IDF 或 CV 特征时，而 Kim 的架构与 Word2Vec 相结合产生了更高的准确率96.4%96.4%.此外，使用 Word2Vec 将注意力机制整合到 CNN 模型中，进一步将准确性提高到96.8%96.8%.Adhikari 等人 [39] 之前的一项研究考察了在 NLP 特征提取过程中包含停用词如何影响诊断 AD 的准确性。首先，应用了一种预处理方法，其中包括去除噪声和不需要的单词。然后，提取 TF-IFD 和 CV 等矢量化特征。最后，通过评估停用词对其诊断性能的贡献，研究了几种 ML 分类器的有效性。这些分类器包括 SVM、DT、KNN、LR、多项式 NB、极端梯度提升（XGB）、Adaboost、RF、分类提升（CatBoost）和光梯度提升方法（LGBM）。他们的结果表明，停用词会影响 ML 分类器的性能，实现了84.3%84.3%.

4.1.2. 基于声学特征的模型

其他研究侧重于通过提取声学特征（如频谱图分析）、能量和持续时间等韵律元素以及基于频率的特征来直接分析音频信号，并与传统 ML 模型集成以检测 AD。例如，Liu等[40]探讨了频谱图（即时频信号）特征在输入ML模型时在促进AD识别方面的作用。作者将从可穿戴物联网（IoT）设备捕获的语音信号分成多个片段，每个片段的持续时间为 1 秒，以对其进行标准化。然后，采用主成分分析（PCA）有效降低从每个音频片段中提取的频谱图特征的维数。最后，利用各种 ML 分类器来分析从每个音频片段中提取的特征，旨在捕捉区分健康个体和 AD 个体的模式和特征。这些分类器包括 LR、线性 SVM、DT、RF 和多层感知器（MLP）分类器。他们的研究结果表明，LR 分类器成为区分正常个体和 AD 患者的最有效模型，准确率为83.3%83.3%和84.4%84.4%分别在 VBSD 和 Dem@Care 数据集上进行评估。在 [41] 中，作者研究了集成学习结合不同的特征缩减方法通过语音分析预测 AD 的有效性。从连续语音信号中提取各种韵律特征，包括能量、持续时间和基频比。然后分别应用五个机器学习模型，包括 KNN、SVM、RF、MLP 和 DT，以预测 AD。最后，使用堆叠集成技术对他们的预测进行整合。最后，他们研究了特征缩减方法对诊断系统精度的影响。他们的研究表明，使用等距映射（ISOMAP）进行特征缩减，并结合 SVM 或 KNN 分类器，实现了最高的准确性78%78%在预测 AD 中。最近的一项研究 [42] 引入了一种基于 ML 的系统，该系统将健康个体与 AD 或 MCI 患者区分开来。首先，应用预处理方法来去除伪影，包括静音和嘈杂的部分。接下来，提取各种声学特征，并使用遗传算法（GA）选择最重要的特征。最后，作者评估了不同 ML 分类器的诊断性能。这些包括 SVM、KNN、RF 和 XGB。最重要的特征被馈送到 SVM 和 KNN 分类器，而原始提取的特征被馈送到 RF 和 XGB 分类器。他们的实验表明，他们的系统将健康个体与 F1 评分92%92%使用 XGB 分类器，以及 F1 评分84%84%使用 GA-SVM。

4.1.3. 基于语言和声学特征的混合模型

本节探讨了研究使用语言和声学特征以及传统机器学习技术诊断 AD 的影响。例如，Chen 等人 [43] 进行了一项研究，以调查声学、副语言和语言特征对识别 AD 的影响。他们从语音中提取副语言特征，然后将其输入到 SVM 分类器中用于 AD 诊断。此外，他们还研究了一个预训练的特征提取模型对诊断 AD 性能的影响。具体来说，他们使用 XLSR-53 [44] 进行自动特征提取，然后采用全连接（FC）层进行诊断。此外，Whisper [45] 用于从语音生成转录，RoBERTa [46] 模型与 FC 层相结合，分别用于自动特征提取和分类。他们的结果表明，将副语言特征与 SVM 分类器相结合实现了最高的准确性69.57%69.57%，优于其他方法。另一项研究 [47] 提出了一种旨在检测 AD 的多模态系统。作者调查了语音和转录文本分析，以识别 AD 患者。对于语音分析，从音频模态中提取了各种手工制作的声学特征 [48] 和深度声学特征（例如，YAMNet [49]、VGGish [50] 和 openl3 [51]）特征。对于文本分析，从语音转录中提取了一系列手工制作的文本特征，包括心理语言学、词汇多样性、可读性和句法，以及深层文本嵌入（例如，BERT [32]、RoBERTa [46]）。之后，使用 Bag of Words [52]、泛函/池化或 Fisher 向量编码 [53] 等技术获得全局特征。最后，使用 SVM 分类器来区分健康个体和 AD 患者。为了汇总每个模型生成的决策，对最终诊断应用了多数投票法。

此外，Shah等[54]在DementiaBank数据库上评估了各种ML分类器的性能，以区分健康个体和AD患者。首先，语言和流利度特征以及 N-Gram 特征是从转录本中提取的，而声学特征是从音频片段中获得的。随后，应用了不同的特征缩减方法，包括 LSA 、 PCA 和使用方差分析（ANOVA） F 值的单变量特征选择。PCA 用于降低语言和流利度特征的维数，而基于 LSA 和方差分析的特征减少分别应用于 N-Gram 和声学特征。最后，评估了几个 ML 分类器，即 RF 、 SVM 、 LR 和 XGB 分类器。他们的结果表明，当使用基于语言的特征进行训练时，LR 分类器实现了最高的准确性80%80%.然而，将最佳基于语言的模型的决策与前三个基于声学的模型的决策相结合，提高了诊断准确性，得分81±1.17%81±1.17%.Shah 等人 [55] 的另一项研究引入了一种诊断系统，该系统将健康个体与 AD 患者区分开来。提取了各种语音特征，包括单词级特征、停顿率和语音清晰度。此外，采用特征减少方法，例如 PCA 和潜在语义分析（LSA），来降低提取特征的维数。使用 LR 分类器进行 AD 诊断。他们的系统实现了69.57%69.57%.在 [56] 中，作者评估了各种 ML 分类器在多种语言任务上的性能，例如图片描述任务、录制媒体和故事回忆任务。作者提取了各种语言特征，包括词汇、句法和语义特征，以及声学特征，包括频谱、发声和语音质量，以及语音特征。此外，他们还研究了不同特征缩减方法对声学特征维数的影响，例如 PCA、ANOVA、RF 和最小冗余最大相关性（mRMR）。最后，评估了几个 ML 分类器以识别 AD 患者。后者是额外树（ET）、DT、SVM 和 KNN。他们的实验表明，由基于图片描述的特征喂养的 ML 分类器获得的最高 F1 分数是80±40%80±40%用于语言特征，以及100%100%对于声学特征，使用三重交叉验证。

同时，Vats等[57]使用几种ML分类器比较了不同声学特征的性能，以识别AD患者，并评估了BERT模型的性能。提取了各种声学特征，如 mel 频率倒谱系数（MFCCs）、线性预测倒谱系数（LPCCs）、LP 残余声门体积速度倒谱系数（GVVCCs）、零频滤波倒谱系数（ZFFCCs）、包络调制谱（EMS）和长期平均谱（LTAS）。此外，作者评估了五种不同的 ML 分类器的性能，以根据这些特征区分健康个体和 AD 患者。这些分类器包括线性判别分析（LDA）、RF、KNN、SVM 和 DT。他们的结果表明，使用具有 ZFFCC 特征的 KNN 实现了最高的准确性，得出的分数为64.5%64.5%.此外，他们还评估了 BERT 模型在同一任务上的性能，其精度达到79.1%79.1%.然而，使用加权多数投票方法将 BERT 和 KNN 分类器的决策结合起来，可以得到更高的85.2%85.2%.另一项研究[58]对声学和语言特征进行了定量和定性分析，以识别早期痴呆。提取了各种语言特征，包括语言查询和字数（LIWC）、PoS 标记、困惑和 PoS 困惑。此外，还获得了几个声学特征，如基于语音活动检测（VAD）[59]、ComParE [60]、i向量[61]和ECAPA-TDNN [62]嵌入。作者研究了几个 ML 分类器的性能，这些分类器分别针对单个特征进行了训练，例如 SVM、LDA、径向基函数（RBF）和高斯混合模型（GMM）。他们的结果表明，在ADReSS（成人发育和衰老跨学科纵向研究[ILSE][63]）数据集上进行评估时，输入SVM（GMM）分类器的PoS或LIWC（PoS）特征优于其他语言特征，得出的未加权平均召回率（UAR）77.1%77.1% (83.8%83.8%).此外，使用具有 ECAPA-TDNN （i 向量）特征的 GMM 或 SVM （SVM）分类器在 ADReSS （ILSE）数据集上的声学特征中取得了最高的性能，获得了 UAR66.7%66.7% (86%86%).

总之，表 2 概述了采用 ML 方法分析语音信号的研究，旨在区分 AD 个体和健康对照者，而这些方法的性能指标如图 4 所示。

Computers 14 00036 g004

图 4.可视化文献综述性能的条形图，采用传统的机器学习模型来分析语音信号，以区分健康个体和 AD 患者 [27,30,31,33,39,40,41,42,43,47,54,55,56,57,58]。

表 2.关于使用机器学习方法分析语音以区分健康个体和 AD 患者的综合文献综述。

Table 2. Comprehensive literature review on the use of machine learning methods for analyzing speech to distinguish between healthy individuals and those with AD.

Study	Method	Goal	Dataset	System Evaluation
Ben Ammar et al. [27]	Preprocessing steps: eliminating background noise and removing unprocessable segments. Linguistic features at the syntactic, semantic, and pragmatic levels were extracted. Feature selection methods were employed, including information gain, k-nearest neighbors, and support vector machine (SVM) recursive feature elimination. Three classifiers were utilized: SVM, NN, and decision tree.	Investigate different feature selection methods and classifiers for distinguishing between healthy individuals and patients with AD.	DementiaBank dataset: 242 healthy individuals. 242 AD patients.	The best classifier was SVM with KNN-based feature selection method, achieving an accuracy of 79%79%.
Liu et al. [40]	Divide the speech data, captured from wearable IoT device, into multiple audio segments of equal size. Spectrogram features were extracted from each each audio segment. Principal component analysis (PCA) was used to reduce the feature dimensionality. Various classifiers were employed: logistic regression, linear SVM, decision tree, random forest, and multi-layer perceptron.	Explore the role of spectrogram features in identifying AD using ML models.	VBSD dataset: a total of 36 individuals 250 audio segments from healthy control. 254 audio segments from patients with AD. Dem@Care dataset: a total of 32 individuals 231 audio segments from healthy control. 257 audio segments from patients with AD.	Logistic regression classifier was the best model in identifying AD. VBSD dataset: an accuracy of 83.3%83.3%, a precision of 86.9%86.9%, a recall of 86.9%86.9%, and an F1-score of 86.9%86.9%. Dem@Care dataset: an accuracy of 84.4%84.4%, a precision of 91.3%91.3%, a recall of 87.5%87.5%, and an F1-score of 89.4%89.4%.
Begam and Palanivelan [41]	Multiple prosodic features, including energy, duration, and fundamental frequency ratios, were extracted. Five different ML classifiers were utilized: KNN, SVM, RF, MLP, and DT. A stacking ensemble learning was used to integrate the output of each classifier. Various feature reduction methods were employed: principal component analysis (PCA), Incremental PCA, Kernal PCA, Sparce PCA, ISOMAP, etc. NNR accuracy: 62±0.1662±0.16.	Investigate the effectiveness of ensemble learning combined with different feature reduction methods for predicting AD through the analysis of patients’ speech.	Dementia bank Pitt corpus: 241 healthy individuals. 477 dementia patients.	ISOMAP with SVM or KNN classifier achieved the highest accuracy of 78%78%.
Clarke et al. [30]	Several linguistic features were extracted from transcriptions generated by different speech tasks, such as ONR, CS, NNR, PD, and PR. Two feature selection methods were investigated: feature ranking based on mutual information and logistic regression combined with recursive feature elimination. An SVM classifier was utilized to differentiate healthy individuals from those with MCI and AD.	Investigate the effectiveness of different speech tasks in differentiating healthy individuals from those with MCI and AD.	50 participants from the St George’s University Hospitals NHS Cognitive Disorders Clinic: 25 healthy controls. 25 patients with MCI or mild AD.	Accuracy of ONR: 78±8%78±8%. PD: 76±18%76±18%. PR: 74±15%74±15%. CS: 66±11%66±11%. NNR: 62±16%62±16%.
García-Gutiérrez et al. [42]	Artifact portions, such as silent and noise, were removed. Multiple acoustic features were extracted. A feature selection method based on GA was applied to select the most relevant features. Multiple ML classifiers were investigated: SVM, KNN, RF, and XGB.	Study the effectiveness of various ML classifiers combined with a feature selection method in differentiating healthy individuals from those with AD, as well as those with MCI.	135 healthy individuals. 826 MCI patients. 539 AD patients.	The system’s F1-score: Identifying HC from those with MCI (i.e., HC vs. MCI): 84%84% using GA-SVM classifier. HC vs. AD: 92%92% using XGB classifier. MCI vs. AD: 63%63% using XGB. HC vs. cognitive impairment: 85%85% using RF.
Soroski et al. [31]	A Google Cloud speech-to-text (STI) service was utilized for automatic transcription generation. Linguistic and acoustic features were extracted. Three ML classifiers were investigated: LR, RF, and Gaussian naïve Bayes (GNB). The performance of BERT model in diagnosing AD was evaluated.	Explore the impact of automatic transcription in comparison with manual transcription on differentiating healthy individuals from those with AD, MCI, or subjective memory complaints (SMC).	77 healthy individuals. 20 MCI patients. 8 MCI patients. 44 AD patients.	The system’s AUC (Automatic, Manual) using speech of picture description: RF: (61.7%61.7%, 68.7%68.7%). GNB: (66.2%66.2%, 72.5%72.5%). LR: (67.1%67.1%, 74.3%74.3%). BERT: (61.8%61.8%, 68.6%68.6%).
Shah et al. [55]	Various speech features were extracted. Feature reduction methods were utilized: e.g., PCA and latent semantic analysis. An LR classifier were employed.	Evaluate the performance of using speech features combined with feature reduction methods for identifying AD.	237 participants.	Accuracy of the system was 69.57%69.57%.
Chen et al. [43]	Paralinguistic features were extracted. An SVM classifier was utilized to identify AD based on the extracted paralinguistic features. Acoustic features were extracted using XLSR-53 [44] and combined with an FC layer for AD diagnosis. A Whisper [45] was utilized to generate transcriptions from speech. The RoBERTa [46] model was used for feature extraction, and an FC layer classified these features as either healthy individuals or AD patients.	Evaluate the performance of using acoustic, paralinguistic, and linguistic features with SVM or FC layers in identifying AD.	237 participants.	(accuracy, precision, recall, F1-score) of IS10-Paralinguistics-compat+SVM: (69.57%69.57%, 72.73%72.73%, 66.67%66.67%, 69.57%69.57%). IS10-Paralinguistics+SVM: (69.57%69.57%, 69.23%69.23%, 75%75%, 72%72%). IS11-speaker-state+SVM: (69.57%69.57%, 75%75%, 62.5%62.5%, 68.18%68.18%). Whisper+RoBERTa+FC: (65.22%65.22%, 83.33%83.33%, 41.67%41.67%, 55.56%55.56%). XLSR-53+FC: (54.35%54.35%, 54.29%54.29%, 79.17%79.17%, 64.41%64.41%).
Syed et al. [47]	Handcrafted acoustic features and deep acoustic features were extracted from the audio modality. Different handcrafted textual features and deep textual embedding were obtained from speech transcripts. Bag of Words [52], functionals/Pooling, or Fisher Vector Encoding [53] were utilized to generate global features. An SVM classifier was utilized. A majority voting method was employed to fuse different decisions.	Explore the impact of both speech and transcribed textual analyses on identifying patient with AD.	ADReSS dataset: 144 participants.	The best accuracy of each task: openl3+BoW for speech analysis: 83.33%83.33%. RoBERTa+BoW for textual analysis: 92.59%92.59%. The accuracy of fusion model combining the top three models: Speech analysis: 86.11%86.11%. Textual analysis: 95.37%95.37%.
Shah et al. [54]	Various language and acoustic features were extracted from transcripts and audio segments, respectively. Different feature reduction methods were utilized: PCA-, LSA-, and ANOVA-based feature reduction. Different ML classifiers were evaluated: RF, SVM, LR, and XGB classifiers.	Evaluate the performance of various ML classifiers combined with different feature reduction methods in distinguishing between healthy individuals and patients with AD.	DementiaBank database 54 healthy individuals. 54 AD patients.	The accuracy of Language-based features + LR: 80%80%. Language-based features + SVM: 72±1.85%72±1.85%.
Parsapoor et al. [56]	Various linguistic and acoustic features were extracted. Different feature reduction methods were utilized: PCA, ANOVA, RF, and mRMR. Several ML classifiers were evaluated: ET, DT, SVM, and KNN.	Assess the effectiveness of several ML classifiers across multiple language tasks, including tasks like picture description, recording medium, and story recall.	3 healthy individuals. 5 AD patients.	The F1-score of Linguistic features: 80±40%80±40%. Acoustic features: 100%100%.
Vats et al. [57]	Various acoustic features were extracted. Several ML classifiers were evaluated: LDA, RF, KNN, SVM, and DT. The performance of BERT model was evaluated.	Analyze the effectiveness of different acoustic features in identifying AD patients, using several machine learning classifiers, and also assess the performance of the BERT model in this context.	ADReSS dataset 54 healthy individuals. 54 AD patients.	Accuracy of KNN+ZFFCC: 64.5%64.5%. BERT model: 79.1%79.1%. Fusion: 85.2%85.2%.
Ablimit et al. [58]	Various linguistic and acoustic features were extracted. Several ML classifiers were evaluated:SVM, LDA, RBF, and GMM.	Study different linguistic and acoustic features in identifying dementia using two differnt benchmarks.	ADReSS. ILSE.	Best unweighted average recall (UAR) of linguistic features: PoS + SVM or LIWC + SVM on ADReSS: 77.1%77.1%. PoS + GMM on ILSE: 83.8%83.8%. Best UAR of acoustic features: ECAPA-TDNN + GMM or ECAPA-TDNN + SVM on ADReSS: 66.7%66.7%. i-vectors+SVM on ILSE: 86%86%.
Adhikari et al. [33]	TF-IDF and CV features were extracted. Word2Vec [34] and fastText [35] were utilized to extract word embeddings. Several ML classifiers were employed: KNN, RF, DT, XGB, NB, and AdaBoost. Various DL models were used: CNN, Kim’s Architecture [36], BiLSTM [37], and CNN+BiLSTM [38].	Investigate the effectiveness of integrating natural language processing techniques with machine learning and deep learning models to identify patients diagnosed with AD.	DementiaBank’s Pitt Corpus 98 healthy individuals. 168 AD patients.	Accuracy of TF-IDF or CV + NB: 94%94%. Kim+Word2Vec: 96.4%96.4%. Attention + CNN + Word2Vec: 96.8%96.8%.
Adhikari et al. [39]	Unnecessary information was removed from the transcripts. TF-IDF and CV features were extracted. Several ML classifiers were employed: SVM, DT, KNN, LR, multinomial NB, XGB, Adaboost, RF, CatBoost, and LGBM.	Explore the impact of including stop words in the NLP feature extraction process on the performance of AD diagnosis.	DementiaBank’s Pitt Corpus 98 healthy individuals. 194 AD patients.	Best (accuracy, precision, recall, F1-score): SVM with stop words: (84.3%84.3%, 84%84%, 84%84%, 84%84%). LR without stop words: (83.2%83.2%, 83%83%, 83%83%, 83%83%).

4.2. 深度学习模型

一些研究利用深度学习（DL）模型通过分析个人语音来诊断 AD。通过使用这些模型，该系统能够有效地捕捉区分健康个体和 AD 个体的声学和语言模式。

4.2.1. 基于语言特征的模型

本节探讨了利用语言特征的研究，包括标记化句子、嵌入和高级语言模型（例如 BERT、GPT-3）来分析语音的文本内容以进行 AD 检测。例如，Liu et al. [64] 的一项研究介绍了一种诊断系统，该系统利用预先训练的深度学习模型进行特征提取，并结合 LR 分类器来分析转录本/句子以检测 AD。首先，对句子进行标记化，并根据词汇表将每个标记映射到相应的数字。接下来，将这些相应的数字输入到 DistilBERT [65] 模型中，以提取 768 个语义特征。最后，根据这些特征对 LR 分类器进行训练以诊断 AD，准确率达到88%88%.此外，Ilias 和 Askounis [66] 利用多个基于 transformer 的模型来识别 AD 患者并评估其病情的严重程度。这些模型包括 BERT [32]、ALBERT [67]、ConvBERT [68]、BioClinicalBERT [69]、RoBERTa [46]、BioBERT [70] 和 XLNet [71]。该模型的输出通过一个全球平均池化层进行处理，然后是两个密集层，以识别来自健康对照的 AD 患者。此外，作者还探讨了将共注意力机制 [72] 与这些模型整合的影响。此外，他们还研究了 BERT 模型（MTL-BERT）的有效性及其与两个单独的 BERT 编码器（MTL-BERT-DE）的集成，每个编码器都与密集层相结合，以根据 MMSE 分数将转录分为四个不同的类别：正常（MM S东≥25MMSE≥25）、轻度（MMSE = 21-24）、中度（MMSE = 10-20）和重度（MMS东≤9MMSE≤9).他们的结果表明，BERT 模型实现了87.5±4.37%87.5±4.37%在识别 AD 患者方面，而 MTL-BERT-DE 模型产生的 F1 评分最高68.57±2.04%68.57±2.04%在 AD 患者分级中。此外，将共注意力机制与 DL 模型集成并未优于所提出的 DL 模型。此外，他们研究了统计方法和一种称为 LIME [73] 的可解释 AI （XAI）方法，以了解正常患者和 AD 患者之间的差异。Nambiar等[74]利用不同的DL嵌入模型和递归神经网络来早期检测痴呆。首先，作者通过删除标点符号来预处理转录文本。然后，使用不同的 DL 模型从转录本中提取各种特征，包括 Word2Vec [75]、Doc2Vec [76]、GloVe [77]、BERT、RoBERTa 和 ALBERT。最后，采用几种 RNN 模型从这些提取的特征中识别 AD 患者，包括长短期记忆（LSTM）、 BiLSTM 和 GRU。他们的结果表明，将 BERT 与 BiLSTM 结合使用实现了最高的准确性81%81%.与此同时，Zheng等[78]评估了用于识别痴呆患者的各种语言模型。首先，提取 PoS 标签和停用词，并评估它们对识别痴呆患者的影响。然后，利用了各种语言模型，包括两种困惑方法[79]，分别采用三元语法语言模型、平均随机梯度下降权重下降LSTM（AWD-LSTM）[80]和一种基于注意力的模型[81]。作者使用上下文词、PoS 标签和停用词序列及其组合来评估它们的有效性。他们的结果表明，AWD-LSTM 模型实现了81.54%81.54%当输入上下文词、PoS 标签和非索引字序列的组合时。

4.2.2. 基于声学特征的模型

本节重点介绍侧重于提取和分析声学特征（例如频谱图和 MFCC）的研究，以便通过与 DL 模型集成的语音分析来诊断 AD。例如，Ahn et al. [82] 进行了一项研究，通过分析语音模式来评估五种不同的基于预训练深度学习的网络诊断 AD 的有效性。这些网络是 Densenet121、Xception、VGG19、ResNet50 和 Inception v3。首先，作者提取了每个人对简易精神状态检查（MMSE）测试的反应，持续时间限制为 3 秒。接下来，从这些语音数据生成频谱图，然后提取 MFCC，表示为图像。然后将所有单独的图像组合成一个合成图像。最后，利用深度学习模型并输入生成的 MFCC 图像来诊断 AD，实现了90%90%使用 ResNet50 网络。最近的一项研究 [83] 进行了一项比较分析，通过两种语言（韩语和英语）的患者语音分析来评估手工制作和自动化特征在检测 AD 方面的精度。为了进行手工分析，他们使用 128 个滤波器以 128 毫秒的增量从语音记录中提取频谱图。然后，从频谱图生成的 MFCC 特征中推导出统计特征，包括平均值、标准差、峰度和偏度。这些特征被输入到四个不同的 ML 分类器中，即 LR 、 DT、RD 和 XGB，用于诊断 AD。此外，频谱图被输入到六个不同的 DL 模型中以进行自动特征提取，使模型能够捕获健康个体和 AD 患者之间的不同模式。这些模型包括卷积神经网络（CNN） [84]、VGG [85]、CNN-LSTM [86]、VGG-LSTM、X 向量 [87] 和 ASR [88]。此外，使用密集层或 LR 分类器根据从 DL 模型中提取的自动特征来诊断频谱图。实验结果表明，手工制作的特征分析可以以最高的准确率识别 AD73%73%使用韩语的 XGB 分类器，以及69%69%使用 RF 表示英语。相比之下，DL 模型达到的最高准确度为75%75%对于韩语和78%78%对于英语，使用 X 向量模型。另一项研究 [89] 提出了一个 CNN 网络，通过语音分析来识别 MCI 患者。首先，从录音中手动提取患者对 MMSE 测试的反应。由于这些片段的长度不同，因此使用了 4 秒的标准持续时间。对于超过 4 秒的语音片段，带有50%50%重叠部分被提取出来。对于短于 4 秒的语音片段，应用了填充方法。然后从每个片段生成频谱图图像。最后，他们开发了一个由三个卷积层和三个全连接层组成的 CNN 网络，旨在区分健康个体和 MCI 患者。每个卷积层都包括一个卷积运算、平均池化和一个修正线性单元（ReLU）激活函数。他们的系统实现了75%75%和82%82%分别。Vetrab 等 [90] 引入了一种用于自动特征提取的自动编码器模型，该模型捕获了健康个体与 MCI 或 AD 个体之间的差异。最初，记录被分成 5 秒的片段，然后生成频谱图。随后，应用 −75 dB 阈值进行降噪。使用了自动编码器模型;由两个递归层组成，每个递归层包含 128 个门控递归单元（GRU）单元，以及一个双向解码器，可自动从频谱图中提取特征。最后，将这些功能输入线性 SVM 以诊断 AD 或 MCI。他们的实验表明，该系统能够区分健康个体和 MCI 患者，准确度72%72%且 AUC 为76.3%76.3%.此外，该系统的 AUC77.1%77.1%,71%71%和58.9%58.9%分别区分健康个体、MCI 患者和 AD 患者。

与此同时，Bertini等[91]的一项研究介绍了一种诊断系统，该系统使用自动编码器模型auDeep [92]来识别MCI或早期痴呆患者，通过语音分析将他们与健康个体区分开来。频谱图首先根据记录计算。此外，使用 −45 至 −60 db 之间的阈值去除了背景噪声。一个自动编码器模型由一个编码器和一个解码器组成，每个编码器有 256 个 GRU 单元，并提供了频谱图。然后从编码器阶段提取的特征被输入到 MLP 分类器中，并将 softmax 激活函数应用于输出层。他们的系统实现了86.98%86.98%区分健康个体与 MCI 或早期痴呆患者。另一项研究 [93] 提出了一种基于 DL 的系统，旨在使用语音信号区分 AD 或 MCI 患者与健康个体。首先，从语音信号生成对数梅尔频谱图。然后，使用 Transformer 编码器 [81] 和 CNN 模型的组合提取特征。CNN 模型采用门控线性单元（GLU） [94] 和卷积层来优化特征表示。最后，使用 FC 层来识别 MCI 或 AD 患者。他们的系统实现了91%91%区分 AD 患者和健康个体，以及79%79%在区分 MCI 患者和健康个体方面。Kumar等[95]的一项研究评估了使用具有语音特征的ML和DL模型检测痴呆的有效性。首先，从录音中去除噪声，然后将录音分成 15 秒的片段。随后，提取了各种声学特征，包括 γ 通倒谱系数（GTCC）、delta-GTCC、MFCC、delta-MFCC、共振峰、基频、微光、俯仰和抖动。最后，作者研究了几种ML和DL模型根据这些声学特征识别痴呆的性能。前者包括 RF、SVM、随机树（RT） [43] 和减少纠错修剪（REP）树 [96] 分类器，而后者是 CNN、GRU、LSTM、BiGRU、BiLSTM 和并行递归卷积神经网络（PRCNN） [97]。他们的结果表明，RF 和 PRCNN 分别实现了 ML 和 DL 模型的最高准确性，得分87.6%87.6%和85%85%分别。在 [98] 中，作者提出了一种基于 DL 的系统，旨在通过语音信号检测 AD 患者，并将其与基于 VGGish 的诊断系统进行了比较。首先，作者利用 VGGish 模型提取声学特征，然后应用 PCA 方法来降低特征维数。然后，他们研究了几种 ML 分类器在识别 AD 患者方面的有效性，当喂食这些提取的特征时。这些分类器包括具有径向基函数内核的 SVM、具有线性内核的 SVM、感知器、MLP 和 KNN。此外，他们还提出了一种基于波形的 CNN 模型，称为 DemCNN，该模型由六层组成，每层都使用卷积层、最大池化、ReLU 激活函数和批量归一化。此外，在末尾添加了一个 FC 层，以将提取的特征分类为正常或 AD。他们的结果表明，基于 VGGish 的诊断系统实现了59.1%59.1%，而 DemCNN 模型超过了它，达到了63.6%63.6%.

4.2.3. 基于语言和声学特征的混合模型

本节研究了评估将声学和语言特征与 DL 模型相结合诊断 AD 的有效性的研究。例如，Chatzianastasis等[99]提出了一个多模态系统，该系统集成了声学和文本模型，以提供AD的全面诊断。首先，作者利用 DARTS [100] 模型发现了最佳的 CNN 架构。之后，这种架构被用来诊断声学图像，即频谱图、delta 和 delta-delta。随后，使用具有致密层的 BERT [32] 模型将转录本分类为正常或 AD。最后，利用不同的融合方法和密集层来集成由基于声学和文本的模型生成的决策。这些方法包括 Tucker 分解 [101]、多模态因子双线性池化（MFB） [102]、多模态因子化高阶池化（MFH） [102]、BLOCK [103] 和模型输出的串联。他们的结果表明，基于声学的模型实现了72.92±2.28%72.92±2.28%，而基于文本的模型产生的准确率为87.5±4.37%87.5±4.37%.然而，融合方法实现了更高的精度票价 92.08±1.56%92.08±1.56%.Priyadarshinee等[104]的一项研究调查了声学和文本特征在帧和文件级别对AD诊断性能的有效性。对于音频分析，从文件和帧级别的音频信号中提取了各种特征。在文件级别，这些功能包括 eGeMAPS [105]、语音/静音统计、Emobase、能量时间图和 Emobase-Large。Emobase 功能包括 MFCC、线路频谱对（LSP）、基频、语音质量和其他相关参数。此外，帧级特征是 VGGish [50]、openl3 [51] 和韵律特征。对于文本分析，BERT 系列和 XLNet [71] 被用作文件级的特征描述符，而 Word Embedding 特征在帧级被提取。他们的研究使用了几种分类模型来识别提取的特征，包括 RF、GMM、BiLSTM、深度神经网络（DNN）等。他们的结果表明，使用基于声学的 Emobase-Large 描述符以及 Bagging 和 RF 分类器的硬投票方法实现了最高的诊断准确性77.5%77.5%在文件级别。相比之下，基于声学的 VGGish 模型与 BiLSTM 相结合，产生了最高的准确性78.9%78.9%在帧级别。此外，基于文本的 RoBERTa 模型与 DNN 的结合实现了最高的准确性88.7%88.7%在文件级别，而使用 BiLSTM 的基于文本的词嵌入导致精度78.9%78.9%在帧级别。另一项研究 [106] 调查了从语音信号中提取的特征、GPT-3 模型及其组合对识别 AD 患者性能的影响。在从 GPT-3 模型中提取特征之前，作者使用 Wav2Vec 2 [107] 模型将语音转录为文本。然后，这些功能与 ML 分类器集成，以区分健康个体和 AD 患者。这些分类器包括 SVM 、 LR 和 RF。他们的结果使用 10 倍交叉验证，表明将声学特征与 SVM 分类器结合使用可实现69.7±9.5%69.7±9.5%.相比之下，将来自 GPT-3 模型的文本特征与 LR 分类器相结合，产生了更高的准确性80.9±11.2%80.9±11.2%.此外，在 SVM 分类器中集成声学和文本特征进一步提高了性能，实现了票价 81,4±11.5%81.4±11.5%.Ying等[108]介绍了一种多模态融合系统，该系统从语音信号中提取各种声学和语言特征，以区分AD患者和健康个体。首先，作者利用openSMILE工具包[109]从语音信号中提取声学特征，即INTERSPEECH 2010副语言挑战特征集（IS10_paraling）[110]。然后，分别使用 Wav2Vec 2 [107] 模型和 BERT [32] 模型从语音信号中提取深层声学和语言特征。最后，将这三个特征集融合并馈送到 SVM 分类器中，将语音信号分类为 AD 或正常信号，实现89.1%89.1%和83.7%83.7%分别在 2021 年全国人机语音通信会议阿尔茨海默病识别挑战赛（NCMMSC2021）和 ADReSSo 数据集上进行评估时。

表 3 概述了使用 DL 方法分析语音信号以区分 AD 个体和健康对照的现有研究，突出了方法、目标、使用的数据集和系统评估，而图 5 显示了他们表现的可视化。

表 3.关于使用深度学习方法分析语音以区分健康个体和 AD 患者的综合文献综述。

Table 3. Comprehensive literature review on the use of deep learning methods for analyzing speech to distinguish between healthy individuals and those with AD.

Study	Method	Goal	Dataset	System Evaluation
Ahn et al. [82]	Each individual’s response to the MMSE test was extracted with a duration limit of three seconds. MFCC image was calculated for each response, then all individual’s MFCC images are combined into one image. Five different pre-trained deep learning networks were employed: Densenet121, Xception, VGG19, ResNet50, and Inception v3.	Investigate the effectiveness of different pre-trained deep learning networks for distinguishing between healthy individuals and patients with AD through the analysis of patient speech.	80 adults, aged between 50 and 75, were recruited: 40 healthy individuals. 40 AD patients.	The accuracy of Densenet121: 90%90% and 87.5%87.5%. Xception: 60%60% and 62.5%62.5%. VGG19: 90%90% and 81.25%81.25%. ResNet50: 90%90% and 93.75%93.75%. Inception v3: 87.5%87.5% and 87.5%87.5%. Using 5-folds cross-validation and holdout validation, respectively.
Liu et al. [64]	A vocabulary table was used to map each token to a corresponding number. DistilBERT model was employed to extract different semantic features from these corresponding numbers. These extracted features were fed into a logistic regression classifier for AD diagnosis.	Investigate the utilization of a pre-trained deep learning model as a feature descriptor, combined with a logistic regression classifier, for detecting AD.	ADReSS datasets: 78 healthy individuals. 78 AD patients.	Accuracy: 88%88%.
Chau et al. [89]	The patients’ responses were manually extracted from the recording. Spectrogram images were generated from each segment. A CNN model was built, comprising three convolution layers and three fully convolution layers..	Build a CNN model that uses spectrogram images computed from each segment to distinguish healthy individuals from those with MCI.	84 healthy individuals. 36 MCI patients.	The precision an recall of their system were 75%75% and 82%82%, respectively.
Vetrab et al. [90]	The recording was divided into 5 s segments. Spectrogram images were generated from each segment. A −75 dB threshold was applied for noise reduction. Features were automatically extracted using an autoencoder model. A linear SVM was utilized for diagnosis.	Utilization of autoencoder model as a feature descriptor, combined with a linear SVM for diagnosing AD or MCI.	25 healthy individuals. 25 MCI patients. 25 AD patients.	The accuracy and AUC of their system were 72%72% and 76.3%76.3%, respectively, in identifying patients with MCI. The AUCs for identifying normal individuals, MCI patients, and AD patients were 77.1%77.1%, 71%71%, and 58.9%58.9%, respectively.
Kim et al. [83]	Spectrograms were extracted from voice recordings. MFCC features were computed from spectrograms. Statistical features were extracted from MFCC: mean, standard deviation, kurtosis, and skewness. Four different ML classifiers were utilized: LR, DT, RD, and XGB. automatic features were extracted from spectrograms using multiple DL models: CNN [84], VGG [85], CNN-LSTM [86], VGG-LSTM, X-vector [87], and ASR [88]. Dense layer or LR classifier were employed for AD diagnose, with DL-based features.	Evaluate the precision of handcrafted and automatic features in detecting AD through patient speech analysis in two languages: Korean and English.	ADReSSo Dataset (English): 115 healthy individuals. 122 AD patients. Korea AI Hub Open AI Dataset Project (AI-Hub) (Korean): 183 healthy individuals. 109 AD patients. 129 MCI patients.	Accuracy of ML models (English, Korean): LR: (67%67%, 67%67%). DT: (59%59%, 60%60%). RF: (69%69%, 72%72%). XGB: (67%67%, 73%73%). Accuracy of DL models (English, Korean): CNN: (63%63%, 69%69%). VGG: (70%70%, 72%72%). CNN-LSTM: (65%65%, 68%68%). VGG-LSTM: (72%72%, 71%71%). X-vector: (78%78%, 75%75%). SR: (75%75%, 68%68%).
Bertini et al. [91]	The recording was divided into 5 s segments. Spectrogram images were generated from each segment. A threshold between −45 and −60 db was applied for noise reduction. Features were automatically extracted using an autoencoder model. An MLP classifier was utilized for diagnosis.	Investigate the impact of recurrent neural network in identify patients with MCI or early dementia, distinguishing them from healthy individuals through speech analysis.	48 healthy individuals. 32 MCI patients. 16 patients with early dementia.	Precision: 86.19%86.19%. Recall: 83.28%83.28%. F1-score: 84.71%84.71%. Accuracy: 86.98%86.98%.
Chatzianastasis et al. [99]	An automatic architecture search model was utilized to diagnose acoustic images. BERT model combined with an FC layer was evaluated on speech transcripts for AD diagnosis. Various fusion methods were utilized to integrated both textual and acoustic models.	Explore the effectiveness of fusion methods between acoustic and textual models on diagnosing AD.	ADReSS dataset 102 healthy individuals. 102 AD patients.	Best (accuracy, precision, recall, F1-score) of DARTS: (72.92±2.28%72.92±2.28%, 70.04±3.84%70.04±3.84%, 89.99±2.04%89.99±2.04%, 76.09±0.87%76.09±0.87%). BERT: (87.5±4.37%87.5±4.37%, 87.19±3.25%87.19±3.25%, 81.66±5%81.66±5%, 86.73±4.53%86.73±4.53%). BLOCK: (92.08±1.56%92.08±1.56%, 94.09±2.61%94.09±2.61%, 91.66±6.97%91.66±6.97%, 91.94±1.98%91.94±1.98%).
Priyadarshinee et al. [104]	Different acoustic and textual features were extracted at both frame- and file-levels. BERT family and XLNet models were utilized. Several classification methods was used: DNN, RF, GMM, BiLSTM, and others.	Explore the impact of acoustic and textual features, analyzed at both the frame- and file-levels, on the effectiveness of diagnosing AD.	ADReSSo Dataset	Best accuracy at frame-level: (Audio) VGGish+BiLSTM: 78.9%78.9%. (Text) Word Embedding + BiLSTM: 78.9%78.9%. Best accuracy at file-level: (Audio) Emobase-Large + hard voting: 77.5%77.5%. (Text) RoBERTa + DNN: 88.7%88.7%.
Ilias and Askounis [66]	Various transformer-based models were utilized to identify AD patients and assess their conditions. Integration of co-attention mechanisms with deep learning models was investigated. Statistical methods and an explainable AI method, called LIME [73], were utilized to gain insights into the differences between healthy individuals and those diagnosed with AD.	Evaluate the effectiveness of various transformer-based models in identifying and grading AD patients, as well as interpreting the outputs of DL models to differentiate between normal and AD patients.	ADReSS dataset 78 healthy individuals. 78 AD patients.	Best accuracy achieved in binary classification: BERT: 87.5±4.37%87.5±4.37%. Co-attention+ BERT: 83.75±1.56%83.75±1.56%. Best F1-score achieved in multi-class classification: MTL-BERT-DE: 68.57±2.04%68.57±2.04%.
Agbavor and Liang [106]	Various acoustic features were extracted. A GPT-3 model was utilized to extract textual features. Several ML classifiers was used: SVM, LR, and RF.	Examine how features derived from speech signals, the GPT-3 model, and a combination of both affect the accuracy of identifying patients with AD.	ADReSSo dataset: 237 participants.	Accuracy: Acoustic+SVM: 69.7±9.5%69.7±9.5%. GPT-3+LR: 80.9±11.2%80.9±11.2%. Acoustic+GPT-3+SVM: 81.4±11.5%81.4±11.5%.
Nambiar et al. [74]	Speech transcripts were preprocessed by removing punctuation. Various DL models were utilized to extract textual features: Word2Vec [75], Doc2Vec [76], GloVe [77], BERT, RoBERTa, and ALBERT. Several RNN models were employed: LSTM, BiLSTM, and GRU.	Investigate the effectiveness of different DL models integrated with RNNs for the early detection of dementia.	DementiaBank’s Pitt Corpus 243 healthy individuals. 309 AD patients.	Accuracy, precision, recall, and F1-score of best model (i.e., BERT + BiLSTM) were 81%81%, 79%79%, 79%79%, and 79%79%, respectively.
Zheng et al. [78]	Various linguistic features were extracted: PoS tags and stop words. Several language models were utilized: two perplexity methods [79], AWD-LSTM [80], and attention-based models [81].	Evaluate various language models for identifying dementia patients and assess the impact of features such as PoS tags and stop words on the accuracy of dementia diagnosis.	DementiaBank’s Pitt Corpus 94 healthy individuals. 166 AD patients.	Accuracy of AWD-LSTM model: Context: 66.54%66.54%. PoS+Stop words: 76.15%76.15%. Combinations: 81.54%81.54%. Accuracy of attention-based model: Context: 70%70%. PoS+Stop words: 73.08%73.08%. Combinations: 78.46%78.46%. Accuracy of two perplexity methods: PoS: 65.15%65.15%. PoS+Stop words: 72.78%72.78%.
Lin et al. [93]	A log mel-spectrogram was generated from the speech signals. Features were extracted using a Transformer encoder, combined with gated convolution neural network (GCNN). A fully connected layer was utilized to identify patients with MCI or AD.	Explore the effectiveness of combining the Transformer model with a GCNN in differentiating AD and MCI patients from healthy individuals.	40 healthy individuals. 40 MCI patients. 40 AD patients.	(accuracy, sensitivity, specificity, and AUC) of their model: HC vs. AD: (91%91%, 91%91%, 90%90%, and 96%96%). HC vs. MCI: (79%79%, 78%78%, 80%80%, and 83%83%).
Kumar et al. [95]	A noise removal method was utilized, followed by segmenting them into 15 s intervals. Various acoustic features were extracted. Several ML and DL were investigated for their effectiveness in detecting dementia.	Evaluate the effectiveness of using ML and DL models with acoustic features in detecting dementia.	224 healthy individuals. 218 dementia patients.	Accuracy of best ML and DL models: RF: 87.6%87.6%. PRCNN: 85%85%.
Chlasta and Wołk [98]	Acoustic features were extracted using VGGish model, and then processed with the PCA method. Several ML classifiers were utilized. Propose a waveform-based CNN model, called DemCNN.	Propose a waveform-based CNN model and compare its effectiveness with the VGGish-based diagnostic system in detecting AD from patients’ speech signals.	ADReSS dataset: 78 healthy individuals. 78 AD patients.	(accuracy, precision, recall, and F1-score): VGGish: (59.1%59.1%, 60%60%, 54.5%54.5%, and 57.1%57.1%). DemCNN: (63.6%63.6%, 69.2%69.2%, 69.2%69.2%, and 69.2%69.2%).
Ying et al. [108]	IS10_paraling acoustic feature set and deep acoustic features were extracted from speech signal using openSMILE toolkit and Wav2Vec 2 model, respectively. Speech is first converted into text, after which deep linguistic features are extracted using the BERT model. These three feature sets were concatenated. An SVM classifier was used, with the concatenated features fed into it to obtain the diagnosis.	Evaluate the performance of combining different acoustic and linguistic features in identifying patients with AD.	NCMMSC2021 585 HC audio samples. 510 MCI audio samples. 457 AD audio samples. ADReSSo 79 healthy individuals. 87 AD patients.	NCMMSC2021: Accuracy: 89.1%89.1%. Precision: 88.7%88.7%. Recall: 88.8%88.8%. F1-score: 88.6%88.6%. ADReSSo: Accuracy: 83.7%83.7%. Precision: 83.8%83.8%. Recall: 83.8%83.8%.

Computers 14 00036 g005

图 5.一张条形图，说明了利用深度学习方法分析语音信号以区分健康个体和 AD 患者的文献综述的有效性 [64,66,74,78,82,83,89,90,91,93,95,98,99,104,106,108]。

5. 讨论

本综述研究了 AD 的各个方面，包括与疾病相关的大脑结构变化、风险因素、可用数据集以及使用 ML 和 DL 进行早期准确诊断的最新进展。我们对这些领域的综合强调了 AD 病理学的复杂性以及技术创新在提高我们对疾病的理解和管理方面的前景。大脑的结构变化，例如海马萎缩、皮质变薄和心室扩大，是 AD 的标志性特征。本综述强调，这些神经解剖学改变与认知症状的进展密切相关。然而，准确描述这些结构变化仍然具有挑战性。AD 风险受一系列遗传、环境和生活方式因素的影响。关键的遗传因素包括 APOE E4 等位基因的存在，这会增加 AD 的易感性，而可改变的风险因素（如饮食、身体活动和心血管健康）已被证明会影响疾病的发生和进展。

一些研究[30,56,58]依靠语言特征结合统计ML分类器和特征选择方法来识别AD患者。然而，这些研究的准确性并未超过79%79%.尽管性能较低，但使用TF-IDF或CV作为特征描述符的类似研究[33,39]实现了更高的准确率94%94%.这些发现表明，使用 TF-IDF 或 CV 作为特征描述符可能会更好地捕捉健康个体和 AD 个体之间的区别。其他研究[40,42,58]调查了使用声学特征（如频谱图和MFCC）和ML模型来区分健康个体和AD患者的有效性，从而取得了有希望的表现。一项研究 [56] 评估了使用声学特征在各种语言任务中使用 ML 分类器的性能，与其他研究相比，报告了更高的性能。然而，尽管有这些有希望的结果，但由于样本量有限，该研究的结果并不可靠，这限制了研究结果的普遍性并增加了过拟合的可能性，从而降低了模型的可靠性和稳健性。其他研究[27,31,41,55,56,57,58]使用单一指标评估了他们的系统，这可能导致评估不完整，因为未能捕捉到所有相关的性能方面，可能导致偏倚或误导性的结论。

深度学习（DL）和混合模型在 AD 检测中的使用越来越多，特别是通过语音信号分析，这是因为它们能够处理大型、复杂的数据集并自动提取相关的声学和文本特征，从而提高准确性和效率。与依赖于手工制作特征提取的传统机器学习方法不同，DL 模型可以识别表明认知能力下降的细微语音模式。混合模型将 DL 与传统 ML 模型相结合，通过利用不同算法的优势进一步提高性能，从而实现更稳健和可推广的预测。几项研究 [64,66,82,104] 调查了利用基于 DL 的模型进行 AD 检测的有效性。ResNet50 和 Densenet121 在馈送声学特征（如 MFCC）时显示出有希望的结果。此外，BERT 家族已经证明了其作为语言特征描述符的能力，可以区分健康个体和 AD 患者。这些基于 transformer 的模型在大型语料库上进行了预训练，可捕获丰富的语境化语言表示，使它们能够生成封装细微句法和语义信息的特征。尽管这些模型具有潜力，但由于内存消耗高且处理时间长，它们带来了挑战。随着这些模型的复杂性增加，需要大量的层和自注意力机制来捕获细微的模式，对强大的硬件加速器（如图形处理单元（GPU））的需求变得至关重要。此外，优化这些模型以平衡准确性和效率通常需要迁移学习或修剪等技术，这有助于减小模型的大小和计算需求。尽管存在这些挑战，但解决计算复杂性对于使基于深度学习的诊断工具可扩展并适用于实时临床环境至关重要。

这些研究的结果鼓励进一步研究，以充分利用 ML 和 DL 模型作为增强 AD 诊断、预后和疾病进展监测的有前途的工具。通过语音信号提高早期 AD 检测的准确性，可以对认知变化进行无创监测，允许早期干预，减缓疾病进展，并通过识别指示 AD 的细微语言和声学标志物来改善患者预后。

为了提高模型性能的可靠性和稳健性，使用了交叉验证或引导方法。交叉验证，例如 k 折叠或留一主体（LOSO），系统地将数据多次拆分为训练集和验证集，确保每个数据点都用于训练和评估。另一方面，引导涉及从数据集中重复采样并替换以创建多个训练集和测试集，从而能够估计性能指标的可变性和置信区间。这两种方法都降低了使用保留验证方法（即训练-测试拆分）可能导致的偏见评估风险，并有助于识别潜在的弱点，例如对特定数据点或配置的敏感性，从而得出关于系统功能的更稳健和可信的结论。

由于阿尔茨海默病和非阿尔茨海默病数据的分布不平衡，该模型通常使用各种评估指标进行评估，例如准确性、精密度、召回率、F1 分数和 AUC，以评估其区分 AD 个体与健康对照者的有效性。准确性可能具有误导性，因为它可能通过偏爱多数类而没有考虑少数类的检测不佳来反映高性能。精度和召回率分别突出了模型避免误报和正确识别正类的能力。F1 分数提供了对模型精确率和召回率的平衡度量，有助于评估少数类的性能，而不会受到多数类的偏见。AUC 评估模型在各种决策阈值中区分类的能力，从而提供模型性能的全面视图。为了解决不平衡数据带来的挑战，采用了重采样方法。这些方法要么涉及对少数类进行过采样（例如，使用合成少数类过采样技术 [SMOTE] [111] 等方法），要么对多数类进行欠采样以平衡数据集。

在为 AD 开发基于语音的 CAD 系统时，使用了各种工具和软件来处理和分析与认知能力下降相关的语音模式。对于从语音信号中提取特征，通常使用 openSMILE [109]、Surfboard [112] 或 SpeechPy [113] 等工具来提取声学特征，从而能够分析可能表明认知能力下降的语音模式。此外，NLTK 或 SpaCy 等自然语言处理（NLP）工具有助于理解语音的语言方面。此外，深度学习模型还用于更高级的深度声学和语言特征提取，可以使用 TensorFlow、Keras 或 Pytorch 等工具实现。

此外，在现实世界的临床环境中部署此类系统存在一些实际挑战。一个主要问题是跨文化和语言的普遍性。语音模式在语言、方言和文化背景下表现出显著的多样性，当部署在不同和异质的人群中时，对系统的准确性和有效性构成了挑战。必须确保这些系统能够准确解释和分析具有不同口音、语音模式和语言背景的个体的语音，同时将这些与与 AD 相关的语言障碍区分开来，因为这种能力对于它们的广泛接受和成功整合至关重要。另一个重大挑战在于道德问题，尤其是与隐私、同意和数据安全相关的问题。用于诊断的语音数据高度敏感，需要严格的协议来保护患者的机密性并防止未经授权的使用。此外，训练数据中的偏差等挑战（某些人口群体的代表性可能不足）可能会导致不公平或不公平的结果。为了克服这些挑战，仔细考虑文化和道德因素至关重要，确保这些系统在临床实践中既有效又值得信赖。

6. 未来方向

尽管在使用 ML 和 DL 模型检测 AD 方面取得了进展，但用于分析患者语音以检测 AD 的模型仍存在重大差距。与利用成像数据的模型相比，这些基于语音的模型通常表现不佳 [114,115,116,117]。使用 ML 和 DL 模型对医学成像模式的分析表明，它们不仅能够检测 AD，还能够在早期检测其他疾病，例如视网膜疾病 [118,119,120,121,122]、肺部疾病 [123,124,125,126,127]、乳房疾病 [128,129]、甲状腺疾病 [130,131]、心脏疾病 [132,133,134]、脑部疾病 [135,136,137] 和肾脏疾病 [138,139,140]。医学成像方法通常捕获有关大脑的详细解剖和代谢信息，而语音信号则不太直接地了解其身体状况。然而，这些方法为研究人员提供了探索提高语音分析性能并将其与医学成像方式、遗传标记和生活方式因素相结合的方法的机会。导致这种低性能的一个潜在因素可能是缺乏更大的基准，这限制了模型有效泛化的能力。此外，通过降噪、语音增强或更清晰的信号处理技术来提高语音信号的质量可能会增强语音表示，从而帮助模型更好地捕捉与各种神经系统疾病相关的语音模式的复杂性。将 Transformer 模型（如 ViT 模型 [141]）与递归神经网络（RNN）集成，可以有效地利用 Transformer 的注意力机制来捕获全局依赖关系，以及 RNN 处理顺序数据的能力，从而增强对患者语音的分析，以实现更准确的 AD 检测。此外，XAI 等新兴技术在 AD 检测方面取得了有前途的进步。XAI 通过使 DL 模型的决策过程更易于理解，使临床医生能够信任和解释结果，从而解决了 DL 模型的透明度挑战。此外，进一步的研究对于更好地了解痴呆患者的言语模式与冷漠症状之间的相关性以及这种联系如何影响诊断和治疗至关重要。此外，需要检查特定的言语和语言特征如何与潜在的神经病理学变化相关，以加深我们对痴呆的理解。提高患者语音分析的准确性不仅可以降低医疗成本，还可以集成到持续监测系统中，从而增强 AD 的早期检测。

7. 结论

总之，目前关于利用 DL 和 ML 模型通过语音信号进行 AD 检测的文献表明了该领域的重大进展和前景。各种研究强调了使用这些方法分析语音模式的潜力，这些模式在 AD 患者中表现出明显的变化。此外，研究表明在分析中包含停用词的重要性，因为痴呆患者经常表现出重复它们的倾向，这可以被认为是检测痴呆的重要指标。寻求进一步提高诊断性能对于早期发现至关重要，从而减少疾病进展。尽管医学成像方法的成本较高，但研究语音信号与这些方法和其他生物标志物的组合对于提高诊断准确性至关重要。尽管使用 ML 和 DL 模型进行语音信号分析取得了不断进步，但挑战仍然存在，尤其是在需要大型、标记良好的数据集、特征标准化和模型的可解释性方面。