论文阅读:CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?

CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?

生成式大语言模型能否进行自动语音识别(ASR)纠错?

https://arxiv.org/pdf/2307.04172

文章目录

  • 速览
    • 常规总结
    • 通俗版
  • 摘要(Abstract)
  • 2. 引言(Introduction)
  • 2. BACKGROUND
  • 3. LLM-BASED ASR ERROR CORRECTION
    • 3.1 无约束纠错(Unconstrained Error Correction)
      • 3.1.1 零样本 vs. 单样本提示
    • 3.2 约束纠错(N-best Constrained Correction)
      • 3.2.1 选择法(Selective Approach)
      • 3.2.2 最近映射法(Closest Mapping)
  • 4. EXPERIMENTS
    • 4.1 实验设置(Setup)
    • 4.2 实验结果(Experimental Results)
    • 4.3. Discussion
    • 4.4. Ablation and Analysis(消融分析)
      • 5. CONCLUSIONS(结论)

速览

常规总结

这篇论文探讨了生成式大型语言模型(如ChatGPT)在自动语音识别(ASR)错误校正中的应用。以下是核心内容的总结:


研究背景

  • ASR系统的挑战:尽管端到端模型(如RNN-T、LAS、Whisper)显著提升了语音识别性能,但ASR输出仍存在错误,尤其是低频词或跨领域场景。
  • 传统错误校正方法:通常需要针对特定ASR系统训练监督模型(如基于T5的模型),计算成本高且缺乏灵活性。
  • 生成式LLMs的优势:ChatGPT等模型具备零样本/少样本学习能力,无需训练即可适配不同ASR系统,为高效错误校正提供了新思路。

方法创新
论文提出两种基于N-best列表的校正策略(N为ASR解码生成的多个候选结果):

  1. 无约束校正(Unconstrained Correction)

    • 输入:ASR生成的N-best假设列表。
    • 任务:直接生成校正后的文本,不限制输出范围。
    • 提示设计:通过标签(如<hypothesis1>)明确区分候选,零样本或少样本示例引导模型理解任务。
  2. 约束校正(Constrained Correction)

    • 选择性方法(Selective):让ChatGPT从N-best列表中选择最佳候选。
    • 最近映射(Closest Mapping):将ChatGPT的无约束输出与N-best列表对比,选择编辑距离最小的候选。

实验结果
在两个ASR系统(Conformer-Transducer和Whisper)和三个数据集(LibriSpeech、TED-LIUM3、Artie Bias)上的测试表明:

  1. 性能提升

    • Conformer-Transducer:在跨领域数据(如TED-LIUM3)上,1-shot无约束校正使词错误率(WER)相对降低25.1%,甚至优于N-best列表的Oracle性能。
    • Whisper:校正效果受限于其N-best列表多样性不足,但仍能通过约束方法降低WER(如LibriSpeech上从7.37%降至7.03%)。
  2. 关键发现

    • N-best列表大小:输入更多候选(如N=5)能显著提升校正效果,提供更丰富的上下文。
    • 少样本学习:1-shot示例有效减少生成中的截断错误,提升稳定性。
    • 约束解码优势:选择性方法和最近映射在多数场景下优于无约束生成,减少冗余修改。
  3. 与传统方法对比

    • ChatGPT在跨领域任务上表现接近或优于监督训练的T5模型,且无需训练数据,更具灵活性。

局限性与启示

  • N-best列表质量:若ASR生成的候选多样性低(如Whisper因规范化导致重复),校正效果受限。
  • 计算成本:调用ChatGPT API可能产生延迟与费用,需权衡实时性需求。
  • 未来方向:结合ASR内部信息(如声学特征)与LLMs的语言知识,进一步提升校正鲁棒性。

总结
论文首次验证了生成式LLMs(如ChatGPT)在ASR错误校正中的有效性,尤其在零样本/少样本场景下展现出与监督模型媲美的性能。这一方法为快速适配不同ASR系统及跨领域应用提供了高效解决方案,是语音处理与语言模型结合的重要探索。

通俗版

作者的方法其实特别像 “考试时老师帮你改错题”,只不过这里的“老师”是 ChatGPT 这种大模型,“考题”是语音识别(ASR)的结果。具体分三步:


第一步:语音识别(ASR)先答题
比如你说了一句 “李雷骑(qí)自行车去公园”,但 ASR 可能听错了,生成几个可能的答案(类似考试时写了几种可能的答案):

  1. 李雷去自行车去公园(漏听“骑”)
  2. 李雷其自行车去公园(“骑”听成“其”)
  3. 李雷气自行车去公园(“骑”听成“气”)
    这些答案都叫 “N-best 列表”(比如 N=3 就是 3 个候选答案)。

第二步:让大模型(如ChatGPT)当“老师”改卷
作者用了两种改卷方式:

方式一:自由改卷(无约束校正)
直接把 ASR 的多个候选答案交给 ChatGPT,让它根据“常识”和“上下文”改出最合理的句子。
👉 例如
输入:“候选1:李雷去自行车去公园;候选2:李雷其自行车去公园;候选3:李雷气自行车去公园。”
ChatGPT 可能输出:“李雷骑自行车去公园”。(直接修正错误)

方式二:选择题改卷(约束校正)
为了避免 ChatGPT “乱改”,让它从 ASR 给的候选答案里选一个最好的,或者改完的句子必须接近某个候选答案。
👉 例如
输入同样的候选答案,ChatGPT 可能选候选2(“其”),但发现“其”不合理,于是改成“骑”,但要求改动后的句子必须和某个候选答案很像(比如改动最少的候选2)。


关键技巧:让模型“看多个答案”
作者发现,ASR 给出的候选答案越多(比如从3个增加到5个),ChatGPT 改错的效果越好。
这就像考试时,如果你给老师看了5种可能的解法,老师更容易从中找出正确的思路。


举个实际例子
场景:你说 “三角形的内角和是180度”

  • ASR 可能听错:生成候选答案

    1. 三角含的内角和是180度
    2. 三角形的内脚和是180度
    3. 三角形的内角和是180杜
  • ChatGPT 改错

    • 自由改卷 → 直接输出正确句子:“三角形的内角和是180度”。
    • 选择题改卷 → 发现候选1中的“三角含”可能是“三角形”的误听,于是选候选1并修正为正确版本。

为什么这方法厉害?

  1. 不用训练:直接拿现成的 ChatGPT 就能用,不用为了改错专门训练模型。
  2. 灵活:不管 ASR 是哪个公司开发的(比如讯飞、Whisper),都能直接套用。
  3. 像人一样改错:大模型能结合常识(比如“三角形的内角和”是数学常识),而传统方法只会死板地改字词。

一句话总结
作者的方法就是:让语音识别系统多写几个答案,再请 ChatGPT 当老师,从这些答案里挑错或直接改出正确答案。简单粗暴但有效!

摘要(Abstract)

  • 研究问题:能否用ChatGPT这类生成式大语言模型(LLM)来纠正语音识别(ASR)的错误?
  • 传统方法痛点
    • 传统ASR纠错模型需要针对特定语音系统进行监督训练,过程复杂耗时
    • 模型只能适配特定ASR系统,更换系统或领域时需要重新训练
  • 创新方案
    • 使用ChatGPT进行零样本(无需训练)或少量样本(1个示例)的纠错
    • 提出两种纠错策略:
      • 自由生成式纠错(直接生成修正文本)
      • 约束式纠错(从ASR提供的多个候选结果中选择最优)
  • 实验结果
    • 在两种主流ASR架构(Transducer和Attention-Encoder-Decoder)上均有效
    • 在多个测试集上降低了词错误率(WER)

2. 引言(Introduction)

  • ASR的重要性:语音转文字是人与机器交互的核心技术,但存在错误需要修正
  • 现有技术局限
    • 传统端到端模型(如RNN-T、LAS)依赖大量标注语音数据
    • 即使像Whisper这种用68万小时数据训练的模型,仍存在低频词识别问题
  • 纠错模型发展
    • 早期:基于人工规则的纠错系统(需要专业知识)
    • 当前主流:基于神经网络的端到端模型(需要针对每个ASR系统单独训练)
    • 最新趋势:使用预训练语言模型(如T5)微调,但仍有训练成本
  • 本文突破点
    • 首次尝试用ChatGPT这种生成式大模型进行ASR纠错
    • 关键创新:利用ASR解码时产生的N-best候选列表(多个可能结果)
    • 优势体现:
      • 无需训练即插即用
      • 适配不同ASR系统
      • 在陌生领域也能有效工作

举个生活化例子帮助理解:
想象你对着手机说"明天九点提醒我买鲜橙",ASR可能错误转写成"明天酒点提醒我卖县城"。传统纠错系统需要专门学习这个ASR的犯错规律,而ChatGPT就像个语言专家,通过查看ASR提供的多个候选结果(如:①酒点/卖县城 ②九点/买鲜橙 ③九点/卖县城),结合常识判断正确版本应该是"九点买鲜橙"。

这种方法的革命性在于:不再需要针对每个语音识别器单独训练纠错模型,直接调用通用语言模型就能实现跨系统的智能纠错。

2. BACKGROUND

核心问题:如何让语音识别的结果更准确?
想象你对着手机说“帮我订明天上午九点的闹钟”,但语音识别系统(ASR)可能错误转写成“帮我订明天上午酒的闹钟”。这时需要一个“纠错小助手”来修正错误。

传统纠错方法

  1. 单句纠错(1-best输入):

    • 早期纠错模型只看ASR给出的最可能的错误结果(比如“酒”),直接修改成正确文本(“九”)。
    • 缺点:如果ASR的第一候选结果完全错误(例如“酒点”),纠错模型可能无法理解上下文。
  2. 多候选纠错(N-best输入)[17]:

    • ASR会输出多个可能的候选结果(比如:①酒的闹钟 ②九点的闹钟 ③九点闹钟)→ 称为N-best列表
    • 纠错模型(如T5)会同时分析这些候选,结合上下文选择最佳答案。就像考试时遇到选择题,先排除明显错误选项,再从剩下的选项中找正确答案。
  3. 约束解码技术

    • 结合ASR的“语音识别置信度”和T5的“语言理解能力”打分。例如:
      • ASR可能给“酒的闹钟”打高分(因为发音像),但T5发现“九点的闹钟”更符合逻辑→ 最终选择后者。

ChatGPT的新突破

  • 为什么用ChatGPT?
    • T5需要针对特定ASR系统训练,而ChatGPT是“全能语言专家”,通过海量文本学习(相当于读过整个互联网),无需额外训练即可纠错。
    • 支持零样本学习(直接使用)或1样本学习(给一个例子就能模仿),就像人类举一反三。

在这里插入图片描述

Fig. 1(N-best T5模型结构)
想象这是一条“文本加工流水线”:

  1. 输入阶段

    • 接收ASR的多个错误候选(例如:“come and pay us a visit”和“come on past the visit”),每个句子被标记为<BOS>...<EOS>(类似书签)。
  2. 编码器(Transformer Encoder)

    • 像“语法检查员”拆解句子,分析每个词的错误概率。例如:“past”在上下文中可能被标记为可疑词。
  3. 解码器(Transformer Decoder)

    • 像“语言大师”重新组合词语,生成更合理的句子。例如,发现“pay us a visit”是常用搭配,而“past the visit”不符合逻辑→ 输出“come and pay a visit”。
  4. 约束解码的配合

    • 图中未直接展示,但实际会结合ASR和T5的评分(例如:ASR认为“past”发音更接近,但T5认为“pay”更合理),最终选择综合得分最高的结果。

类比帮助理解

  • 传统纠错模型:像一个只会修改错别字的校对员,只能处理单一输入。
  • N-best T5模型:升级为团队协作,多个校对员各自提出修正方案,投票选出最佳答案。
  • ChatGPT应用:直接请来一位“语言教授”,利用庞大知识库瞬间判断最合理的表达。

通过这种多候选分析+语言模型辅助,ASR的准确率得以显著提升,而ChatGPT的引入让这一过程更智能、更通用。

3. LLM-BASED ASR ERROR CORRECTION


问题场景
假设ASR系统将语音“请打开空调”错误识别为以下3个候选(N-best列表):

  1. 轻打开空调(ASR最自信的结果)
  2. 请打开空调(正确答案,但ASR评分第二)
  3. 请打开空调(错别字,ASR评分第三)

现在要让ChatGPT纠正错误。


3.1 无约束纠错(Unconstrained Error Correction)

基本思路

  • 自由创作模式:让ChatGPT像“语言医生”自由修改候选句子,生成全新修正结果。
  • 关键输入:提供ASR的多个错误候选(N-best列表),而非仅第一错误结果。

为什么需要N-best列表?

  • 类比:就像让医生同时看到“轻打开空调”“请打开空调”“请打开空调”三个误诊报告,比只看第一份报告更容易发现正确诊断。
  • 实验发现:仅用第一错误候选(例1),ChatGPT可能越改越错;用N-best列表(例1+2+3),纠错成功率更高。

3.1.1 零样本 vs. 单样本提示

零样本(Zero-shot)

  • 操作方式:直接给ChatGPT任务指令和N-best列表,不给示例
  • 提示设计(类似图2结构):
    任务:请纠正以下ASR识别错误,输出正确文本。
    <hypothesis1>轻打开空调</hypothesis1>
    <hypothesis2>请打开空调</hypothesis2>
    <hypothesis3>请打开空调</hypothesis3>
    
  • 注意事项
    必须用标签(如<hypothesis1>)明确标注每个候选,用数字或纯文本效果差。这相当于给ChatGPT“结构化输入”,帮助它理解上下文关系。

单样本(1-shot)

  • 操作方式:在指令中添加一个示例,教ChatGPT如何纠错。
  • 示例(假设来自其他数据):
    示例输入:
    <hypothesis1>今天天气真遭糕</hypothesis1>
    <hypothesis2>今天天气真糟糕</hypothesis2>
    示例输出:今天天气真糟糕
    
  • 作用
    相当于告诉ChatGPT:“请模仿这个例子,只修改错误部分,保持句子长度不变”。避免它过度发挥(例如把“空调”改成“制冷装置”)。

3.2 约束纠错(N-best Constrained Correction)

核心限制:强制要求ChatGPT的输出必须来自ASR提供的N-best列表,不能自由生成。

适用场景
当ASR候选列表中已包含正确答案(如例2),但排序不是第一时。约束纠错相当于“从ASR的错误答案中找金子”。

3.2.1 选择法(Selective Approach)

  • 操作方式:让ChatGPT扮演“评委”,从N-best列表中直接选择最佳答案。
  • 提示示例
    任务:请从以下选项中选出最合理的句子。
    <option1>轻打开空调</option1>
    <option2>请打开空调</option2>
    <option3>请打开空调</option3>
    输出格式:<option?>答案</option?>
    
  • 优势
    结合ChatGPT的语言理解能力,像考试时排除错误选项。例如,它能判断“轻打开”不符合常理,选择“请打开空调”。

3.2.2 最近映射法(Closest Mapping)

  • 两步走策略

    1. 先自由纠错:让ChatGPT生成修正结果(例如输出“请打开空调”)。
    2. 反向匹配:在N-best列表中找与ChatGPT输出最相似的候选(计算编辑距离)。
  • 编辑距离解释
    衡量两个文本需要多少次增/删/改才能相同。例如:

    • ChatGPT输出:“请打开空调”
    • 候选2:“请打开空调” → 编辑距离=0(完全一致)
    • 候选1:“轻打开空调” → 编辑距离=1(“轻”改“请”)
  • 结果:选择候选2作为最终答案。

在这里插入图片描述

图2(提示示例)的功能解析
(假设图中展示的是零样本+单样本的提示模板)

  1. 任务说明:明确要求ChatGPT纠正ASR错误。
  2. 结构化输入:用XML式标签包裹每个候选,保持顺序(按ASR置信度排序)。
  3. 示例展示(1-shot)
    • 输入部分显示ASR的多个错误候选
    • 输出部分展示如何仅修改错误部分(例如修正“遭糕”为“糟糕”)。

方法对比表

方法核心特点适用场景
无约束纠错(零样本)自由生成,依赖N-best上下文理解ASR候选中无正确答案,需语义重构
无约束纠错(1样本)通过示例引导修正方向避免过度修正,保持文本简洁性
选择法从ASR候选中选择最佳答案正确答案已在候选列表中
最近映射法先自由修正,再匹配最近候选平衡创造性与ASR原始输出可靠性

总结

  • 无约束纠错:像让作家重写病句,允许自由发挥。
  • 约束纠错:像让编辑从几个草稿中选最佳版本,或找到最接近作家初稿的版本。
  • ChatGPT的作用:既是作家(生成新文本),又是编辑(筛选现有文本),通过多角度分析提升ASR准确率。

4. EXPERIMENTS

4.1 实验设置(Setup)

实验目标
验证ChatGPT能否像专业纠错模型(如T5)一样,有效修正两种主流语音识别系统(Conformer-Transducer和Whisper)的错误。

实验对象

  1. 两个ASR系统

    • Conformer-Transducer:基于960小时有声书数据训练的专业模型(类似“专业校对员”)。
    • Whisper small.en:OpenAI用68万小时网络语音训练的通用模型(类似“全能翻译官”)。
  2. 三个测试集(详见表1):

    数据集特点类比场景
    LibriSpeech有声书语音(与训练数据同领域)考试中的“模拟题”
    TED-LIUM3TED演讲(跨领域,口语化)考试中的“即兴演讲题”
    Artie Bias用户朗读的多样化语音(含口音/背景噪音)考试中的“实战应用题”

在这里插入图片描述
表1(数据集详情)解析

数据集语音时长句子数领域特点挑战点
LibriSpeech5.4h2,620清晰朗读,专业文本低频词识别(如学术术语)
TED-LIUM35.7h2,950即兴演讲,口语化表达非正式表达、填充词(um, uh)
Artie Bias1.3h1,130多样化口音、背景噪音语音质量参差不齐

关键实验设计

  1. 输入方式

    • ASR系统对每段语音生成10个候选结果(N-best列表),选取前5名输入ChatGPT。
    • 例如:ASR听到“打开窗户”可能输出候选:①“打开床户” ②“打开窗户” ③“大开车库”…
  2. 对照组

    • N-best T5模型:专门为每个ASR系统训练的纠错模型(需大量训练数据)。
    • ChatGPT方法:零样本/单样本提示 + 两种约束策略(选择法/最近映射法)。

4.2 实验结果(Experimental Results)

核心发现

  1. 同领域数据(LibriSpeech)

    • Conformer-Transducer
      • ChatGPT(1-shot最近映射法)词错率6.24%,媲美T5模型(6.15%)。
      • 类比:专业校对员(T5)得90分,临时外援(ChatGPT)得89分,表现接近。
    • Whisper
      • ChatGPT最佳表现(7.03%)弱于T5(6.39%),但仍有提升。
      • 问题:ChatGPT倾向于过度删除词语(如把“请打开”误删为“打开”)。
  2. 跨领域数据(TED/Artie)

    • Conformer-Transducer
      • ChatGPT(1-shot自由纠错)在TED数据集上提升25.1%,甚至超越ASR系统本身的“理论最佳表现”(Oracle WER)。
      • 类比:外援在陌生题型中反而比专业选手表现更好,展现强大泛化能力。
    • Artie Bias数据集
      • ChatGPT(零样本)词错率从23.67%→18.73%,优于T5模型。
      • 原因:ChatGPT通过海量语料更好处理口音/噪音场景。

方法对比

方法优势场景局限性
T5微调模型同领域数据表现最佳需重新训练,无法跨系统使用
ChatGPT零样本即插即用,跨领域表现优异对ASR系统特性不敏感(如Whisper)
ChatGPT单样本通过示例减少过度修正示例选择不当可能干扰效果
最近映射法平衡创造性与ASR可靠性依赖N-best列表包含正确答案

在这里插入图片描述
Table 2

表格核心结论
ChatGPT纠错在跨领域数据(如TED演讲)表现惊艳,但对Whisper模型效果有限。专业纠错模型T5在自家训练数据(LibriSpeech)上更稳定。

关键概念解释

术语含义生活类比
CTrConformer-Transducer模型“专业校对员”(针对有声书训练)
WhsWhisper模型“全能翻译官”(海量网络数据训练)
Oracle理论最佳结果(直接选N-best中的正确答案)“开卷考试满分答案”
T5 (uncon)无约束纠错模型“自由发挥的改卷老师”
0-shot零样本提示(不给示例)“让新手直接上岗”

核心数据解读
1. LibriSpeech(有声书,同领域)

方法CTr错误率Whs错误率结论
原始ASR6.90%7.73%Whisper略逊于CTr
T5专业纠错6.15%6.39%T5更稳定(专业选手主场优势)
ChatGPT-1shot最近映射6.24%7.03%ChatGPT逼近T5,但Whisper拖后腿

生活案例

  • CTr把"九点"错听成"酒点",T5精准修正
  • Whisper把"鲜橙"错听成"县城",ChatGPT有时会改成"鲜城"(半对半错)

2. TED-LIUM3(演讲,跨领域)

方法CTr错误率Whs错误率结论
原始ASR13.53%3.89%Whisper意外表现优异(?数据可能有误)
ChatGPT-1shot自由纠错10.34%8.54%ChatGPT拯救CTr,降低25%错误

矛盾点解析

  • 表格中Whisper原始错误率3.89%极低,可能为排版错误(实际应为更高值)
  • 合理推测:TED场景下,Whisper因训练数据广泛表现较好,但ChatGPT仍能提升

3. Artie Bias(噪音/口音)

方法CTr错误率Whs错误率结论
原始ASR23.67%9.03%Whisper抗噪能力更强
ChatGPT-0shot自由纠错18.73%8.30%ChatGPT显著提升CTr,但对Whisper帮助有限

根本原因

  • Whisper候选中含大量乱码(如"请打*开空调")→ ChatGPT无力回天
  • CTr错误明确(如"鲜橙"→"县城")→ ChatGPT易修正

实践指南

  1. 同领域清晰语音

    • 优先用T5专业纠错(错误率最低)
    • 次选ChatGPT-1shot最近映射(免训练,效果接近)
  2. 跨领域/演讲场景

    • 必选ChatGPT自由纠错(语言理解力碾压传统模型)
  3. 带噪音/口音环境

    • Whisper+ChatGPT组合(抗噪+语言修正)
    • 避免使用CTr原始输出

总结启示

  • ChatGPT像语言医生:擅长疑难杂症(跨领域错误),但需要"病例档案"(N-best列表)
  • T5像专科医生:在熟悉领域(训练数据)更精准,但无法快速适应新病症
  • ASR系统选择比纠错更重要:Whisper本身抗噪强,CTr需要纠错器"续命"

总结

  • ChatGPT就像临时外聘专家
    • 在陌生领域(TED演讲)表现惊艳,甚至超越本地专家(T5)。
    • 但面对特定系统(如Whisper)可能“水土不服”,需要结合系统特性调整策略。
  • 传统T5模型像专业教练
    • 在熟悉题型(LibriSpeech)中稳扎稳打,但无法快速适应新领域。
  • 实验启示
    • 轻量级方案:对跨领域/低资源场景,直接用ChatGPT零样本纠错。
    • 重度优化方案:对固定ASR系统,仍需要训练专用纠错模型(如T5)。

4.3. Discussion

关键问题:为什么ChatGPT有时纠错效果差?
通过分析错误类型和ASR系统特性,发现两大原因:

1. ChatGPT的"过度删减"问题
现象

  • Conformer-Transducer系统
    ChatGPT自由纠错(零样本)减少了替换错误(如"九"→"酒"),但删减错误增加(如漏掉"的")
  • Whisper系统
    ChatGPT纠错后删减错误更严重,尤其在TED演讲数据集(口语化表达)

根本原因

  • ChatGPT的语言洁癖:倾向于生成简洁流畅的文本
    示例
    ASR输出:“嗯,那个,我想说今天天气真好”
    ChatGPT纠错:“今天天气真好”(删除填充词"嗯,那个,我想说")→ 虽然更流畅,但改变了原意

解决方案

  • 单样本提示:通过示例告诉ChatGPT"不要随便删减"(如保留"那个")
  • 约束纠错法:强制从ASR候选中选择(避免自由删减)

2. Whisper系统的"候选列表陷阱"
现象

  • Whisper生成的N-best候选列表多样性不足
    示例
    语音内容:“气候变化是真实存在的”
    Whisper候选:
    ① 气候变化是真实存在的
    ② 气候变化真实存在
    ③ 气候变化是真实存在的(重复)
    ④ 气候变化是真实的
    ⑤ 气候变化真实存在(重复)

导致问题

  • 候选列表信息量低:多数候选只是重复或细微调整
  • ChatGPT无从选择:就像考试时所有选项都似是而非,容易选错

数据佐证

  • 交叉词错率(Cross WER):衡量候选列表内部差异
    • Whisper的交叉词错率高达89.7%(TED数据集),而Conformer仅42.1%
    • 解读:Whisper候选之间差异过大(如有的候选漏词,有的加词)

总结

  • ChatGPT像文字编辑
    • 遇到优质初稿(Conformer候选)能锦上添花
    • 面对混乱草稿(Whisper候选)可能越改越糟
  • ASR系统像学生
    • Conformer是"认真学生",错误明确易修正
    • Whisper是"创意学生",答案天马行空难捉摸
  • 实践启示
    • 先用N-best列表质量检测工具(如交叉词错率)
    • 根据ASR特性选择纠错策略,不可一刀切

在这里插入图片描述

Table 3
表格背景
对比两种语音识别系统(TransducerWhisper)的纠错效果,展示ChatGPT如何通过分析它们的候选答案(Hyp-1到Hyp-5)进行纠错。

案例原文(Reference Text)
“now that that blew my mind and you know it took a lot of preparation we had to build cameras and lights…”
中文模拟
“当时那个发现让我震惊,要知道我们花了很多准备,必须搭建摄像机和灯光…”

Transducer模型的纠错过程
ASR候选错误

候选错误内容(类比中文)错误类型
Hyp1“blue我的认知” → 正确应为"震惊(blew)"单词替换(blue→blew)
Hyp2“to look准备” → 正确应为"took准备"动词错误(look→took)
Hyp3“to talk准备” → 动词错误语法错误
Hyp4“blow我的认知” → 时态错误(blow→blew)时态错误
Hyp5“to a lot准备” → 介词错误(a→of)介词缺失

ChatGPT纠错结果
“now that the blew my mind…”
成功修正

  • 将Hyp1的"blue"纠正为"blew"(震惊)
    遗留问题
  • 错误添加冠词"the"(原文无"the")→ 插入错误

Whisper模型的纠错灾难
ASR候选混乱

候选错误内容(类比中文)问题类型
Hyp2“希望顶替(hopefully top along)”无意义短语
Hyp3正确但重复出现候选冗余
Hyp4“benefit to your…”插入无关内容
Hyp5“maybe!!!”乱码与感叹号

ChatGPT纠错结果
“now that~~!!! blew my mind and we had二维码…”
严重错误

  • 保留乱码"!!!" 和"二维码"(完全无关)
  • 删除关键连接词"you know" → 信息丢失

核心结论

  1. Transducer

    • 候选错误类型明确(如单词拼写、语法),ChatGPT能有效修正。
    • 问题:偶尔过度修正(如加"the")。
  2. Whisper

    • 候选列表质量低下(乱码、重复、无关内容),误导ChatGPT。
    • 结果:纠错后比原始错误更糟

类比

  • Transducer 像学生写作文时有少量错别字,老师(ChatGPT)容易批改。
  • Whisper 像学生交了一堆涂鸦和乱码,老师无从下手,只能胡乱批注。

启示

  • ASR候选质量决定纠错上限:如果候选列表本身混乱(如Whisper),大模型也无法补救。
  • ChatGPT适用场景:适合修正系统性错误(如拼写/语法),而非处理乱码或逻辑混乱文本。

在这里插入图片描述
Table 4展示了ChatGPT在不同设置下对两种ASR模型输出纠错结果的词错误率(WER)细分

  • Table 4:ChatGPT在LibriSpeech数据集上对Transducer和Whisper输出的WER细分
    • 表头含义:“All”代表总体情况,“Sub”“Del”“Ins”分别表示替换错误率、删除错误率、插入错误率。
    • 行指标解释:“Transducer”和“Whisper”分别代表两种不同的ASR模型。每种模型下又细分了不同的纠错方法,如“ASR baseline”表示该模型未经过ChatGPT纠错的原始输出情况;“ChatGPT (0-shot uncon)”表示使用ChatGPT进行零样本无约束纠错;“ChatGPT (1-shot uncon)”表示使用ChatGPT进行1样本无约束纠错;“ChatGPT (1-shot closest)”表示使用ChatGPT进行1样本最近映射约束纠错。
    • 列指标解释:“WER”代表词错误率(Word Error Rate),是衡量ASR系统性能的重要指标,数值越低表示识别结果与正确文本的差异越小,性能越好。“Sub”“Del”“Ins”分别代表替换(Substitution)、删除(Deletion)、插入(Insertion)错误率,它们是WER的细分指标,用于分析错误产生的具体类型占比,能帮助研究者了解不同纠错方法对各类错误的影响。
    • 数据解读:以“Transducer”部分为例,“ASR baseline”行显示,原始Transducer模型输出的总体WER为6.9%,其中替换错误占5.3%,删除错误占0.7%,插入错误占0.8% 。“ChatGPT (0-shot uncon)”行表示,零样本无约束纠错时,总体WER为6.6%,替换错误率降至4.6%,但删除错误率升至1.3%,插入错误率不变。这表明零样本无约束纠错能减少替换错误,但会引入更多删除错误。

在这里插入图片描述

Table 5统计了两种ASR模型生成的5-best列表的相关指标,用于分析ChatGPT在ASR纠错中表现差异的原因。

  • Table 5:Conformer-Transducer和Whisper模型在不同测试集上生成的5-best列表统计
    • 表头含义:“Uniq”指测试集中一个5-best列表内平均的唯一假设数量,用于衡量列表多样性;“Cross WER”衡量5-best列表中假设之间的差异,计算保留唯一假设后,两两假设间的WER并汇总。
    • 行指标解释:“Data”列表示不同的测试数据集,包括LibriSpeech(LB)、TED-LIUM3(TED)和Artie。“Model”列区分Conformer-Transducer和Whisper这两种ASR模型,展示它们在不同数据集上的5-best列表统计情况。
    • 列指标解释:“Uniq”代表唯一性(Uniqueness),指在测试集中,一个5-best列表内平均的唯一假设数量。该指标用于衡量5-best列表的多样性,数值越接近5,表示列表中不同假设越多,多样性越好;数值越低,说明重复的假设越多。“Cross WER”衡量的是5-best列表中假设之间的差异程度。具体计算方式是,先保留列表中的唯一假设,然后对每一对假设计算它们之间的WER,并将所有结果汇总。这一指标可以帮助分析不同模型生成的5-best列表中假设之间的差异大小,差异越大,说明假设之间的变化越复杂,可能会对基于这些假设的纠错方法产生不同影响。
    • 数据解读:在LibriSpeech测试集上,Transducer模型的“Uniq”值为4.9,接近5-best列表大小,表明其5-best列表多样性较好;Whisper模型的“Uniq”值仅3.0,说明其列表中重复假设较多。从“Cross WER”的删除和插入率看,Whisper在各测试集上都高于Transducer,尤其在TED-LIUM3测试集上差异明显,意味着Whisper的5-best列表中假设差异可能源于无关词的增减,这会误导ChatGPT,影响纠错效果。

4.4. Ablation and Analysis(消融分析)

这部分主要是进一步探究ChatGPT在自动语音识别(ASR)纠错中性能提升的来源。研究者尝试构建了一个基于ROVER的系统,想通过加权投票的方式来整合N-best列表中的假设(也就是ASR给出的多个可能识别结果),但结果发现,这个系统的表现还不如ASR的基线结果 。这就说明,ChatGPT并不是简单地对N-best列表进行投票处理,而是利用了它隐含学习到的世界知识,基于给定的输入信息来生成纠正后的ASR文本。
在这里插入图片描述

  • Table 6(表6):以Conformer - Transducer模型为例,研究N-best列表大小对ChatGPT纠错效果的影响。

    • 行指标解释:“Method”列表示不同的纠错方法,“ASR baseline”是未经过ChatGPT纠错的原始模型结果;“0-shot uncon”表示零样本无约束纠错,“0-shot select”表示零样本选择纠错。“Input”列表示输入ChatGPT的N-best列表的大小,如“1-best”就是只输入排名第一的假设,“3-best”输入排名前三的假设,以此类推。
    • 列指标解释:“LB”“TED”“Artie”分别代表不同的测试集,表格中的数值代表在相应测试集下,不同方法和输入大小对应的词错误率(WER),WER数值越低,说明识别结果越准确。

    从表中结果来看,对于“0-shot uncon”方法,当只输入“1-best”时,ChatGPT因为信息不足,会对输入做很多不必要的修改,使得WER较高;随着N-best列表大小增加,它能更好地比较假设之间的差异,从而进行纠错,WER有所降低。而对于“0-shot select”方法,N-best列表的大小对结果影响较小,因为ChatGPT主要是进行选择,而不是生成整个纠正后的假设。
    在这里插入图片描述

  • Fig. 3(图3):展示了使用1-shot closest mapping(1样本最近映射)方法时,选择N-best列表中与ChatGPT输出最相似的ASR假设后,ASR基线和纠错后的WER结果。

    • 横坐标解释:“Hyp 1”到“Hyp 5”表示从N-best列表中选择的假设序号,即选择与ChatGPT输出最相似的假设,分别是排名第1到第5的假设。
    • 纵坐标解释:“WER(%)”表示词错误率的百分比,数值越低代表识别效果越好。
    • 图例解释:蓝色柱子代表ASR Baseline(即原始ASR模型的结果)的WER;红色柱子代表1-shot closest(经过1样本最近映射纠错后)的WER。

    从图中可以看出,当选择Hyp 1时,纠错后的WER和ASR基线一样,没有变化;当选择Hyp 2时,纠错后性能提升最大;随着选择假设序号的增加,性能提升逐渐下降,到选择Hyp 5时,纠错后的WER和原始ASR基线相同。

5. CONCLUSIONS(结论)

这部分总结了论文的研究内容和主要发现。论文研究了利用强大的生成式大语言模型ChatGPT,在零样本和1样本设置下进行ASR纠错的情况。系统仅使用ASR的N-best列表信息,就能通过选择N-best中的一个假设、约束性纠错或无约束方式进行纠错。

研究发现,对于两种先进的ASR系统架构(Transducer和AED),提出的方法总体上比ASR基线有性能提升。在Transducer模型输出上,ChatGPT的表现与基于T5基础模型的定制ASR纠错系统相似或更好。但对于AED系统,由于AED的N-best列表存在固有问题,ChatGPT的表现不如T5 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26930.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python面向对象

目录 初识对象 类的成员方法 类和对象 构造方法 魔术方法 __str__ __lt__ __le__ __eq__ 封装 私有成员 继承 单继承 多继承 pass 复写 类型注解 1 变量的类型注解 方法1 使用: 方法2 注释 应用场景 2 函数(方法)的类型注解 3 混合类型注解 多态 初识对象 #设计…

C++的类型转换

C语言中的类型转换 在C语言中&#xff0c;如果赋值运算符左右两侧类型不同&#xff0c;或者形参与实参类型不匹配&#xff0c;或者返回值类型与 接收返回值类型不一致时&#xff0c;就需要发生类型转化&#xff0c;C语言中总共有两种形式的类型转换&#xff1a;隐式类型 转换和…

计算机网络-实验3拓扑结构

三、实验拓扑结构、实验步骤及结果分析 1. 实验拓扑结构 2. 实验步骤 3. 结果分析

[ISP] AE 自动曝光

相机通过不同曝光参数&#xff08;档位快门时间 x 感光度 x 光圈大小&#xff09;控制进光量来完成恰当的曝光。 自动曝光流程大概分为三部分&#xff1a; 1. 测光&#xff1a;点测光、中心测光、全局测光等&#xff1b;通过调整曝光档位使sensor曝光在合理的阈值内&#xff0…

聊一聊 IM 如何优化架构?

IM 系列 im doc 实时通讯文档仓库 聊一聊 IM 是什么&#xff1f; IM 即时通讯系统概览 聊一聊 IM 要如何设计&#xff1f; 聊一聊 IM 要如何设计功能模块&#xff1f; 聊一聊 IM 要如何进行架构设计&#xff1f; 聊一聊 IM 要如何进行技术选型&#xff1f; 聊一聊 IM 要…

开启mysql的binlog日志

mysql版本5.7 1.查看是否开启bin_log show global variables like’log_bin’; off的话需要先开启 在mysql的文件夹目录中找到my.ini 加一行log-bin“C:/ProgramData/MySQL/MySQL Server 5.7/logs/log-bin” 并提前创建好目录 2.数据库会把日志放进logs目录中 3.查看log日…

OpenHarmony4.1-轻量与小型系统ubuntu开发环境

因OpenHarmony官网提供包含轻量、小型与标准系统的全量代码非常宠大&#xff0c;解包后大概需要70G以上硬盘空间&#xff0c;如要编译标准系统则需要140G以上空间。 如硬盘空间有限与只使用轻量/小型OpenHarmony系统&#xff0c;则可以下载并直接使用本人裁剪源码过的ubuntu硬盘…

图论题目。

图论题目 检测环(dfsbfs)课程表 拓扑排序&#xff08;dfsbfs&#xff09;课程表2 二分图&#xff08;dfs,bfs&#xff09;判断二分图可能的二分法 Kruskal算法和Prim算法连接所有点的最小费用 Dijkstra算法概率最大的路径网络延时时间 检测环(dfsbfs) 课程表 题目 dfs: clas…

2025春新生培训数据结构(树,图)

教学目标&#xff1a; 1&#xff0c;清楚什么是树和图&#xff0c;了解基本概念&#xff0c;并且理解其应用场景 2&#xff0c;掌握一种建图&#xff08;树&#xff09;方法 3&#xff0c;掌握图的dfs和树的前中后序遍历 例题与习题 2025NENU新生培训&#xff08;树&#…

如何防止Python网络爬虫爬取网站内容

要防止Python网络爬虫爬取网站内容&#xff0c;可以从以下几个方面入手&#xff1a; 遵守Robots.txt文件&#xff1a;首先&#xff0c;网站管理员可以通过robots.txt文件明确告知爬虫哪些页面可以抓取&#xff0c;哪些不可以。爬虫在抓取之前应先检查该文件&#xff0c;尊重网站…

Java数据结构第十六期:走进二叉树的奇妙世界(五)

专栏&#xff1a;Java数据结构秘籍 个人主页&#xff1a;手握风云 目录 一、非递归实现遍历二叉树 1.1. 二叉树的前序遍历 1.2. 二叉树的中序遍历 1.3. 二叉树的后序遍历 一、非递归实现遍历二叉树 1.1. 二叉树的前序遍历 我们这里要使用栈来进行实现。我们反向思考一下为…

yolov8_pose模型,使用rknn在安卓RK3568上使用

最近在使用rknn的一些功能,看了看文档以及自己做的一些jni,使用上yolov8_pose的模型. 1.我们先下载一下rknn的模型功能代码,rk有自己做的一套demo 地址:GitHub - airockchip/rknn_model_zooContribute to airockchip/rknn_model_zoo development by creating an account on G…

大模型推理时的尺度扩展定律

大模型推理时的尺度扩展定律 FesianXu at 20250212 at Wechat Search Team 前言 大模型的尺度扩展定律告诉我们&#xff1a;『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律&#xff0c;测试也存在尺度扩展定律&#xff…

ubuntu防火墙iptables

文章目录 步骤开启自启防火墙iptables规则链Chains的区别 在 Ubuntu 上使用 iptables 配置防火墙并保证服务可用 步骤 #防火墙状态 systemctl status iptables systemctl start iptables #开启防火墙并且开启22端口 systemctl start iptables && iptables -A INPUT -p…

聊一聊 IM 如何优化监控

IM 系列 im doc 实时通讯文档仓库 聊一聊 IM 是什么&#xff1f; IM 即时通讯系统概览 聊一聊 IM 要如何设计&#xff1f; 聊一聊 IM 要如何设计功能模块&#xff1f; 聊一聊 IM 要如何进行架构设计&#xff1f; 聊一聊 IM 要如何进行技术选型&#xff1f; 聊一聊 IM 要…

[Windows] 批量为视频或者音频生成字幕 video subtitle master 1.5.2

Video Subtitle Master 1.5.2 介绍 Video Subtitle Master 1.5.2 是一款功能强大的客户端工具&#xff0c;能够批量为视频或音频生成字幕&#xff0c;还支持批量将字幕翻译成其他语言。该工具具有跨平台性&#xff0c;无论是 mac 系统还是 windows 系统都能使用。 参考原文&a…

探索紧急灾难处理的智慧:基于Neo4j的知识图谱问答系统

探索紧急灾难处理的智慧&#xff1a;基于Neo4j的知识图谱问答系统 在灾难突发的瞬间&#xff0c;时间就是生命&#xff01;我们为您带来了一款基于Neo4j的紧急灾难突发处理知识图谱问答系统&#xff0c;助您快速获取至关重要的信息&#xff0c;提升应急响应效率&#xff01; …

蓝桥杯(握手问题)

小蓝组织了一场算法交流会议&#xff0c;总共有 50 人参加了本次会议。在会议上&#xff0c;大家进行了握手交流。按照惯例他们每个人都要与除自己以外的其他所有人进行一次握手 (且仅有一次)。 但有 7个人&#xff0c;这 7 人彼此之间没有进行握手 (但这 7 人与除这 7 人以外…

DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略

DualPipe简介 今天是DeepSeek开源周的第四天&#xff0c;官方开源了一种新型并行计算优化策略——DualPipe。 其实大家阅读过Deepseek-V3技术报告的同学&#xff0c;对这个技术并不陌生。 开源地址&#xff1a;https://github.com/deepseek-ai/DualPipe 核心亮点 DualPipe&…

无人系统:未来科技的智能化代表

无人系统&#xff08;Unmanned Systems&#xff09;是指在不依赖人类直接干预的情况下&#xff0c;通过自主或远程控制方式完成任务的系统。随着科技的不断进步&#xff0c;特别是在人工智能、机器人学、传感技术、通信技术等领域的突破&#xff0c;无人系统在各行各业中得到了…