ASR（自动语音识别）任务中的LLM（大语言模型）

ASR（自动语音识别）任务中的LLM（大语言模型）

news/2024/12/23 17:48:16/文章来源:https://blog.csdn.net/qq_38901850/article/details/132366408

一、LLM大语言模型的特点

二、大语言模型在ASR任务中的应用

浅度融合

浅层融合指的是LLM本身并没有和音频信息进行直接计算。其仅对ASR模型输出的文本结果进行重打分或者质量评估。

深度融合

LLM与ASR模型进行深度结合，统一语音和文本的编码空间或者直接利用ASR编码器的隐状态参与计算，利用大语言模型的能力得到更好的解码结果。

三、浅度融合

1、Large-scale Language Model Rescoring on Long-Form Data

利用能力更加强大的LLM为ASR模型的推理结果进行质量评分

2、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

利用能力更加强大的LLM为语言模型的输出进行重打分

四、深度融合

1、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

使用语音编码器编码和提示文本的信息输入到大语言模型中预测下一个token

编码器：使用HuBERT处理语音序列，并使用卷积网络对其进行下采样；

解码器：使用LLaMA作为解码器并融入Gated-XATT-FFN；

Cross-attention：使用编码器的输出作为key、value，解码器的domain prompt和历史输出作为query计算注意力，注意力使用Gated cross attention。

在训练时，保持LLaMA的参数固定，其他模块参数更新。

2、Adapting LLM with Speech for Full Formatted End-to-End Speech Recognition

使用语音编码器编码的信息输入到大语言模型中预测下一个token

Text Encoder：用于在训练阶段提供更多的文本数据使解码器可以更好地被训练，在推理阶段不再被使用；

Speech Encoder：用于编码语音并使用CTC进行解码获得对应的token；

Text Decoder：在训练时对Text Encoder计算MLM损失，对Speech Encoder计算CE损失，用来预测下一个token。在推理时对Speech Encoder的输出进行修正。

Speech Encoder：用于编码语音信息；

LM：对Speech Encoder下采样之后的输出进行下一个token预测。

3、Prompting Large Language Models with Speech Recognition Abilities

使用语音编码器编码的信息输入到大语言模型中预测下一个token

Encoder：基于Conformer的声学编码器，最后使用n个帧进行堆叠投影，得到和LLaMA相同的维度；

Decoder：基于LLaMA 7B的解码器结构；

在训练时，LLaMA使用了基于LoRA的微调方法。

4、On Decoder-Only Architecture For Speech-to-Text and Large Language Model Integration

使用语音编码器编码和提示文本的信息输入到大语言模型中预测下一个token

LLM：LLaMA 7B

CTC Compressor：通过过滤语音空白匹配标签序列文本的长度；

Audio Encoder：对CTC过滤后的语音信号进行编码；

Text Prompt：手工设计的提示词，为了达到instruct tuning的效果，本文在训练时设计了多种提示词；

为了稳定训练，在训练时第一阶段训练CTC Compressor，对LLM进行冻结；第二阶段使用LoRA对LLM进行微调。

5、Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Speech2Text adapter：由一些自注意力子层组成，主要作用是将CTC过滤后的张量转换为可由LLM模型处理的张量。在训练期间，其他部分保持不动，仅训练此部分从而得到一个speech2text性能较好的适配器。

Speech2Entity retriever：根据过滤后的语音表征从数据库中查找与该段语音相关的topk个实体。

T5 Encoder输入：由三部分组成，分别是提示文本表征，输入语音表征以及检索到的topk实体文本表征。Topk实体会被添加到到提示文本输入前，从而提高T5模型语音识别实体的准确率。

五、深度学习方法对比

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/100971.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

STP知识总结

STP知识总结

目录生成树协议导致问题生成树存在算法 1、802.1D 接口状态收敛时间结构变化 802.1D 缺点 2、PVST cisco私有 3、PVST 缺点 4、快速生成树快速原理边缘接口 5、MSTP/MST/802.1S 生成树协议生成树协议是一种工作在OSI网络模型中第二层(数据链路层…

阅读更多...

MsrayPlus多功能搜索引擎采集软件

MsrayPlus多功能搜索引擎采集软件

MsrayPlus多功能搜索引擎采集软件摘要： 本文介绍了一款多功能搜索引擎软件-MsrayPlus，该软件能够根据关键词从搜索引擎中检索相关数据，并提供搜索引擎任务、爬虫引擎任务和联系信息采集三大功能。我们将分析该软件在不同领域的应用&#xf…

阅读更多...

基于Java+SpringBoot+Vue的乌鲁木齐南山冰雪旅游服务网站【源码+论文+演示视频+包运行成功】

基于Java+SpringBoot+Vue的乌鲁木齐南山冰雪旅游服务网站【源码+论文+演示视频+包运行成功】

博主介绍：✌csdn特邀作者、博客专家、java领域优质创作者、博客之星，擅长Java、微信小程序、Python、Android等技术，专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推…

阅读更多...

Redis进阶底层原理- Redis结构图与底层数据编码结构

Redis进阶底层原理- Redis结构图与底层数据编码结构

Redis底层原理篇，让学习绚丽多彩起来！！！（需要原图私信）

阅读更多...

智能仓储管理系统（自动化仓库管理解决方案）

智能仓储管理系统（自动化仓库管理解决方案）

企业实际的仓储管理中，往往会出现那样这样的错误，归根结底，主要是由于没使用合适的仓库管理工具。相反，人工使用合适的仓库管理工具，不仅可以在日常仓库管理方法中根据采集到的产品信息数据，大大地提高管理…

阅读更多...

什么是CSS中的BFC？

什么是CSS中的BFC？

①什么是BFC BFC 全称：Block Formatting Context， 名为 “块级格式化上下文”。 W3C官方解释为：BFC它决定了元素如何对其内容进行定位，以及与其它元素的关系和相互作用，当涉及到可视化布局时，Block Forma…

阅读更多...

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

在上一篇文章：《在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）》中，我们介绍了如何使用 hive-testbench 在Hive/Spark上执行TPC-DS基准测试，同时也指出了该项目不支持parquet格式。如果我们想要生成parquet格式的测试数据，就需要使用其他工具了。本文选择使用另…

阅读更多...

Lnton羚通算法算力云平台【PyTorch】教程：torch.nn.Softsign

Lnton羚通算法算力云平台【PyTorch】教程：torch.nn.Softsign

torch.nn.Softsign 原型 CLASS torch.nn.Softsign() 图代码 import torch import torch.nn as nnm nn.Softsign() input torch.randn(4) output m(input)print("input: ", input) print("output: ", output)# input: tensor([ 0.0046, -0.4135, -2…

阅读更多...

$离散Fourier变换的一种理解方法$

离散Fourier变换的一种理解方法

1. 离散Fourier变换的定义一个信号 x 的离散Fourier变换(Discrete Fourier Transform，简记为DFT)定义为 ， 其逆(inverse) Fourier变换(简记为 IDFT)定义为。 (译注：符号“≜”表示“根据定义，左边等于右边”。) 其中&#x…

阅读更多...

html | 基于iframe的简易富文本编辑器

html | 基于iframe的简易富文本编辑器

效果图支持: 选中后 ctrlI 斜体代码思路就是在iframe种嵌套html和css。 <pre> - 支持: 选中后 ctrlI 斜体 - todo: 鼠标实现单击斜体 </pre> <iframe name"richedit" style"height:30%; width:100%;"></iframe><script…

阅读更多...

操作符详解（2）

操作符详解（2）

9.条件操作符由问号和冒号组成，有三个表达式，有三个操作符，所以条件操作符是唯一的一个三目操作符，exp1为真，exp2则计算，exp3不算，整个表达式的结果就是exp2的结果。exp1为假，exp2…

阅读更多...

LVS负载均衡DR（直接路由）模式

LVS负载均衡DR（直接路由）模式

在LVS（Linux Virtual Server）负载均衡中的DR（Direct Routing）模式下，数据包的流向如下： 客户端发送请求到负载均衡器（LVS）的虚拟IP（VIP）。负载均衡器&#x…

阅读更多...

【网络】数据链路层——MAC帧协议 | ARP协议

【网络】数据链路层——MAC帧协议 | ARP协议

🐱作者：一只大喵咪1201 🐱专栏：《网络》 🔥格言：你只管努力，剩下的交给时间！ 来到数据链路层后，完整的数据被叫做数据帧，习惯上称之为MAC帧。 MAC帧协议 | A…

阅读更多...

C++STL之string类

C++STL之string类

食用指南：本文在有C基础的情况下食用更佳 🍀本文前置知识：C基础 ♈️今日夜电波：喜劇—星野源 1:06 ━━━━━━️💟──────── 3:51 …

阅读更多...

2023/8/21 - Fear of failure is more terrifying than failure itself

2023/8/21 - Fear of failure is more terrifying than failure itself

阅读更多...

AI 绘画Stable Diffusion 研究（十三）SD数字人制作工具SadTlaker使用教程

AI 绘画Stable Diffusion 研究（十三）SD数字人制作工具SadTlaker使用教程

免责声明: 本案例所用安装包免费提供，无任何盈利目的。大家好，我是风雨无阻。想必大家经常看到，无论是在产品营销还是品牌推广时，很多人经常以数字人的方式来为自己创造财富。而市面上的数字人收费都比较昂贵，少则几…

阅读更多...

三自由度PUMA机器人非线性控制研究（Matlab代码、Simulink仿真实现）

三自由度PUMA机器人非线性控制研究（Matlab代码、Simulink仿真实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

pandas数据分析40——读取 excel 合并单元格的表头

pandas数据分析40——读取 excel 合并单元格的表头

案例背景真的很容易疯....上班的单位的表格都是不同的人做的，所以就会出现各种合并单元格的情况，要知道我们用pandas读取数据最怕合并单元格了，因为没规律...可能前几列没合并，后面几列又合并了....而且pandas对于索引很严格&am…

阅读更多...

飞机打方块（四）游戏结束

飞机打方块（四）游戏结束

一、游戏结束显示 1.新建节点 1.新建gameover节点 2.绑定canvas 3.新建gameover容器 4.新建文本节点 2.游戏结束逻辑 Barrier.ts update(dt: number) {//将自身生命值取整let num Math.floor(this.num);//在Label上显示this.num_lb.string num.toString();//获取GameCo…

阅读更多...

Flink学习笔记（一）

Flink学习笔记（一）

流处理批处理应用于有界数据流的处理，流处理则应用于无界数据流的处理。有界数据流：输入数据有明确的开始和结束。无界数据流：输入数据没有明确的开始和结束，或者说数据是无限的，数据通常会随着时间变化而更新。在…

阅读更多...

最新文章

推荐文章