Attention在语音识别中的应用(1)

       从2014年Attention mode在机器翻译或起来以后,attention model逐渐在语音识别领域中应用,并大放异彩。因此本篇文章就对Attention进行总结和说明。

首先要确定的是Attention是一种权重向量或矩阵,其往往用在Encoder-Decoder架构中,其权重越大,表示的context对输出越重要。计算方式有很多亚种,但是核心都是通过神经网络学习而得到对应的权重。通常其权重aij和Decoder中的第i-1个隐藏状态,Encoder中的第j个隐藏状态相关[1]。

     接下来跟进一篇论文来具体了解Attention的用法和构成。第一篇文章是Jan Chorowski 的《Attention-Based Models for Speech Recognition 》[2].

Encoder端是一个BiRNN结构,第i步的输出Yi和hi和Attention的权重相关,具体架构如下图所示:



其输出Yi为:


其中,Generate为RNN的Decoder结构,Si-1表示Decoder中的第i-1个状态,gi表示glimpse,即Attention和隐藏层H相乘之后的结果,

glimpse为:


上式中,aij即为Attention的权重,hj为encoder中第j个隐藏状态。


si为Decoder中的因此状态,依赖si-1和gi和yi,如下所示:



    以上为Attention的用法,解析来看一下Attention中aij是如何进行得到的



aij是eij经过softmax的结果,eij计算如下(content-basedAttention ):


即Attention的权重aij是和Decoder中第i-1步骤的隐藏状态si-1相关,和Encoder中的第j步的隐藏状态hj相关;

eij还有第二种计算方式,就是把上一步骤中的ai-1加入到其中(location based Attention

 


aij还有其他的实现方式:

sharpen方式:其中β>1


Smooth方式:


以上就介绍完了Attention的用法,下面来对Attention在近期的语音识别和机器翻译中的使用做一个说明。

2016年3月份Dzmitry Bahdanau 在文献[3]中把Attention模型用在了LVCSR中,Bandana在上面的基础之上,进行了改进,

1)对Attention的计算范围进行了2w的加窗,加快训练和解码

2)RNN结构为GRU,对RNN加入了pool,减少长度和计算量

3)加入n-gram,支持WFST解码

其Attention相关的结构如下:下图中的ct等价于上面介绍的glimpse,即gi


最终错误率对比如下所示:


可以看到,其最好WER为9.3%,基本达到了苗亚杰2015年CTC+3-gram的水平。

然而Attention模型虽然好,但是还是有自身的问题[4][5],问题如下:

1)适合短语识别,对长句子识别比较差

2)noisy data的时候训练不稳定

因此比较好的方法是使得Attention与CTC进行结合,

Suyoun Kim等人在2016年9月的文章[5]就对Attention与CTC结合对语音声学模型建模,其结构如下所示:


其共用一个Encoder,Decoder分为2个,一个是CTC,一个是Attention,并通过权重λ来给定不同的权重比,

其损失函数如下:

在Encoder结构为4层BLSTM,每层320个节点,Decoder为单向LSTM,节点也为320个

λ为0.2,0.5,0.8的情况下,模型收敛情况如下所示:


对比蓝色的Attention模型还有红色的CTC模型,Attention+CTC模型更快的收敛了,这得益于初始阶段CTC的阶段对齐更准确,使得Attention模型训练收敛更快。

最终其CER如下所示:


λ在0.5或者0.8的情况下,字正确率超过了单纯的Attention模型和CTC模型。

2017年7月,Facebook提出的Attention在CNN的机器翻译领域达到了state-of-art水平[6],其结构如下图所示:


与上面讨论不同的是,该Attention是多层的,每层都有对应一个Attention。是一个multiple steps结构。

Google在2017年6月针对MNT提出了纯Attention模型[7],文中提出了self-attention结构和Multi-head Attention结构。如下图所示:


整体架构如下:


关于MNT的架构分析会在接下来的文章中进行讨论

Attention相关的更多文章可以看看NIPS workshop 2015相关的主题介绍 [8]








[1].https://zhuanlan.zhihu.com/p/28054589

[2] Attention-Based Models for Speech Recognition 

[3] END-TO-END ATTENTION-BASED LARGE VOCABULARY SPEECH RECOGNITION

[4] GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向

[5] JOINT CTC-ATTENTION BASED END-TO-END SPEECH RECOGNITIONUSING MULTI-TASK LEARNING 

[6]Convolutional Sequence to Sequence Learning

[7]Attention Is All You Need 

[8]Reasoning, Attention, Memory (RAM) NIPS Workshop 2015




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35723.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

说话人性别识别——语音检测初探

目录 一、任务背景和分析 二、特征抽取 librosa wave torchaudio 三、数据集 commonvoice [ 中文] 四、模型训练 1、频域信号LSTM2DCNN 2、频域信号2DCNN 3、时域信号1DCNN 一、任务背景和分析 公司有项目需求,需要识别语音信号是男女性别以及是否是彩铃…

chatgpt赋能python:Python短信群发:如何优化短信营销?

Python短信群发:如何优化短信营销? 短信营销是一种广泛用于促进业务和品牌认可度的营销策略。随着移动设备的普及以及人们越来越依赖手机,短信营销的有效性也在不断提高。在短信营销中,最大的优势之一是短信可以迅速传递到用户的…

chatgpt赋能python:Python就业前景分析

Python就业前景分析 1. Python简介 Python是一种简单易学、操作灵活、功能丰富的高级编程语言。它被广泛应用于人工智能、大数据分析、网络爬虫、自动化测试、Web开发、游戏开发等众多领域。Python的开发者们致力于让Python语言能够简单、易读、易学,适用于各种领…

由 ChatGPT 带来的对低代码产品的思考

在之前的文章中多次提到我们在开发一款低代码平台,主要面向 ToB 企业,帮助企业完善信息化建设,给企业的数字化转型贡献一份力量。 数字化转型的目标是降本增效,同样,效率对我们来说也至关重要,主要体现在&a…

内容安全策略 Content-Security-Policy

一、作用: 1、限制资源获取:限制网页当中一系列的资源获取的情况,从哪里获取,请求发到哪个地方 限制方式: default-src限制全局的和链接有关的作用范围 根据资源类型(connect-src、img-src等&#xff0…

记一下怎样关闭windows defender安全中心

Win10系统中自带Windows Defender杀毒软件,有些用户非常排斥,其一是扫描的频率太高,占用大量CPU。其二是有些文件不经过任何提示就直接删除。那么如何彻底关闭windows defender安全中心。 第一步:首先按winR,输入gped…

ICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:昕朋 David 【导读】AI顶会ICML征稿日在即,关于道德准则的新政策却引来网友不满&#x…

英文论文润色哪家好用比较好,有值得推荐的吗

英文论文润色 推荐 英文论文润色对于写作者来说是一项十分重要的任务,它可以帮助我们修改文章中的语法、标点和排版等问题,使论文更加准确和易读。在众多的英文润色软件中,147chatgpt改写润色软件是一款值得推荐的全自动批量图文润色、自动纠…

chatgpt赋能python:Python爬取电影简介

Python 爬取电影简介 随着互联网技术的逐步普及,越来越多的人已经建立了自己的个人网站或博客,而如何让自己的网站获得更好的 SEO 排名,吸引更多的流量就成了一个非常重要的问题。其中,内容的质量和数量是关键的,而提…

文案修改软件哪个好,AI模型有哪些?

文案修改软件哪个好?ChatGPT是一个聊天机器人,要想从产品形态上复现其实并不困难,过去的苹果Siri、微软小冰、各个平台的客服机器人都是类似形态。但ChatGPT与它们真正拉开差距,从“人工智障”到“人工智能”的关键一跃&#xff0…

目标检测算法——YOLOv5/YOLOv7改进|将IOU Loss替换为EIOU Loss

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f340;&#x1f340;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f340;&#x1f340; ✨✨>>>学习交流 | 温澜潮…

目标检测算法——助力涨点 | YOLOv5改进结合Alpha-IoU

深度学习Tricks&#xff0c;第一时间送达 论文题目&#xff1a;《Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression》 论文地址&#xff1a; https://arxiv.org/abs/2110.13675v2 1.论文简介&#xff1a; 文中&#xff0c;作者将…

chatgpt赋能python:Python控制NI板卡

Python控制NI板卡 NI&#xff08;National Instruments&#xff09;是全球领先的测试、测量、控制和自动化解决方案提供商。它的硬件平台、软件工具和应用专业知识与工程师社区结合&#xff0c;形成了一系列完整的产品系列&#xff0c;可帮助工程师快速上手、快速构建各种应用…

基于51单片机的室内湿度加湿温度声光报警智能自动控制装置设计

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;无广告&#xff0c;忍不住分享一下给大家。&#xff08;点击查看学习资料&#xff09; wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;单片机湿度 获取完整无…

LangChain:LLM应用程序开发(上)——Models、Prompt、Parsers、Memory、Chains

文章目录 一、Models、Prompt、Parsers1.1 环境配置&#xff08;导入openai&#xff09;1.2 辅助函数&#xff08;Chat API : OpenAI&#xff09;1.3 使用OpenAI API进行文本翻译1.4使用LangChain进行文本翻译1.5 使用LangChain解析LLM的JSON输出1.5.1 LangChain输出为string格…

全域电商服务手册(2023)

导读&#xff1a; 《手册》收录内容营销、数字化、代运营、短视频直播、用户运营、金融支付、物流仓储、合规发展、渠道&供应链等领域的优质合作伙伴&#xff0c;为品牌与商家解决全域电商布局过程中遇到的难题。 关注公众号&#xff1a;【互联互通社区】&#xff0c;回复【…

2022中国绿色资本市场绿皮书

导读&#xff1a; 绿色是建设银行新金融行动的生态底色&#xff0c;为充分发挥绿色领域专业优势、引领市场多元创新&#xff0c;建设银行与北京绿金院合作发布《中国绿色资本市场绿皮书》&#xff0c;总结绿色投融资市场实践经验、展望创新产品发展趋势&#xff0c;期待与广大市…

产业分析:2023年电商发展报告

导读&#xff1a; 3年疫情&#xff0c;电商行业风起云涌&#xff0c;直播电商、即时零售、社区团购等新兴电商业态在疫情期间强势崛起&#xff0c;各路玩家激烈角逐&#xff0c;平台更迭轮换速度史无前例&#xff0c;电商格局持续震荡&#xff1b;疫情后&#xff0c;行业形成多…

端到端大模型来袭,自动驾驶的最优解?

最近&#xff0c;人工智能领域最火的莫过于大模型了。 由美国初创企业OpenAI开发的聊天应用ChatGPT引爆市场&#xff0c;生成式AI成为科技市场热点&#xff0c;ChatGPT背后是深度学习大模型&#xff0c;其理解和生成文字的能力超过以往AI产品。全球主要云计算公司例如亚马逊等都…

2023年中国电竞行业研究报告

导读&#xff1a; 报告重点通过对电子竞技市场的电竞游戏产品、电竞赛事、电竞俱乐部、电竞营销、电竞用户等各个因素的分析&#xff0c;从政策及市场环境、市场动态等角度展开对电子竞技行业的洞察&#xff0c;切实反映中国电竞行业现状与未来发展趋势。希望能为相关企业与资本…