语音识别-TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。


普通神经网络识别音素

在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅音"B", "D", "G",那么我们可以设计这样的神经网络:


图1

其中输入0-12代表每一帧的特征向量(如13维MFCC特征)。那么有人可能会问了,即使在同一个因素"B"中,比如"B"包含20帧,那么第1帧与第15帧的MFCC特征也可能不一样。这个模型合理吗?事实上,"B"包含的20帧MFCC特征虽然有可能不一样,但变化不会太大,对于因素还是有一定区分度的,也就是说这个模型凑合凑合还能用,但效果不会非常好。GMM模型可以用这种模型来解释。


时延神经网络(TDNN)

考虑到上述模型只用了一帧特征,那么如果我们考虑更多帧,那么效果会不会好呢?

好,那么我们设计一个包含多帧的神经网络,如图2我们考虑延时为2,则连续的3帧都会被考虑。其中隐含层起到特征抽取的作用,输入层每一个矩形内共有13个小黑点,代表该帧的13维MFCC特征。假设有10个隐含层,那么连接的权重数目为3*13*10=390。


图2

为了结构紧凑显示,我们将其重绘为图3


图3

图3与图2是等价的。其中每条彩色线代表13*10=130个权重值。三条彩色线为390个权重。也有资料称之为滤波器。

好,如果时间滚滚向前,我们不断地对语音帧使用滤波器,我们可以得到图4


图4


这就是延时神经网络的精髓了!其中绿色的线权值相同,红色的线权值相同,蓝色的线权值相同。相当于把滤波器延时。输入与隐层共390个权值变量待确定。

每个隐层矩形内包含10个节点,那么每条棕色的线包含10个权值,假设输出层与隐层的延时为4,则接收5个隐层矩形内的数据,那么隐层与输出层合计权值为10*5*3=150。权值非常少!所以便于训练。


下面就不难理解文献【1】上的图了。思想与上文一样,不过文章多用了一层隐层(多隐层有更强的特征提取和抽象能力)


图5

介绍一下他的做法。Input Layer为语谱图,黑块为大值,灰块为小值。输入层纵向为经过mel滤波器的16个特征(没用MFCC),横向为帧。Input Layer 的延时为2,映射到Hidden Layer 1的关系为16*3 -> 8,权值个数为384。Hidden Layer 1 的延时为4,映射到Hidden Layer 2的关系为8*5 -> 3,权值个数为120。Hidden Layer 2 的延时为8,映射到输出层的关系为3*9 -> 3,权值个数为81。合计权值为384+120+81=585。输出的三个单元分别代表"B", "D", "G"的得分。


训练方法

(1)和传统的反向传播算法一样。

(2)TDNN有快速算法,有兴趣的读者可以搜索。


小结

总结TDNN的优点有以下:

(1)网络是多层的,每层对特征有较强的抽象能力。

(2)有能力表达语音特征在时间上的关系。

(3)具有时间不变性。

(4)学习过程中不要求对所学的标记进行精确的时间定为。

(5)通过共享权值,方便学习。


参考资料

【1】Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[J] (TDNN的原始论文,想了解的同学请细看)

 【2】赵力 《语音信号处理》 chap 6.3. 6 (也是对上文的一些解释和补充说明)

 【3】https://blog.csdn.net/richard2357/article/details/16896837

接下来读者可以看卷积神经网络了(CNN),相信对CNN的理解会有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30094.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语音识别技术对比分析

文章目录 一、语音识别产品对比二、百度语音识别产品1、套餐及价格:2、官网3、调研结果 三、华为语音识别产品四、阿里云语音识别产品1、套餐及价格:2、官网地址3、调研结果 五、腾讯云语音识别产品1、套餐及价格2、官网3、调研结果 六、科大讯飞语音识别…

语音识别SpeechRecognition

语音识别 1. 声音的本质是震动,震动的本质是位移关于时间的函数 Signal: s f(t) 波形文件(.wav)中记录了不同采样时刻的位移 2. 通过傅里叶变换 可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建…

各种情人节,程序员教你5个表白代码,牢牢主抓她的心

刚过完年就来到了一个相当重要的节日:情人节。一个有人欢喜有人愁的节日,虽然对一些单身人士不太友好,但还有不少人都在等这个节日进行表白。毕竟这个日子的成功率会高一些。 情人节少不了送花送礼物,作为一个程序员,…

技术创业者必读:从验证想法到技术产品商业化的全方位解析

导语 | 技术创业之路往往充满着挑战和不确定性,对于初入创业领域的人来说,如何验证自己的创业想法是否有空间、如何选择靠谱的投资人、如何将技术产品商业化等问题都需要认真思考和解决。在「TVP 技术夜未眠」第六期直播中,正马软件 CTO、腾讯…

麦肯锡给CEO的元宇宙指南

ChatGPT突然大张旗鼓地登上全球新闻的头条时,元宇宙似乎如明日黄花般过气了,未来渺茫起来。而麦肯锡的4位合伙人在今年1月给全球CEO们的“元宇宙指南”中强调,“太大元宇宙 ,不容忽视”。《元宇宙日爆》编译了这份指南供企业管理者…

AI大模型只能沦为“锦上添花”吗?

出品 | 虎嗅科技组作者 | 齐健编辑 | 廖影头图 | 虎嗅 “每个人咨询的第一个问题都是:你们在大模型方面做了什么?” 7月8日,2023世界人工智能大会(下称WAIC),一位参展商告诉笔者他的感受。——“大模型”&a…

chatgpt赋能python:Python在Win7上的安装教程

Python在Win7上的安装教程 如果你是一名Win7用户,并且打算开始学习或者使用Python编程语言,那么本文将会为你提供一个简单易懂的Python安装教程。 1. 下载Python 在安装Python之前,你需要先去Python的官方网站(https://www.pyt…

chatgpt赋能python:Python安装两个版本详细教程

Python安装两个版本详细教程 Python是一种广泛使用的编程语言,由于不同版本之间的差异,部分开发者需要同时安装两个不同版本的Python。本篇文章将为大家详细介绍Python安装两个版本的方法。 为何需要安装两个不同版本的Python Python的发行版&#xf…

chatgpt赋能python:使用Python编写的程序如何运行

使用Python编写的程序如何运行 Python是一种高级编程语言,适用于多种应用,例如Web开发,数据分析和人工智能。很多人都知道Python是一种很强大的语言,但是他们可能不知道如何运行Python程序。在这篇文章中,我们将介绍P…

chatgpt赋能python:Python程序运行方法介绍

Python 程序运行方法介绍 在 Python 编程中,了解如何运行程序是非常重要的。本篇文章将介绍 Python 中如何运行程序,以及不同的运行方法及其优缺点。作为一名有10年 Python 编程经验的工程师,我相信这篇文章将对 Python 新手和有经验的开发者…

chatgpt赋能python:Python怎么post请求

Python怎么post请求 Python作为一种高级编程语言,拥有丰富的库和模块来处理各种编程任务。其中,处理网络请求和数据交互是Python非常擅长的领域之一。在Python中,我们可以使用标准库或第三方库的HTTP模块来实现HTTP协议的请求和响应。 本篇…

chatgpt赋能python:Python导入包的完整指南

Python导入包的完整指南 如果你是一个Python程序员,你一定知道模块和包在Python中的重要性。Python中有很多内置的模块和包,但是有时候这些内置模块和包不能满足我们的需求,这时就需要导入外部的模块和包。本文将介绍Python中如何导入包和模…

chatgpt赋能python:Python:如何直接运行?

Python:如何直接运行? 如果你想学习编程,或者已经是一名资深工程师,你一定听说过Python这门编程语言。Python是一门易于学习和理解的语言,被广泛应用于很多领域,例如科学计算、数据分析、Web开发和人工智能…

chatgpt赋能python:Python如何直接运行?一篇详细指南

Python如何直接运行?一篇详细指南 Python是一种高级编程语言,可作为通用编程语言进行使用。它被广泛应用于数据科学,Web开发,人工智能等领域。Python最大的优势之一就是其容易学习和使用。本文的主旨是向大家介绍如何直接运行Pyt…

全国海关分区图(含副厅)

全国海关分区图(含副厅)

美国FBA海运详解:美国FBA海运费用价格有哪些

做亚马逊的人都知道亚马逊FBA虽然利润很高,但成本并不低。除了物流运输成本外,还有一些附加费。根据美国对中国征收关税的产品,将有一定的附加费。大部分产品是不用的,这有一些在列的产品才需要加收FBA空运和FBA海运的产品收附加费…

海关查验会查些什么呢?

海关查柜是会产生一些额外费用的,但这些费用不是海关收取的,而是码头收取的吊柜费、拆柜费等费用,因为是海关查验才有此费用,所以码头一般把这些费用称之为海关查验费,码头会开具正规发票的。 这些查柜费是由SHIPPER来…

海关数据|俄罗斯与中国之间的贸易数据

2022年2月24日至今俄乌战争开始的影响,世界粮食、能源等大宗商品的价格已经出现了明显的波动,进一步加剧了全球通胀的态势。那么俄罗斯与中国之间的贸易又发生了那些变化呢?我们通过贸易动力海关数据系统可以直观的看到2021年01-04月份和2022…

中美加征关税HS码清单列表

中美加征关税HS码清单列表 海关编码即HS编码,为编码协调制度的简称。其全称为《商品名称及编码协调制度的国际公约》(International Convention for Harmonized Commodity Description and Coding System)简称协调制度(Harmonize…

美国fba海运清关基本流程

美国fba海运清关是美国物流运输的重要组成部分,准备好清关材料和正确流程是确保货物安全快速进口到美国的关键。虽然很多客户会选择双清包税的方式,但是当跨境电商越来越大的时候,双清包税的成本也会相应增加。选择自税不包清关,按…