语音识别之语音特征提取一

语音识别的第一步就是语音特征提取,语音信号是在人体中肺、喉、声道等器官构成的语音产生系统中产生的,它是一个高度不平稳的信号,它的幅度谱和功率谱也随着时间不停的变化,但是在足够短的时间内,其频谱特征相当平稳,因此在进行语音分析时,我们多采用分帧的方式进行短时分析,查看多篇文章中,使用帧长为25ms,帧移为10ms的方式进行分帧,并且计算出每帧内的功率谱进行其他的操作。功率谱在一些特征提取技术中得到应用,比如MFCC、Fbank,查询多篇文章,了解了几种被广泛应用个的特征提取技术,他们的特性不同也就决定了他们有着不同的应用范围,因此,对下面这几款常用的方法都进行基本的理解。
1、短时能量
2、短时过零率
3、Fbank
4、MFCC
5、LPC
6、LPCC
7、LSF
8、DWT
9、PLP
10、CQT

上述方法中的短时能量和短时过零率已在之前的代码中简单实现过,因此暂不再深入探究,后续遇到实际问题时再行优化。对于Fbank和MFCC这两种方式,放到一起进行总结,因为MFCC=MFCC+DCT。
Fbank:Filter Bank,也就是指使用梅尔滤波器组。
MFCC:Mel-Frequency cepstral cofficients,梅尔频率倒谱系数。
DCT:Discrete Cosine Transform,离散余弦变换。
MFCC的实现过程如下:
在这里插入图片描述
观察整个实现过程,有几个名词是之前未遇到的:预加重,Mel滤波器、DCT。下面先作简单介绍,再进行整个过程的分析。
(1)预加重:语音信号从人体的语音产生系统中传输时,声道相当于滤波器,导致最后输出的语音频谱高频衰减很大,此时我们采用预加重的方式对高频部分进行补偿,使得全频段的频谱变得平坦,这一操作也能够突出高频共振峰,实现方法是通过一个高通滤波器,传输函数如下:在这里插入图片描述
其中,a为预加重系数,可取0.97.

(2)Mel:梅尔刻度,是一种非线性分布的刻度,1KHZ对应的mel坐标点之前线性分布,之后对数分布,因此随着频率增大,间距增大。这种刻度对应的频率为梅尔频率,这种刻度的存在的原因是它的这种非线性特性符合人耳的听觉特性。
梅尔频率与频率之间转换如下:
在这里插入图片描述
梅尔滤波器组的传输特性如下:(7个mel滤波器构成的滤波器组)
在这里插入图片描述
(3)DCT:离散余弦变化,DCT就是为了获得倒谱,倒谱的低频分量就是包络,高频分量就是细节,获得这1个倒谱系数后,也就是提取了声道特征,输入到机器就可以识别语音内容,这13个系数到底是什么意思,不需要深究。
倒谱分析是语音处理领域中常用的一种分析方法,因为它能够以有限的特征来完美表征语音波形和特征。

MFCC的信号处理流程可解释如下:
由声道输出的连续时域信号经过预加重后,调整高频部分,使整个频段平坦化。之后分帧后加窗,其中分帧也可以在预加重之前完成,窗函数我们选择汉明窗,因为相对于矩形窗,汉明窗降低了FFT后旁瓣大小以及频谱泄露。而后进行FFT将时域信号转换到频域进行后续的频率分析,多采用功率谱。FFT后的功率谱与滤波器相乘后为每帧能量,到此时Fbank特征提取的方法完成。若继续面的取log和DCT步骤,提取出13个倒谱系数,则完成MFCC的特征提取。能量值取log就是将频域卷积转变为线性相加,也就是进行包络(低频信息)和细节(高频信息)的分离,为后续进行倒谱分析做准备。通过DCT进行解卷积得到一系列倒谱系数,但是此时得到的是语音的静态特性,最后使用差分谱来描述语音的动态特性。

主要的代码实现:后续再添加。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35725.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语音识别发展综述

语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章…

Attention在语音识别中的应用(1)

从2014年Attention mode在机器翻译或起来以后,attention model逐渐在语音识别领域中应用,并大放异彩。因此本篇文章就对Attention进行总结和说明。 首先要确定的是Attention是一种权重向量或矩阵,其往往用在Encoder-Decoder架构中&#xff0…

说话人性别识别——语音检测初探

目录 一、任务背景和分析 二、特征抽取 librosa wave torchaudio 三、数据集 commonvoice [ 中文] 四、模型训练 1、频域信号LSTM2DCNN 2、频域信号2DCNN 3、时域信号1DCNN 一、任务背景和分析 公司有项目需求,需要识别语音信号是男女性别以及是否是彩铃…

chatgpt赋能python:Python短信群发:如何优化短信营销?

Python短信群发:如何优化短信营销? 短信营销是一种广泛用于促进业务和品牌认可度的营销策略。随着移动设备的普及以及人们越来越依赖手机,短信营销的有效性也在不断提高。在短信营销中,最大的优势之一是短信可以迅速传递到用户的…

chatgpt赋能python:Python就业前景分析

Python就业前景分析 1. Python简介 Python是一种简单易学、操作灵活、功能丰富的高级编程语言。它被广泛应用于人工智能、大数据分析、网络爬虫、自动化测试、Web开发、游戏开发等众多领域。Python的开发者们致力于让Python语言能够简单、易读、易学,适用于各种领…

由 ChatGPT 带来的对低代码产品的思考

在之前的文章中多次提到我们在开发一款低代码平台,主要面向 ToB 企业,帮助企业完善信息化建设,给企业的数字化转型贡献一份力量。 数字化转型的目标是降本增效,同样,效率对我们来说也至关重要,主要体现在&a…

内容安全策略 Content-Security-Policy

一、作用: 1、限制资源获取:限制网页当中一系列的资源获取的情况,从哪里获取,请求发到哪个地方 限制方式: default-src限制全局的和链接有关的作用范围 根据资源类型(connect-src、img-src等&#xff0…

记一下怎样关闭windows defender安全中心

Win10系统中自带Windows Defender杀毒软件,有些用户非常排斥,其一是扫描的频率太高,占用大量CPU。其二是有些文件不经过任何提示就直接删除。那么如何彻底关闭windows defender安全中心。 第一步:首先按winR,输入gped…

ICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:昕朋 David 【导读】AI顶会ICML征稿日在即,关于道德准则的新政策却引来网友不满&#x…

英文论文润色哪家好用比较好,有值得推荐的吗

英文论文润色 推荐 英文论文润色对于写作者来说是一项十分重要的任务,它可以帮助我们修改文章中的语法、标点和排版等问题,使论文更加准确和易读。在众多的英文润色软件中,147chatgpt改写润色软件是一款值得推荐的全自动批量图文润色、自动纠…

chatgpt赋能python:Python爬取电影简介

Python 爬取电影简介 随着互联网技术的逐步普及,越来越多的人已经建立了自己的个人网站或博客,而如何让自己的网站获得更好的 SEO 排名,吸引更多的流量就成了一个非常重要的问题。其中,内容的质量和数量是关键的,而提…

文案修改软件哪个好,AI模型有哪些?

文案修改软件哪个好?ChatGPT是一个聊天机器人,要想从产品形态上复现其实并不困难,过去的苹果Siri、微软小冰、各个平台的客服机器人都是类似形态。但ChatGPT与它们真正拉开差距,从“人工智障”到“人工智能”的关键一跃&#xff0…

目标检测算法——YOLOv5/YOLOv7改进|将IOU Loss替换为EIOU Loss

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f340;&#x1f340;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f340;&#x1f340; ✨✨>>>学习交流 | 温澜潮…

目标检测算法——助力涨点 | YOLOv5改进结合Alpha-IoU

深度学习Tricks&#xff0c;第一时间送达 论文题目&#xff1a;《Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression》 论文地址&#xff1a; https://arxiv.org/abs/2110.13675v2 1.论文简介&#xff1a; 文中&#xff0c;作者将…

chatgpt赋能python:Python控制NI板卡

Python控制NI板卡 NI&#xff08;National Instruments&#xff09;是全球领先的测试、测量、控制和自动化解决方案提供商。它的硬件平台、软件工具和应用专业知识与工程师社区结合&#xff0c;形成了一系列完整的产品系列&#xff0c;可帮助工程师快速上手、快速构建各种应用…

基于51单片机的室内湿度加湿温度声光报警智能自动控制装置设计

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;无广告&#xff0c;忍不住分享一下给大家。&#xff08;点击查看学习资料&#xff09; wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;单片机湿度 获取完整无…

LangChain:LLM应用程序开发(上)——Models、Prompt、Parsers、Memory、Chains

文章目录 一、Models、Prompt、Parsers1.1 环境配置&#xff08;导入openai&#xff09;1.2 辅助函数&#xff08;Chat API : OpenAI&#xff09;1.3 使用OpenAI API进行文本翻译1.4使用LangChain进行文本翻译1.5 使用LangChain解析LLM的JSON输出1.5.1 LangChain输出为string格…

全域电商服务手册(2023)

导读&#xff1a; 《手册》收录内容营销、数字化、代运营、短视频直播、用户运营、金融支付、物流仓储、合规发展、渠道&供应链等领域的优质合作伙伴&#xff0c;为品牌与商家解决全域电商布局过程中遇到的难题。 关注公众号&#xff1a;【互联互通社区】&#xff0c;回复【…

2022中国绿色资本市场绿皮书

导读&#xff1a; 绿色是建设银行新金融行动的生态底色&#xff0c;为充分发挥绿色领域专业优势、引领市场多元创新&#xff0c;建设银行与北京绿金院合作发布《中国绿色资本市场绿皮书》&#xff0c;总结绿色投融资市场实践经验、展望创新产品发展趋势&#xff0c;期待与广大市…

产业分析:2023年电商发展报告

导读&#xff1a; 3年疫情&#xff0c;电商行业风起云涌&#xff0c;直播电商、即时零售、社区团购等新兴电商业态在疫情期间强势崛起&#xff0c;各路玩家激烈角逐&#xff0c;平台更迭轮换速度史无前例&#xff0c;电商格局持续震荡&#xff1b;疫情后&#xff0c;行业形成多…