微信公众号上线,搜索公众号小灰灰的FPGA,关注可获取相关源码,定期更新有关FPGA的项目以及开源项目源码,包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等
1、语音压缩编码
语音压缩编码可以分为三类:波形编码、参量编码和混合编码,均属于有损压缩编码
对波形编码的要求是保持语音不变,或使波形失真尽量小
对参量编码和混合编码的性能要求是保证语音的可懂度和清晰度尽量高
2、语音参量编码
语音参量编码是将语音的主要参量提取处理编码
参量编码的原理是首先分析语音的短时频谱特性,提取出语音的频谱参量,然后再用这些参量合成语音波形。这种压缩编码方法是一种合成/分析编码方法
(1)发音器官和发音原理
发音器官包括次声门系统、声门和声道。次声门系统包括肺、支气管、气管,是产生语音的能量来源。声门即喉部两侧的声带及声带间的区域。声道包括咽腔、鼻腔、口腔及其附属器官。
从次声门送来的气流,在经过声门时,若声带振动,则产生浊音;反之,则产生清音。浊音具有周期性,周期取决于声带的振动。深度振动的频谱中包含一些列频率,其中最低的频率成分为基音,基音频率决定了声音的音调;其他频率为基音的谐波,与声音的音色有关。发清音时,声带不振动。清音仅是次声门产生的准平稳气流声,它的波形很像随机起伏的噪声。
(2)语音产生模型
在语音产生模型中,当发浊音是,用周期性脉冲表示声带振动产生的声波。当发清音时,用随机噪声表示经过声门发送的准平稳气流。从声门送出的声波U(z)用G加权,G表示声音强度,然后送入一个时变线性滤波器,最后产生语音输入M(z)。
在短时间间隔内(20ms),语音产生模型中的所有参量都是恒定的,即浊音或清音(U/V)判决、浊音的基音周期(Tp)、声门输出的强度(U(z))、音量(G)以及声道参量(滤波器传输函数H(z))等5个参量都是不变的
在发送端,在每隔一段时间间隔(20ms)内,从语音中提取出5个参量加以编码,然后传输;在接收端,对接收信号解码后,用5个参量就可以恢复出原语音信号。
按照上述原理对语音信号编码,利用语音产生模型慢变化的特性,使编码速率大大降低,可达到2.4kb/s,这种参量编码器称为声码器
3、混合编码
影响声音质量的主要原因是送入时变线性滤波器的激励过于简单化,简单地将语音分为浊、清两类,忽略了浊音与清音直接的过渡音,以及浊音时在20ms内的激励脉冲波形和周期不变,清音时的随机噪声也不变
合成/分析法改进的途径主要是改进线性滤波器的激励
混合编码除了采用时变线性滤波器作为其核心外,还在激励源中加入了语音波形的某种信息,从而改进其合成语音的质量。由于既采用了语音参量又包括了部分语音波形信息,称为混合编码