【音视频】音频基础

一、音频基础

1.1 声音的物理性质 ——振动

声音是一种由物体振动引发的物理现象，如小提琴的弦声等。物体的振动使其四周空气的压强产生变化，这种忽强忽弱变化以波的形式向四周传播，当被人耳所接收时，我们就听见了声音。

在这里插入图片描述

1.2 声音的物理性质 ——波形

声音是由物体振动产生的，这种振动引起了周围空气压强的振荡，我们称这种振荡的函数表现形式为波形。

在这里插入图片描述

1.3 声音的物理性质 ——频率

声音的频率是周期的倒数，它表示的是声音在1秒钟内的周期数，单位是赫兹（Hz）。前赫兹（kHz）即1000Hz，表示每秒振动1000次。声音按照频率可以作如下划分：

次声： 0~20Hz
人耳能听见的声音：20Hz~20kHz
超时 20kHz - 1GHz
特超声 1GHz~10THz

1.4 声音的物理特性 ——振幅

声音有振幅，振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值（也称平衡态的最大偏移量）。
在这里插入图片描述

2.数字音频

计算机并不直接使用连续平滑的波形来表示声音，它是每隔固定的时间对波形的幅值进行采样，用得到的一系列数字量来表示声音。下图是采样后的数音频的波形

在这里插入图片描述

PCM脉冲编码调制：PCM（Pulse Code Modulation）脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。

为了将模拟信号数字化，主要分为三个步骤：采样、量化、编码。

2.2 数字音频 ——采样频率

根据Nyguist采用定律，要从采样中完全恢复初始信号波形，采样率必须至少是信号中最高频率的两倍。

前面提到人耳能听到的频率范围是[20Hz - 20kHz]，因此，采样频率一般是44.1kHz，这样就能保证声音到达20kHz也能被数字化，从而使得数字化处理之后，人耳能听到的声音质量也不会被降低。

采样频率：每秒采样的点的个数，常用的采用频率有：22kHz、44.1kHz、48kHz、96kHz、192kHz等等

2.2 数字音频 ——采样量化

采样实在离散的时间点上进行的，而采样值本身在计算机也是离散的。
采样值的精度取决于它用多少位来表示，这就是量化。例如8为量化可以表示256个不同的值，而CD质量的16为量化可以表示65536个值，范围是[-32768,32767]。

下图是一个3位量化的示意图，可以看出3位量化只能表示8个值，还原后的声音非常差。

在这里插入图片描述

2.3 音频常见名词

采样频率：每秒采样的点的个数，常用的采用频率有：22kHz、44.1kHz、48kHz、96kHz、192kHz等等
采样精度（采样深度）：每个样本点的大小，常用的大小为8bit、16bit、24bit
通道数：单声道、双声道、四声道、5.1声道
比特率：每秒传输的bit数，单位是bps（bit per second），是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 * 采样精度（深度）*通道数。
码率：压缩后的音频数据的比特率。常见的码率有：96kbps、128-160kbps，192kbps，256-320kbps。码率越大，压缩效率越低，音质越好，压缩后的数据越大。码率 = 音频文件大小 / 时长

比如，采样频率44100，采样精度16bit、2通道（声道），采集4分钟的数据为：44100 * 16 * 2 *4*60 = 338688000bit = 40M
字节。比特率：采样频率*采样精度*通道数 = 44100 * 16 * 2 = 1411200bit/s

帧：每次编码的采样单元数，比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1-24采样点作为一个编码单元
帧长：可以指每帧播放持续的时间：每帧持续时间（秒） = 每帧采样点数/采样频率（HZ）。比如，MP3 48k，1152个采样点，每帧则为24毫秒；也可以指压缩后每帧的数据长度，因此需要根据场景来确定所表示的含义。
交错模式：数字信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录…
非交错模式：首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道的也样本。

2.4 音频编码原理简介

数字音频信号如果不加压缩地直接传输，将会占用极大的带宽。例如，一套双声道数字音频若取采样率为44.1kHz，每样值按照16bit进行量化，那么码率为：244.1kHz16bit = 1.411Mbit/s。如此大的带宽对于传输和处理都带来许多的成本，因此必须采取音频压缩技术对音频进行处理，才能有效地传输音频数据。

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号尽可能大的压缩，降低数据量。数字音频压缩编码采取去除声音中的冗余成分的方法进行实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，他们对确定声音的音色、音调等信息没有任何的帮助。

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如，人耳所能察觉的声音信号的频率范围为20Hz~20kHz，除此之外的其他频率人耳无法察觉，都可视为冗余信号。

此外，根据人耳听觉的生理和心理学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号会被强音信号所掩蔽而听不见，这样弱音信号就可以被视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应。