音频采集的相关基础知识

本文引注:

https://zhuanlan.zhihu.com/p/652629744

1.麦克风的种类

(1)模拟麦克风

ECM麦克风:驻极体电容麦克风(ECM),典型的汽车ECM麦克风是一种将ECM单元与小型放大器电路整合在单个外壳中的装置。放大器提供一个模拟信号,其电压电平允许信号通过数米长的电线进行传输,这也是典型汽车应用的要求。若不放大,原始ECM信号对于如此长的电线来说太低,由于电线上的电磁干扰,信噪比(SNR)会降低过多。即使放大信号,也需要屏蔽线缆——通常是双线电缆,通过一个偏置电压(8V)为麦克风装置供电。

ECM的少数优点之一是其内置声学指向性,通常将其调整为超心型极性图(MEMS麦克风也可以做成指向的,但通常需要更复杂的声学设计)。通常可以实现10 dB或更多的后向衰减,"后向"是指朝向挡风玻璃的方向,从其中只会产生噪声(即没有期望的信号,例如讲话者的语音)。

在期望信号的进入方向上具有更高灵敏度非常有利于提高SNR。然而,定向ECM单元会引入不必要的副作用,例如高通特性——灵敏度在较低频率时会降低。这种高通响应的3 dB截止频率通常在300 Hz至350 Hz范围内。在HF技术的早期,这种高通特性是一个优势,因为发动机噪声主要以较低频率存在,发动机声音本身会经过麦克风衰减。然而,自从宽带或HD通话出现以来,这种高通特性开始成为一个问题。在宽带通话中,有效带宽从300 Hz到3400 Hz增加为100 Hz至7000 Hz。麦克风的自身高通滤波特性使得有必要在后处理单元中放大100 Hz至300 Hz的信号,而如果麦克风本身能提供更好的音频带宽,则不需要放大此范围内的信号。

ECM技术的另一个缺点是不同器件的灵敏度和频率响应差异很大。ECM的制造公差相对较大,这对于单个麦克风应用可能不是问题。但是,如果在间距较小的麦克风阵列应用中部署多个麦克风信号,则麦克风之间的严格匹配对于实现优质阵列性能至关重要。在这种情况下,ECM难以使用。此外,从物理尺寸角度看,传统ECM单元一般不适合于小型麦克风阵列。

麦克风阵列具有广泛的适用性,包括在车内,因为与传统ECM相比,阵列能提供类似(常常更优越)的定向性能。关于声音冲击方向的空间信息,可以使用阵列中分组的两个或更多个合适的麦克风来从麦克风信号中提取。这类算法常被称为波束成型(BF)。

"波束成型"一词源自与相控阵天线技术的类比,利用简单的纯线性滤波器和求和算法可以将天线阵列发射的无线电"波束"聚焦在某个方向上。虽然麦克风阵列中没有这样的波束,但波束成型这一术语在麦克风信号处理领域也很常见,相比于简单的线性波束成型处理,它涵盖了更广泛的线性和非线性算法,支持实现更高的性能和更大的灵活性。

除了波束成型处理之外,原始麦克风信号几乎总是需要后处理,因为每个HF麦克风都会同时捕获期望的语音信号和环境(若座舱)中的干扰。风噪、路噪和发动机噪声会降低SNR,通过扬声器播放的信号——通常称为扬声器回波——也是不需要的信号源。为了减少这种干扰并改善语音质量,需要采用复杂的数字信号处理技术,常常称之为回声消除和降噪(AEC/NR)。

AEC从麦克风中消除扬声器声音,否则它会作为在线路另一端讲话的人声的回声传输。NR则在降低恒常存在的行驶噪声的同时提高所传输信号的SNR。虽然国际电信联盟(ITU)发布了详细规范(例如ITU-T P.1100和P.1110)来定义HF系统的许多性能细节,但在行驶车辆中通话时,如果AEC/NR处理达不到标准,人们对通信质量的主观印象可能不会满意。与前面提到的BF算法一起,AEC/NR/BF的组合赋能广泛的新型应用,所有这些应用都与某种程度的数字音频信号处理相关。为了支持这些应用,需要新一代消除了传统ECM缺点的麦克风技术。

模拟麦克风的接口,通常为模拟信号输入,如下图所示:
在这里插入图片描述
对于模拟麦克风来说,它输出的是模拟音频信号,但是在进入ADC之前,需要有MIC BIAS(偏置电压),这样才能将模拟麦克风的输出信号接入系统中。同时,由于ECM麦克风的输出信号较小,因此需要有一个前置放大器,才能顺利地接入ADC。通常情况下,选择合适的ADC,可以提供MIC BIAS和PreAMP,即可顺利地接入ECM麦克风。

(2)数字麦克风

MEMS麦克风:微机电系统(MEMS)技术迅速成为麦克风的新行业标准,因为相比传统ECM,它提供了许多优势。首先,MEMS使得声音传感器比现有ECM单元要小得多。此外,将MEMS传感器与模数转换器(ADC)集成在单个IC中所得到的数字麦克风,能够提供可立即进行AEC/NR/BF(波束成型,用于麦克风阵列)处理的信号。

模拟接口MEMS麦克风也存在,但其具有与模拟ECM相同的许多缺点,而且若使用传统双线模拟接口工作,甚至需要比ECM更复杂的放大器电路。只有采用全数字接口技术,才能显著减轻模拟线路固有的干扰和SNR问题。此外,从生产角度看,MEMS也占优。因为MEMS麦克风的生产规格偏差比ECM单元要小得多,这对于BF算法很重要。最后,MEMS IC麦克风的制造工艺大大简化,因为可以采用自动化安装技术,整体生产成本得以降低。从应用角度看,更小的尺寸是最大的优势,并且由于声音入口非常小,MEMS麦克风阵列实际上可以做成不可见的。

传感器的入口和声音通道要求在设计和生产质量方面特别小心。如果声学密封不牢,来自内部结构的噪声可能到达传感器,两个传感器之间的泄漏可能降低BF算法的性能。与可以设计和制造成全向或定向的典型ECM单元不同,MEMS麦克风元件几乎总是制造成全向式(即声音接收没有内在方向性)。因此,MEMS麦克风是忠实于相位的全向声压传感器,为高级BF算法提供理想的信号,衰减方向和波束宽度可以由用户通过软件进行配置。

对于数字麦克风来说,它输出的信号就是数字信号,因此无需在数据通路上再集成ADC,也避免了模拟音频通道线,直接在PCB板上采用数字音频接口即可。如下图所示:
在这里插入图片描述

2.数字音频接口

一般来说,在PCB板内部芯片之间使用的音频信号传输接口,有I2S,TDM,PCM,PDM等;在PCB板间长距离,需要使用电缆传输的,有AVB,A2B,SPDIF等总线。

(1) I2S

I2S(Inter—IC Sound)总线, 又称集成电路内置音频总线,是飞利浦公司为数字音频设备之间的音频数据传输而制定的一种总线标准。

I2S是简单的总线协议,它用于成对设备之间的音频数据传输。一个为master,另一个为slave。主从设备的区别在于谁主动发起数据传输,能提供时钟信号的即为master。数据可以从master发送到slave,也可以从slave发送到master。

在I2S协议中有3个主要信号:
1.串行时钟SCLK,也叫位时钟(Bit CLK),即对应数字音频的每一位数据,SCLK都有1个脉冲。SCLK的频率=2×采样频率×采样位数。
2. 帧时钟LRCK,也称左右声道选择信号Word Select(WS),用于切换左右声道的数据。LRCK为“1”表示正在传输的是右声道的数据,为“0”则表示正在传输的是左声道的数据。LRCK的频率等于采样频率。
3.串行数据SDATA,音频数据 SD。

SD是串行数据,在I2S中以二进制补码的形式在数据线上传输。在WS变化后的第一个SCK脉冲,先传输最高位(MSB, Most Significant Bit)。

SD数据线可以为1根或者多根。当只有1根时,可单向传输双声道,称为SDOUT;如果是2根,可双向传输,每根信号线传输双声道,分别为SDIN和SDOUT。也可以增加到4根SD信号线,此时可以双向传输4通道音频。

2S数据的计算:
例如:设声音的采样频率为44.1 kHz,即声道选择信号(帧时钟)WS的频率必须也为44.1 kHz;左/右2个声道的量化深度均为16 bit,则I2S的SCK的频率为:44.1 kHz×16×2=1.4112 MHz。

如果需要传输20 bit、24 bit或32 bit的左右声道的数据,可以提高SCK的频率,由上式可以计算出需要的SCK的频率。

(2)PCM

PCM(Pulse Code Modulation)脉冲编码调制是数字通信的编码方式之一。在PCM 过程中,将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度 ;接收端再将这些编码还原为原来的模拟信号。即数字音频的 A/D 转换包括三个过程 :采样,量化,编码。

1.采样
采样是把模拟信号以其信号带宽2倍以上的频率提取样值,变为在时间轴上离散的抽样信号的过程。例如,话音信号带宽被限制在0.3~3.4kHz内,用 8kHz的抽样频率(fs),就可获得能取代原来连续话音信号的抽样信号。对一个正弦信号进行抽样获得的抽样信号是一个脉冲幅度调制(PAM)信号,对抽样信号进行检波和平滑滤波,即可还原出原来的模拟信号。

2.量化
抽样信号虽然是时间轴上离散的信号,但仍然是模拟信号,其样值在一定的取值范围内,可有无限多个值。显然,对无限个样值一一给出数字码组来对应是不可能的。为了实现以数字码表示样值,必须采用“四舍五入”的方法把样值分级“取整”,使一定取值范围内的样值由无限多个值变为有限个值。这一过程称为量化。

量化后的抽样信号与量化前的抽样信号相比较,当然有所失真,且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声,并称为量化噪声。量化噪声的大小取决于把样值分级“取整”的方式,分的级数越多,即量化级差或间隔越小,量化噪声也越小。

3.编码
量化后的抽样信号在一定的取值范围内仅有有限个可取的样值,且信号正、负幅度分布的对称性使正、负样值的个数相等,正、负向的量化级对称分布。若将有限个 量化样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码(例如,赋予样值0的十进制数字代码为0),在码前以“+”、“-”号为前缀,来 区分样值的正、负,则量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流,即十进制数字信号。简单高效的数据系统是二进制码系统,因此,应将十进制数字代码变换成二进制编码。根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长。这种把量化的抽样信号变换成给定字长的二进制码流的过程称为编码。
在这里插入图片描述
在I2S接口上传输的数字音频信号,也正是PCM类型的编码。

PCM接口与I2S相似,电路信号包括:
1.PCM_CLK 数据时钟信号
2.PCM_SYNC 帧同步时钟信号
3.PCM_IN 接收数据信号
4.PCM_OUT 发送数据信号
在这里插入图片描述

(3)TDM

TDM (Time Division Multiplexing) ,是指通过时分复用的方式,在一个物理通道上传输多路PCM音频数据的方式。一般来说,I2S接口只能传输双声道,而TDM可以传输16路甚至32路数据。

TDM的物理数据通道与PCM或I2S一样,也是采用4根信号线用于数据传输,只是在采样率,数据位宽,以及通道数上具有不同的参数。

音频TDM通过使用BLCK作为位时钟信号来确定数据传输的时钟速率和时序。Frame Sync信号用于标识音频帧的开始和结束,确保正确地组合和解析音频数据。Data IN和Data OUT信号引脚用于输入和输出音频数据,实现多路音频信号的合并和传输。

BLCK(Bit Clock):BLCK引脚是音频TDM中的时钟信号引脚。在每个BLCK时钟周期内,只能传输一个数据位。BLCK信号的频率决定了数据传输的速率,每个数据位在一个时钟周期内进行传输。发送端在每个时间槽中依次填充数据位,并在每个BLCK时钟周期根据BLCK信号的边沿将数据位传输出去。接收端根据BLCK信号的时钟边沿来采样和解析数据位,以还原音频信号。
Frame Sync(帧同步):Frame Sync引脚用于标识数据帧的开始和结束。在音频TDM中,多个slot被组合成一个完整的音频帧。Frame Sync信号的状态变化指示一个新的音频帧的开始。接收端根据Frame Sync信号来识别和解析每个slot的数据,并将其组合成原始的音频信号。
SD IN引脚:SD IN引脚是用于输入音频数据的引脚。
SD OUT引脚:SD OUT引脚是用于输出音频数据的引脚。

在这里插入图片描述
在I2S中,通过WS引脚来区分左右声道,每个样本由左右声道交替传输。而在TDM中,通过Frame Sync信号来标识音频帧的开始和结束,一个音频帧可以包含多个slot。在TDM传输时,需要配置slot的个数,采样频率,采样数据的位宽,即可得出TDM的系统时钟速率,或者说可传输的数据带宽。

例如,Frame Sync的频率等于音频的采样率(例如44.1 kHz,48 kHz等)。Frame每次传输包括所有声道的数据。PCM采样音频数据量化深度一般在16,24,or 32bit。那么对于16个声道,每个声道32bit音频数据,采样率48kHz的系统,TDM的BCLK系统时钟速率为:16 × 32 × 48kHz = 24.576 MHz。

(4)PDM

PDM(Pulse Density Modulation)是一种用数字信号表示模拟信号的调制方法。同为将模拟量转换为数字量的方法,PCM使用等间隔采样方法,将每次采样的模拟分量幅度表示为N位的数字分量(N = 量化深度),因此PCM方式每次采样的结果都是N bit字长的数据。PDM则使用远高于PCM采样率的时钟采样调制模拟分量,只有1位输出,要么为0,要么为1。因此通过PDM方式表示的数字音频也被称为Oversampled 1-bit Audio。相比PDM一连串的0和1,PCM的量化结果更为直观简单。

如下图所示,PDM的采样输出为:
在这里插入图片描述
PCM方式的逻辑更加简单,但需要用到数据时钟,采样时钟和数据信号三根信号线;PDM方式的逻辑相对复杂,但它只需要两根信号线,即时钟和数据。在数字麦克风领域,应用最广的就是PDM接口,其次为I2S接口。

通过PDM接口方式,传输双声道数据只要用到两根信号线。如下图所示,两个PDM接口的发送设备与同一个接收设备的连接情况,比如Source 1/2分别作为左右声道的麦克风,通过这种方式可以将采集到的双声道数据传送到接收设备。主设备(此例中作为接收设备)为两个从设备提供时钟,分别在时钟的上升沿和下降沿触发选择Source 1/2作为数据输入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/204519.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

迷你洗衣机哪个牌子好又实惠?口碑最好的小型洗衣机

不得不说洗衣机的发明解放了我们的双手,而我们从小到大就有这个意识,贴身衣物不可以和普通的衣服一起丢进去洗衣机一起,而内衣裤上不仅有肉眼看见的污渍还有手上根本无法消灭的细菌,但是有一款专门可以将衣物上的细菌杀除的内衣洗…

简介vue

目录 一、介绍 渐进式框架​ 单文件组件​ 选项式 API (Options API)​ 组合式 API (Composition API)​ 该选哪一个?​ 创建一个 Vue 应用 应用实例​ 根组件​ DOM 中的根组件模板 应用配置​ 多个应用实例​ 一、介绍 Vue (发音为 /vjuː/&#xff…

CI/CD 构建中能保护好 SSHKEY吗?

目录 背景 方案 编码存储 逐行存储 合并存储 打马赛克 结论 背景 使用极狐GitLab CI/CD,在部署方面,主要有两种方式: 部署到K8S集群 Push模式:流水线通过kubectl执行命令部署,这需要把K8S的权限给流水线&#xf…

2. 两数相加

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0 …

C#面向对象

过程类似函数只能执行没有返回值 函数不仅能执行,还可以返回结果 1、面向过程 a 把完成某一需求的所有步骤 从头到尾 逐步实现 b 根据开发需求,将某些 功能独立 的代码 封装 成一个又一个 函数 c 最后完成的代码就是顺序的调用不同的函数 特点 1、…

vue项目多个不同的服务器请求地址管理

vue项目多个不同的服务器请求地址管理 在vue项目开发过程中,获取不同的数据可能会出现需要请求多个不同服务器地址的域名,这个时候需要对不同域名的请求地址进行管理以及跨域的代理。 一、单服务器域名地址的跨域代理和请求配置: 跨域配置&…

【算法萌新闯力扣】:卡牌分组

力扣热题:卡牌分组 一、开篇 今天是备战蓝桥杯的第22天。这道题触及到我好几个知识盲区,以前欠下的债这道题一并补齐,哈希表的遍历、最大公约数与最小公倍数,如果你还没掌握,这道题练起来! 二、题目链接:…

为Oracle链接服务器使用分布式事务

1 现象 在SQL Server中创建指向Oracle的链接服务器,SQL语句在事务中向链接服务器插入数据。返回链接服务器无法启动分布式事务的报错。 2 解决 在Windows平台下,SQL Server依赖分布式事务协调器(MSDTC)来使用分布式事务&#xff0…

【ArcGIS Pro微课1000例】0038:基于ArcGIS Pro的人口密度分析与制图

文章目录 一、人口密度二、人口密度分析1. 点密度分析2. 核密度分析三、结果比对一、人口密度 人口密度是指单位土地面积上居住的人口数,通常以每平方千米或每公顷内的常住人口为单位计算。人口密度同资源、经济密切结合,因此,科学准确地分析人口密度的分布情况,对合理制定…

亚信科技AntDB数据库与库瀚存储方案完成兼容性互认证

近日,亚信科技AntDB数据库与苏州库瀚信息科技有限公司自主研发的RISC-V数据库存储解决方案进行了产品兼容测试。经过双方团队的严格测试,亚信科技AntDB数据库与库瀚数据库存储解决方案完全兼容、运行稳定。除高可用性测试外,双方进一步开展TP…

0 NLP: 数据获取与EDA

0数据准备与分析 二分类任务,正负样本共计6W; 数据集下载 https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip 样本的分布 正负样本中评论字段的长度 ,超过500的都…

Redis深入理解-主从架构下内核数据结构、主从同步以及主节点选举

Redis 主从挂载后的内核数据结构分析 主节点中,会通过 clusteNode 中的 slaves 来记录该主节点包含了哪些从节点,这个 slaves 是一个指向 *clusterNode[] 数组的数据结构从节点中,会通过 clusterNode 中的 slaveof 来记录该从节点属于哪个主…

webpack项目工程初始化

一、初始化项目 默认系统已经安装node //初始化 pnpm init//安装webpack pnpm i -D webpack webpack-cli 新建一个index.html的入口文件 新建一个src文件存放js代码,src里面新建一个index.js package.josn配置打包命令 {"name": "webpack-cs&q…

【数据结构】八大排序(二)

目录 前言: 冒泡排序 冒泡排序代码实现 冒泡排序特性总结 快速排序 单趟排序hoare版本 单趟排序挖坑法 单趟排序快慢指针法 快速排序整体概览 快排的优化 三数取中法选key 小区间优化 前言: 上文介绍了直接插入排序,希尔排序&…

2 线、3 线和 4 线 RTD 配置之间有什么区别?

电阻温度检测器 (RTD) 是温度传感器的一种,由于其准确性、可重复性和稳定性而广泛应用于各种工业应用。这些设备通过感测材料温度变化时电阻的变化来测量温度。 RTD 探头有多种配置,包括 2 线、3 线和 4 线型号。这些类型之间存在显着差异,在…

浅析函数防抖节流

防抖和节流都是前端开发中常用的优化性能的技术。 一、定义 防抖: 防抖指的是在事件触发后,在规定的时间内若再次触发,则重新计时,直到规定时间内没有再次触发事件,才执行事件处理。这样可以避免在短时间内频繁地触发…

ArrayList与顺序表的简单理解

前言----list 在集合框架中,List是一个接口,继承自Collection。Collection也是一个接口,该接口中规范了后序容器中常用的一些方法,具体如下所示: Iterable也是一个接口,表示实现该接口的类是可以逐个元素进…

编写安全 JavaScript 代码的最佳实践

编写安全 JavaScript 代码的最佳实践 JavaScript 的动态特性使其成为事实上的浏览器语言和世界上最流行的编程语言。 JS 最受欢迎的有用功能之一是即时分析。这意味着浏览器在下载内容的同时执行代码,这显然有其优势。然而,这种程度的自由也伴随着问题…

Redis实战命令

实战命令 单值缓存 set key value get key 对象缓存 (1)set user:1 value(json格式) (2)mset user:1:name junfeng user:1:age 18 mget user:1:name user:1:age 分布式锁 分布式锁解决了什么问题? 分布式锁解…

[带余除法寻找公共节点]二叉树

二叉树 题目描述 如上图所示,由正整数1, 2, 3, ...组成了一棵无限大的二叉树。从某一个结点到根结点(编号是1的结点)都有一条唯一的路径,比如从10到根结点的路径是(10, 5, 2, 1),从4到根结点的路径是(4, 2, 1)&#x…