WebRTC AEC回声消除算法拆解

WebRTC AEC算法流程分析——时延估计(一)

其实,网上有很多类似资料,各个大厂研发不同应用场景设备的音频工程师基本都对其进行了拆解,有些闪烁其词,有些却很深奥,笔者随着对WebRTC了解的深入,逐渐感觉其算法构思巧夺天工,算法逻辑的设计也采用了很多技巧,这就导致没有一定的C语言基础,很难理解其精妙之处,笔者精读完之后不禁让拍案叫绝,作为交流,本系列文章有感而记之,并为来者谏。(笔者C代码水平有限,难免所有错误)


文章目录

  • WebRTC AEC算法流程分析——时延估计(一)
  • 前言
  • 一、far_end 远端信号的处理
  • 二、时延估计
    • 2.程序分析
    • 3.参数说明


前言

WebRTC AEC主要分为三大部分:延时估计,频域分块NLMS滤波器和非线性滤波,三部分数据处理相互关联,不可分割,且每一部分对整个语音信号处理来说至关重要,本篇文章主要针对时延估计模块进行分析,其他模块会陆续进行展开。


一、far_end 远端信号的处理

远端数据处理是一个单独的模块,主要包括对信号的分帧、加窗以及对应的傅里叶变换,并将处理之后的不同数据分配到不同的Buffer中,这里的数据块主要采用环形数组。
首先对一些参数进行初始化:

    WebRtcAec_Create(&aecmInst);WebRtcAec_Init(aecmInst, 16000, 16000);config.nlpMode = kAecNlpAggressive;WebRtcAec_set_config(aecmInst, config);

用fread(far_frame, sizeof(short), NN, fp_far)函数读入远端数据,并通过WebRtcAec_BufferFarend(aecmInst, far_frame, NN)函数对远端数据进行处理:

int32_t WebRtcAec_BufferFarend(void* aecInst,const int16_t* farend,int16_t nrOfSamples) {

这里的处理主要包括两部分:

  for (i = 0; i < newNrOfSamples; i++) {tmp_farend[i] = (float)farend_ptr[i];}WebRtc_WriteBuffer(aecpc->far_pre_buf, farend_float, (size_t)newNrOfSamples);// Transform to frequency domain if we have enough data.while (WebRtc_available_read(aecpc->far_pre_buf) >= PART_LEN2) {// We have enough data to pass to the FFT, hence read PART_LEN2 samples.WebRtc_ReadBuffer(aecpc->far_pre_buf, (void**)&farend_float, tmp_farend, PART_LEN2);WebRtcAec_BufferFarendPartition(aecpc->aec, farend_float);// Rewind |far_pre_buf| PART_LEN samples for overlap before continuing.WebRtc_MoveReadPtr(aecpc->far_pre_buf, -PART_LEN);

第一步:通过WebRtc_WriteBuffer函数将远端数据读入到环形数组中,环形数组的定义为:

RingBuffer* far_pre_buf;  // Time domain far-end pre-buffer.

第二步就是通过While循环对数组进行缓存,由于读入的是10ms的数据,但是算法处理的帧长为64,重叠率50%,因此对数据进行了缓存,使fft变换的数据长度为128,通过WebRtc_MoveReadPtr(aecpc->far_pre_buf, -PART_LEN)函数对缓存数据进行更新,保证重叠率为50%;
数组缓存之后,通过WebRtcAec_BufferFarendPartition函数接口需要对数组进行FFT:

void WebRtcAec_BufferFarendPartition(AecCore* aec, const float* farend) {float fft[PART_LEN2];float xf[2][PART_LEN1];// Check if the buffer is full, and in that case flush the oldest data.if (WebRtc_available_write(aec->far_buf) < 1) {WebRtcAec_MoveFarReadPtr(aec, 1);}// Convert far-end partition to the frequency domain without windowing.memcpy(fft, farend, sizeof(float) * PART_LEN2);TimeToFrequency(fft, xf, 0);WebRtc_WriteBuffer(aec->far_buf, &xf[0][0], 1);// Convert far-end partition to the frequency domain with windowing.memcpy(fft, farend, sizeof(float) * PART_LEN2);TimeToFrequency(fft, xf, 1);WebRtc_WriteBuffer(aec->far_buf_windowed, &xf[0][0], 1);
}

考虑到后续回声消除和非线性处理会用到加窗和不加窗两部分不同的数组,因此,这里对缓存的数组进行加窗和不加窗两种处理方式,并放置在不同的buffer中。
以上是对远端数据的一个基本操作,但这里还有一点需要注意,由于初始缓存是160个数据,也就是10ms的数据,因此导致系统存在一个延迟,通过:

  WebRtcAec_SetSystemDelay(aecpc->aec,WebRtcAec_system_delay(aecpc->aec) + newNrOfSamples);

函数进行设置system_delay=160。这个在ProcessNormal函数中会用到。

  msInSndCardBuf =msInSndCardBuf > kMaxTrustedDelayMs ? kMaxTrustedDelayMs : msInSndCardBuf;// TODO(andrew): we need to investigate if this +10 is really wanted.msInSndCardBuf += 10;

二、时延估计

在网友博客webrtc aecd算法解析
中,罗列了导致延时的三种类型,可以作为参考:
在这里插入图片描述
此外,这里还说到,硬件方面的延迟很容易确定,倒是软件方面的延迟比较难以估计。至于为什么这里以后会补充。

2.程序分析

其实,但从数据来说,系统的延迟时间前期可以通过仿真确定,手机,会议机以及耳机等终端设备的不同会导致不同程度的信号延迟,在前期仿真中可以通过互相关函数确定延迟的具体值。在WebRTC中,有两种模式对延迟信号进行估计。
首先通过WebRtcAec_Process函数将近端数据进行输入:

 WebRtcAec_Process(aecmInst, near_frame, NULL, out_frame, NULL, NN, 40, 0);

这里的40就是前期估计的延迟时间,WebRtcAec_Process的函数为:

nt32_t WebRtcAec_Process(void* aecInst,const int16_t* nearend,const int16_t* nearendH,int16_t* out,int16_t* outH,int16_t nrOfSamples,int16_t msInSndCardBuf,int32_t skew) 

这里关注以下msInSndCardBuf参数,WebRTC的给的解释是:

 * int16_t       msInSndCardBuf Delay estimate for sound card and*                              system buffers

这个参数就是前期代码仿真时通过互相关函数确定的延迟时间,在extended_filter_enabled=1的时候,以下会使能:

  if (WebRtcAec_delay_correction_enabled(aecpc->aec)) {ProcessExtended(aecpc, nearend, nearendH, out, outH, nrOfSamples, msInSndCardBuf, skew);

然后会根据输入的msInSndCardBuf计算目标延迟,通过仿真完全可以和延迟时间对得上:

   int target_delay = startup_size_ms  * self->rate_factor * 8;int overhead_elements = (WebRtcAec_system_delay(self->aec) - target_delay) / PART_LEN;WebRtcAec_MoveFarReadPtr(self->aec, overhead_elements);

并根据计算出的overhead_elements 对信号进行延迟补充,WebRtcAec_MoveFarReadPtr函数如下:

int WebRtcAec_MoveFarReadPtr(AecCore* aec, int elements) {int elements_moved = WebRtc_MoveReadPtr(aec->far_buf_windowed, elements);WebRtc_MoveReadPtr(aec->far_buf, elements);
#ifdef WEBRTC_AEC_DEBUG_DUMPWebRtc_MoveReadPtr(aec->far_time_buf, elements);
#endifaec->system_delay -= elements_moved * PART_LEN;return elements_moved;
}

这里其实对加窗和不加窗数据进行move。
以上是根据msInSndCardBuf参数进行的延迟计算,当然在线性滤波器阶段,本身还存一个延时估计:

if (aec->delayEstCtr == 0) {wfEnMax = 0;aec->delayIdx = 0;for (i = 0; i < aec->num_partitions; i++) {pos = i * PART_LEN1;wfEn = 0;for (j = 0; j < PART_LEN1; j++) {wfEn += aec->wfBuf[0][pos + j] * aec->wfBuf[0][pos + j] +aec->wfBuf[1][pos + j] * aec->wfBuf[1][pos + j];}if (wfEn > wfEnMax) {wfEnMax = wfEn;aec->delayIdx = i;}}}

这里会估计出一个aec->delayIdx,那么和moved element就构成所有的延迟时间。
第二种方式通过一端时间的迭代,Web给出6帧数据,判断延迟是否稳定,在ProcessNormal中进行处理。

      // Before we fill up the far-end buffer we require the system delay// to be stable (+/-8 ms) compared to the first value. This// comparison is made during the following 6 consecutive 10 ms// blocks. If it seems to be stable then we start to fill up the// far-end buffer.

待数据稳定之后就会通计算给出要移动的数据个数移动。

overhead_elements =WebRtcAec_system_delay(aecpc->aec) / PART_LEN - aecpc->bufSizeStart;WebRtcAec_MoveFarReadPtr(aecpc->aec, overhead_elements);

并在EstBufDelayNormal函数中进行一定条件的筛选。
至此,延迟主要的逻辑基本叙述完毕,其实Web真正深奥的倒是那些约束条件,这个不经过一定的实践和及深厚的理论基础是很难想得到,有机会再做补充。

3.参数说明

对于16k采用率,每帧处理的采样点数为64,对于的FFT变化的长度为128;

#define FRAME_LEN 80
#define PART_LEN 64               // Length of partition
#define PART_LEN1 (PART_LEN + 1)  // Unique fft coefficients
#define PART_LEN2 (PART_LEN * 2)  // Length of partition * 2

但是为了能够覆盖大部分延迟时间,数据开闭的buffer为1s的数据块:

static const size_t kBufSizePartitions = 250;  // 1 second of audio in 16 kHz.

由于一帧数为64/16=4ms,那么16块对应64ms,12块数据对应48ms数据,因此也基本上能够覆盖一般的穿戴设备。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/214992.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

scripty妙用

在monorepo项目中&#xff0c;随着子模块增多&#xff0c; 每个子项目都需要配置各自的package.json,并且大同小异&#xff0c;为了进一步提高配置效率&#xff0c;引入了scripty&#xff0c;自己写脚本&#xff0c;直接就可以用哦 1、安装 npm install scripty --save-dev 2…

实现安装“自由化”!在Windows 11中如何绕过“您尝试安装的应用程序未通过微软验证”

这篇文章描述了如果你不能安装应用程序,而是当你在Windows 11中看到消息“您尝试安装的应用程序未通过微软验证”时该怎么办。完成这些步骤将取消你安装的应用程序必须经过Microsoft验证的要求。 使用设置应用程序 “设置”应用程序提供了绕过此警告消息的最简单方法,以便你…

基于JavaWeb+SSM+Vue马拉松报名系统微信小程序的设计和实现

基于JavaWebSSMVue马拉松报名系统微信小程序的设计和实现 源码获取入口Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 源码获取入口 Lun文目录 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 2 2.…

记录 | vscode设置自动换行

右上菜单栏 -> 查看 -> 打开自动换行 或者还有种方式&#xff0c;如下&#xff0c; 左下角小齿轮&#xff0c;点击设置 然后输入 Editor: Word Wrap &#xff0c;把开关打开为 on

微信小程序 长按录音+录制视频

<view class"bigCircle" bindtouchstart"start" bindtouchend"stop"><view class"smallCircle {{startVedio?onVedio:}}"><text>{{startVedio?正在录音:长按录音}}</text></view> </view> <…

AWTK 串口屏开发(1) - Hello World

1. 功能 这个例子很简单&#xff0c;制作一个调节温度的界面。在这里例子中&#xff0c;模型&#xff08;也就是数据&#xff09;里只有一个温度变量&#xff1a; 变量名数据类型功能说明温度整数温度。范围 (0-100) 摄氏度 2. 创建项目 从模板创建项目&#xff0c;将 hmi/…

adb命令学习记录

1、 adb ( android debug bridge)安卓调试桥&#xff0c;用于完成电脑和手机之间的通信控制。 xcode来完成对于ios设备的操控&#xff0c;前提是有个mac电脑。 安卓系统是基于linux内核来进行开发的。 2、adb的安装: 本身 adb是 android SDK 其中自带的工具&#xff0c;用于完…

【无标题】从0到1 搭建一个vue3+Django项目

目录 一、后端项目python django二、前端项目vitevue3三、后端配置3.1 将路由指向app3.2 app下创建urls.py&#xff0c; 写入路由3.3 views写入test函数3.4 启动服务&#xff0c;访问路由 四、前端配置4.1 安装一些工具库及创建文件4.1.1 安装需要用的三方库4.1.2 创建文件 4.2…

尝试通过AI模型进行简单的编码

一、前言 最近尝试通过AI来编程&#xff0c;总体感觉还是能处理写简单的问题&#xff0c;复杂的问题目前还是无法解决。主要的痛点还是数据噪音&#xff0c;就是AI永远不会承认它不会&#xff0c;它会给你的一个错误的信息&#xff0c;它也不会告诉你你的问题它暂时无法完整正…

JUC并发编程03——LockSupport与线程中断

一.线程中断机制 假设从网络下载一个100M的文件&#xff0c;如果网速很慢&#xff0c;用户等得不耐烦&#xff0c;就可能在下载过程中点“取消”&#xff0c;这时&#xff0c;程序就需要中断下载线程的执行。 1.1如何停止中断运行中的线程&#xff1f; 通过一个volatile变量…

智能优化算法应用:基于郊狼算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于郊狼算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于郊狼算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.郊狼算法4.实验参数设定5.算法结果6.参考文献7.MA…

ES6原生音乐播放器(有接口)

视频展示 ES6音乐播放器 项目介绍 GutHub地址&#xff1a;GitHub - baozixiangqianchong/ES6_MusicPlayer: 音乐播放器 ES6_MusicPlayer 是基于JavaScriptES6Ajax等通过原生构建的项目。能够充分锻炼JS能力。 本项目有主页、详情页、歌单页面三部分组成 ├── assets&…

Visual Studio 2022+Python3.11实现C++调用python接口

大家好&#xff01;我是编码小哥&#xff0c;欢迎关注&#xff0c;持续分享更多实用的编程经验和开发技巧&#xff0c;共同进步。 查了一些资料&#xff0c;不是报这个错&#xff0c;就是报哪个错&#xff0c;没有找到和我安装的环境的一致的案例&#xff0c;于是将自己的摸索分…

HHDESK右键管理简介

在HHDESK管理文件&#xff0c;除了基本的打开、删除、复制、粘贴、重命名外&#xff0c;还有多种便捷编辑方式。 可以分别以下列模式打开文档&#xff1a; 文本模式即是以文本编辑器打开文档。 1 二进制模式 可进行二进制编辑。 2 JSON模式 可对JSON文件进行直观的解析…

用户登录权限

文章目录 [TOC](文章目录) 前言一、鉴权二、 Cookie与session1.HTTP无状态2.cookie的重要属性3.cookie 和 session 的生命周期3.1 cookie 生命周期影响因素3.2 session 生命周期影响因素 4.cookie 和 session 的区别5.工作原理3 用户登录Node.js和Express验证session 三、JSON …

LinuxBasicsForHackers笔记 -- 管理用户环境变量

查看和修改环境变量 env – 您可以通过从任何目录在终端中输入 env 来查看所有默认环境变量。环境变量的名称始终为大写&#xff0c;如 HOME、PATH、SHELL 等。 查看所有环境变量 set – 查看所有环境变量&#xff0c;包括 shell 变量、局部变量和 shell 函数&#xff08;例…

记一次测试环境git翻车经历

本来想拉一个功能分支进行新的功能开发&#xff0c;合并代码发现没有冲突居然有文件被修改了&#xff0c;贸然选择最近的一次回滚提交&#xff0c;没想到不假思索的push -f 导致一部分dev主干的代码不见了。 事故记录 开发分支origin/dev&#xff0c;功能分支file 合并之后发…

UE Websocket笔记

参考链接 [UE4 C入门到进阶]12.Websocket网络通信 - 哔哩哔哩 包含怎么用Nodejs 写测试服务器 UE4_使用WebSocket和Json&#xff08;上&#xff09; - 知乎 包含Python写测试服务器 UE4_使用WebSocket和Json&#xff08;下&#xff09; - 知乎 示例代码 xxx.Build.cs"W…

带有 RaspiCam 的 Raspberry Pi 监控和延时摄影摄像机

一、说明 一段时间以来&#xff0c;我一直想构建一个运动激活且具有延时功能的树莓派相机&#xff0c;但从未真正找到我喜欢的案例。我在thingiverse上找到了这个适合树莓派和相机的好案例。它是为特定的鱼眼相机设计的&#xff0c;但从模型来看&#xff0c;我拥有的廉价中国鱼…

重温经典struts1之常用标签

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 前言 上一篇&#xff0c;我们学习了struts的基本概念&#xff0c;怎样搭建struts开发环境&#xff0c;从编写formbean&#xff0c;action到jsp页面&#xff0c;以及怎样将他…