RealMAN:大规模真实录制且经过注释的麦克风阵列数据集

       在深度学习驱动的多通道语音增强和声源定位系统的开发中,由于缺乏大规模的真实录制数据集,这些系统的训练在很大程度上依赖于房间脉冲响应(RIR)和多通道扩散噪声的模拟。然而,模拟数据和真实世界数据之间存在的声学失配可能会导致模型在应用于现实场景时性能下降。现有数据集的局限性如下:

  • 缺乏真实数据: 目前大多数公开数据集都是通过模拟房间脉冲响应和扩散噪声生成的,缺乏真实录制的麦克风阵列数据。这导致模拟数据与真实世界数据之间存在声学失配,限制了模型的泛化能力。
  • 数据量和多样性不足: 现有的真实录制数据集规模较小,场景和噪声类型有限,难以有效训练通用的语音增强和声源定位网络。
  • 缺乏特定任务的标注: 现有数据集往往缺乏目标语音、声源位置等标注信息,限制了其在语音增强和声源定位任务中的应用。
  • 阵列依赖性: 现有的端到端语音增强和声源定位模型通常依赖于特定阵列,难以应用于未见过的新阵列。

    为了解决上述问题,本文提出了一个新的大规模的真实录制且经过注释的麦克风阵列语音和噪声数据集,名为RealMAN。

数据集下载地址:github.com/Audio-WestlakeU/RealMAN

1 RealMAN 数据集概述

RealMAN 数据集是一个用于语音增强和声源定位的真实录制和标注麦克风阵列数据集。该数据集具有以下特点:

1.1 数据规模

  • 83 小时语音信号(48 小时静态说话人,35 小时动态说话人)
  • 144 小时背景噪声
  • 32 个不同的语音录制场景
  • 31 个不同的噪声录制场景

1.2场景多样性

  • 覆盖室内、室外、半室外和交通等多种场景
  • 包括多种常见的室内场景(如客厅、办公室、走廊、餐厅等)
  • 包括多种常见的室外场景(如公园、街道、广场等)
  • 包括交通场景(如汽车、公交车、地铁等)

1.3 说话人状态

  • 包含静态说话人和动态说话人
  • 动态说话人模拟人类行走状态,移动速度合理

1.4 数据标注

  • 声源方位角:使用全向鱼眼相机自动检测声源位置
  • 直达目标语音:通过估计直达路径传播滤波器从源语音信号中获取
  • 语音转录:用于评估自动语音识别性能

1.5 阵列配置

1.7 数据格式

2 RealMAN 数据集优势与潜在应用

2.1 RealMAN 数据集的优势

2.2 RealMAN 数据集的潜在应用

3 基准实验

      本文进行了基准实验,以评估该数据集在语音增强和声源定位任务上的性能,并与模拟数据集进行比较。以下是基准实验的详细内容:

  • 使用 32 通道麦克风阵列进行录制
  • 阵列包含多种拓扑结构,包括平面线性阵列、圆形阵列和 3D 阵列
  • 1.6 数据分割

  • 将数据分割为训练集、验证集和测试集
  • 训练集包含 40 个不同的场景,验证集和测试集包含 17 个和 21 个不同的场景
  • 将 55 名说话人分配到训练集、验证集和测试集
  • 演示集和测试集中的语音和噪声来自匹配的场景,以模拟真实场景
  • 语音信号:WAV 格式,采样率 48 kHz
  • 噪声信号:WAV 格式,采样率 48 kHz
  • 声源方位角:JSON 格式
  • 语音转录:JSON 格式
  • 真实数据: 避免了模拟数据与真实数据之间的声学失配问题,能够更准确地评估算法性能。
  • 大规模和高多样性: 能够有效训练通用的语音增强和声源定位网络。
  • 特定任务标注: 方便进行语音增强和声源定位任务的训练和评估。
  • 阵列泛化能力: 可以用于训练可泛化到未见阵列的可变阵列网络,解决阵列依赖性问题。
  • 语音增强: 改善噪声环境下的语音质量,提高语音识别系统的准确率。
  • 声源定位: 确定声源的位置,应用于语音交互、机器人导航等场景。
  • 声学场景识别: 识别不同的声学场景,用于智能语音控制、智能家居等场景。

3.1 基准方法

3.1.1 语音增强

FaSNet-TAC:一个流行的时域网络。FaSNet-TAC是一种端到端的滤波求和风格的多通道语音增强系统,它在时间域内操作,并且通过神经网络以端到端的方式估计波束成形系数 SpatialNet:一个新提出的频域网络。

SpatialNet则是一个在短时傅里叶变换(STFT)域内进行端到端语音增强的神经网络,主要用于多通道联合语音分离、降噪和去混响。SpatialNet采用了深度学习方法,结合了Narrow-band Conformer网络结构,能够高效地学习多通道语音信号的空间信息。

3.1.2 声源定位

3.2 评估指标

3.2.1 语音增强

3.2.2 声源定位

3.3 实验设置

3.4 实验结果

3.4.1 语音增强

总体而言,RealMAN 数据集是一个具有挑战性的数据集,能够更准确地反映算法在真实场景中的性能。

3.4.2 声源定位

3.5 可变阵列网络和阵列泛化

这表明 RealMAN 数据集可以成功训练可泛化到未见阵列的可变阵列网络,为解决阵列依赖性问题提供了有效方案。

    RealMAN 数据集基准实验结果表明,使用真实数据训练的模型在真实场景中取得了更好的性能,有效消除了模拟数据与真实数据之间的差距。RealMAN 数据集可以用于评估和比较语音增强和声源定位算法的性能,并提供更可靠的基准。此外,使用 RealMAN 数据集训练的可变阵列网络可以应用于未见阵列,为语音增强和声源定位技术在实际场景中的应用提供了新的可能性。

  • CRNN:一种结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,主要用于处理序列化数据并进行识别任务。它通过先使用CNN提取图像特征,然后将这些特征输入到RNN中进行时间序列处理,从而实现对文本、语音等序列数据的识别。
  • IPDnet:IPDnet(Inter-Channel Phase Difference Estimation Network)是一种新提出的声源定位方法,旨在从麦克风阵列信号中估计声源的直接路径互通道相位差(DP-IPD)。该方法在不利的声学环境中提取直接路径空间特征,从而实现声源定位。
  • SI-SDR:尺度不变信号失真比SI-SDR是一种优化生成对抗网络(GAN)语音增强方法的指标,旨在解决模型训练不稳定和生成语音质量不高的问题。它通常被认为是衡量源声音质量的整体指标,适用于时域语音分离中的训练措施。SI-SDR值越高,表示语音质量越好。
  • WB-PESQ:宽带感知语音质量评估。WB-PESQ是基于ITU-T P.862标准的语音质量评估方法,用于预测主观意见,适用于宽带语音条件下的语音质量评估。它需要带噪的衰减信号和一个原始的参考信号,能够对客观语音质量评估提供一个主观MOS的预测值。WB-PESQ的评分范围在-0.5到4.5之间,评分越高表示语音质量越好。
  • MOS-SIG, MOS-BAK, MOS-OVR:DNSMOS 中的语音质量指标
  • CER:字符错误率
  • MAE:平均绝对误差。MAE是一种常用的回归模型评估指标,用于衡量预测值与实际值之间的平均绝对偏差。它反映了预测值与真实值之间的差异,能够直观地显示预测结果的准确性。
  • ACC:定位精度(N°)。ACC通常用于描述定位系统的精度,特别是在机器视觉和室内定位等应用中。它表示定位系统能够准确确定目标位置的能力。
  • 使用 9 通道子阵列进行实验
  • 训练集由随机混合的语音和噪声组成,SNR 在 [0, 15] dB 范围内均匀分布
  • 验证集和测试集由匹配场景的语音和噪声混合而成,信号级别保持不变
  • 与模拟数据相比,使用 RealMAN 数据集训练的模型在真实数据集上取得了更好的性能,有效消除了模拟数据与真实数据之间的差距。
  • 与模拟数据相比,使用 RealMAN 数据集训练的模型在真实数据集上取得了更好的定位精度。
  • 真实录制数据和模拟 RIR 之间的失配会导致声源定位性能下降。
  • 真实噪声和模拟噪声之间的失配也会对声源定位性能产生较大影响。
  • 使用 28 个麦克风数据训练 FaSNet-TAC 和 IPDnet 网络的可变阵列版本。
  • 可变阵列网络在未见阵列上的性能略低于使用测试阵列训练的固定阵列网络,但差距较小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/367841.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QStringListModel 绑定到QListView

1.QStringListModel 绑定到listView,从而实现MV模型视图 2.通过QStringListModel的新增、删除、插入、上下移动,listView来展示出来 3.下移动一行,传入curRow2 的个人理解 布局 .h声明 private:QStringList m_strList;QStringListModel *m_m…

[译]Reactjs性能篇

英文有限,技术一般,海涵海涵,由于不是翻译出身,所以存在大量的瞎胡乱翻译的情况,信不过我的,请看原文~~ 原文地址:https://facebook.github.io/react/docs/advanced-per…

Servlet_Web小结

1.web开发概述 什么是服务器? 解释一:服务器就是一款软件,可以向其发送请求,服务器会做出一个响应. 可以在服务器中部署文件,让他人访问 解释二:也可以把运行服务器软件的计算机也可以称为服务器。 web开发: 指的是从网页中向后…

Android LayoutInflater 深度解析

在 Android 开发中,LayoutInflater 是一个非常重要的工具。它允许我们从 XML 布局文件中动态地创建 View 对象,从而使得 UI 的创建和管理更加灵活。本文将深入解析 android.view.LayoutInflater,包括它的基本用法、常见问题以及高级用法。 什…

idea xml ctrl+/ 注释格式不对齐

处理前 处理后 解决办法 取消这两个勾选

【UE5.3】笔记6-创建可自由控制Pawn类

搭建场景 搭建一个场景:包含地板、围墙。可以根据喜好加一些自发光的效果。 增加食物 创建食物蓝图类,在场景里放置一些食物以供我们player去吃掉获取分值。 创建可控制的layer 我们先右键创建一个蓝图继承自pawn类,起名BP_Player&#xf…

深度学习之半监督学习:一文梳理目标检测中的半监督学习策略

什么是半监督目标检测? 传统机器学习根据训练数据集中的标注情况,有着不同的场景,主要包括:监督学习、弱监督学习、弱半监督学习、半监督学习。由于目标检测任务的特殊性,在介绍半监督目标检测方法之前,我…

视频融合共享平台LntonCVS统一视频接入平台智慧安防应用方案

安防视频监控平台LntonCVS是一款拥有强大拓展性和灵活部署能力的综合管理平台。它支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,同时兼容各厂家的私有协议和SDK,如海康Ehome、海大宇等。LntonCVS不仅具备传统安防视频监控功能&…

PHP电商系统开发指南最佳实践

电子商务系统开发的最佳实践包括:数据库设计:选择适合关系型数据库,优化数据结构,考虑表分区;安全:加密数据,防止 sql 注入,处理会话管理;用户界面:遵循 ux 原…

mysql-sql-第十四周

学习目标: sql 学习内容: 40.查询学过「哈哈」老师授课的同学的信息 Select * from students left join score on students.stunmscore.stunm where counm (select counm from teacher left join course on teacher.teanmcourse.teanm where teache…

【深度学习】Transformer

李宏毅深度学习笔记 https://blog.csdn.net/Tink1995/article/details/105080033 https://blog.csdn.net/leonardotu/article/details/135726696 https://blog.csdn.net/u012856866/article/details/129790077 Transformer 是一个基于自注意力的序列到序列模型,与基…

伺服调试三环讲解

在伺服调试过程中,有些项目要求不高,采用伺服自整定就可以调试好伺服,但有些项目对伺服有着比较高的要求,于是需要采取手动调试伺服参数,下面就介绍一下伺服三环参数的调试的方法。 三环指:电流环、速度环、位置环 带宽关系:电流环带宽>速度环带宽>位置环带宽 三环控…

C语言单链表的算法之插入节点

一:访问各个节点中的数据 (1)访问链表中的各个节点的有效数据,这个访问必须注意不能使用p、p1、p2,而只能使用phead (2)只能用头指针不能用各个节点自己的指针。因为在实际当中我们保存链表的时…

偏微分方程笔记

极小位能原理: C 2 C^2 C2 是一个集合符号,表示所有二阶连续可微函数的集合 弱导数 C 2 C^2 C2 是一个集合符号,表示所有二阶连续可微函数的集合。 C 0 ∞ ( I ) C^{\infty}_0(I) C0∞​(I)表示于 I I I上无穷可微,且在端点a&…

使用pyinstaller 如何打包python项目

参考:【python项目正确打包方法-哔哩哔哩】 https://b23.tv/EDB6zbG Pyinstaller 详解多种打包过程(去坑,填坑)。_pyinstaller -f -w-CSDN博客 1.打开命令提示符: 找到python项目所在位置,输入cmd即可 2. 安装pipenv: 在命令提示符&#…

【强化学习的数学原理】课程笔记--2(贝尔曼最优公式,值迭代与策略迭代)

目录 贝尔曼最优公式最优 Policy求解贝尔曼最优公式求解最大 State Value v ∗ v^* v∗根据 v ∗ v^* v∗ 求解最佳 Policy π ∗ \pi^* π∗一些证明过程 一些影响 π ∗ \pi^* π∗ 的因素如何让 π ∗ \pi^* π∗ 不 “绕弯路” γ \gamma γ 的影响reward 的影响 值迭…

UiPath+Appium实现app自动化测试

一、环境准备工作 1.1 完成appium环境的搭建 参考:pythonappiumpytestallure模拟器(MuMu)自动化测试环境搭建_appium mumu模拟器-CSDN博客 1.2 完成uipath的安装 登录官网,完成注册与软件下载安装。 UiPath业务自动化平台:先进的RPA及自动…

Visual Studio 中的键盘快捷方式

1. Visual Studio 中的键盘快捷方式 1.1. 可打印快捷方式备忘单 1.2. Visual Studio 的常用键盘快捷方式 本部分中的所有快捷方式都将全局应用(除非另有指定)。 “全局”上下文表示该快捷方式适用于 Visual Studio 中的任何工具窗口。 生成&#xff1…

第十四章 集合(List)

一、集合框架体系 集合: (1)可以动态保存任意多个对象 (2)提供了一系列方便的操作对象的方法 二、Collection 1. Collection 接口常用方法 (1)add:添加单个元素 (2…

Cypress测试:7个快速解决问题的调试技巧!

以下为作者观点: 快速编写代码是一项宝贵的技能,但能够有效调试和解决错误和bug,更是一个软件开发人员具有熟练技能的标志。调试是开发过程中的一个关键环节,可以确保软件按预期运行并满足用户需求。 Cypress 调试简介 Cypress …