AI视野·今日CS.Sound 声学论文速览
Thu, 19 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页
Daily Sound Papers
Take the aTrain. Introducing an Interface for the Accessible Transcription of Interviews Authors Armin Haberl, J rgen Flei , Dominik Kowald, Stefan Thalmann aTrain 是一款开源离线工具,用于在 CPU 和 NVIDIA GPU 支持下以多种语言转录音频数据。它是专门为研究人员设计的,使用从与研究参与者的各种形式的语音交互中生成的定性数据。 aTrain 不需要编程技能,可以在大多数计算机上运行,不需要互联网连接,并且经过验证不会将数据上传到任何服务器。 aTrain 将 OpenAI 的 Whisper 模型与说话人识别相结合,提供与流行的定性数据分析软件工具 MAXQDA 和 ATLAS.ti 集成的输出。它具有易于使用的图形界面,并通过 Microsoft Store 作为 Windows 应用程序提供,允许研究人员简单安装。源代码可在 GitHub 上免费获取。在开发了专注于本地计算机速度的 aTrain 后,我们发现当前移动 CPU 上的转录时间约为使用最高精度转录模型的音频文件持续时间的 2 到 3 倍。 |
BUT CHiME-7 system description Authors Martin Karafi t, Karel Vesel , Igor Sz ke, Ladislav Mo ner, Karel Bene , Marcin Witkowski, Germ n Barchi, Leonardo Pepino 本文介绍了布尔诺理工大学 BUT、AGH 克拉科夫大学和布宜诺斯艾利斯大学为 CHiME 7 挑战赛开发自动语音识别系统的共同努力。我们使用多个工具包训练和评估各种端到端模型。我们严重依赖引导源分离 GSS 将多通道音频转换为单通道。 ASR 利用通过自监督学习预先训练的模型的语音表示,并且我们融合了多个 ASR 系统。此外,我们修改了 LibriSpeech 语料库中的外部数据,使其成为一个封闭域,并将其添加到训练中。 |
CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition Authors Kari A Noriy, Xiaosong Yang, Marcin Budka, Jian Jun Zhang 本文提出了一种使用对比学习进行多语言语音和声音表示学习的新颖框架。缺乏大量标记数据集阻碍了跨语言的语音处理研究。对比学习的最新进展提供了从未标记数据中学习的自我监督技术。为了减少数据依赖性并提高不同语言和条件下的泛化能力,我们开发了一个多语言对比框架。 |
Physics-informed Neural Network for Acoustic Resonance Analysis Authors Kazuya Yokota, Takahiko Kurahashi, Masajiro Abe 本研究提出了物理通知神经网络 PINN 框架来求解声共振分析的波动方程。 ResoNet是本研究提出的分析模型,除了传统的PINN损失函数之外,还最小化了周期解的损失函数,从而有效地利用神经网络的函数逼近能力,同时进行共振分析。此外,它可以很容易地应用于反问题。在此,分析一维声管中的共振。通过对带有能量损失项的波动方程的正逆分析验证了该方法的有效性。在正演分析中,通过与有限差分法的比较,评估了PINN对共振问题的适用性。 |
Blind estimation of audio effects using an auto-encoder approach and differentiable signal processing Authors C me Peladeau, Geoffroy Peeters 音频效果的盲估计 BE AFX 旨在仅根据已处理的音频样本来估计应用于原始、未处理的音频样本的音频效果 AFX。为了训练这样的系统,传统方法会优化真实数据和估计的 AFX 参数之间的损失。这涉及了解该流程所使用的 AFX 的确切实现。在这项工作中,我们提出了一种替代解决方案,无需了解此实现。相反,我们引入了一种自动编码器方法,它可以优化音频质量指标。我们使用差分信号处理或神经近似来探索、建议和比较常用的母带 AFX 的各种实现。 |
EchoScan: Scanning Complex Indoor Geometries via Acoustic Echoes Authors Inmo Yeon, Iljoo Jeong, Seungchul Lee, Jung Woo Choi 准确估计室内空间几何形状对于构建精确的数字孪生至关重要,其广泛的工业应用包括在陌生环境中进行导航和高效的疏散规划,特别是在弱光条件下。本研究介绍了 EchoScan,这是一种利用声学回声进行房间几何推断的深度神经网络模型。传统的基于声音的技术依赖于估计与几何相关的房间参数,例如墙壁位置和房间大小,从而限制了可推断的房间几何形状的多样性。相反,EchoScan 通过直接推断房间平面图和高度克服了这一限制,从而使其能够处理任意形状的房间,包括弯曲的墙壁。 EchoScan 的关键创新在于它能够使用多聚合模块分析房间脉冲响应 RIR 中低阶反射和高阶反射之间的复杂关系。当从音频设备的位置无法观察到回声时,高阶反射的分析还使其能够推断出复杂的房间形状。在此,EchoScan 使用从复杂环境(包括曼哈顿和亚特兰大布局)合成的 RIR 进行训练和评估,采用与商业现成设备兼容的实用音频设备配置。 |
Unintended Memorization in Large ASR Models, and How to Mitigate It Authors Lun Wang, Om Thakkar, Rajiv Mathews 众所周知,神经网络可能会无意中记住其训练样本,从而引起隐私问题。然而,由于硬度校准等现有方法的计算成本较高,大型非自回归自动语音识别 ASR 模型中的审核记忆一直具有挑战性。在这项工作中,我们设计了一种简单的审核方法来测量大型 ASR 模型中的记忆力,而无需额外的计算开销。具体来说,我们加速随机生成的话语,以创建声音和文本信息之间的映射,而这很难从典型的训练示例中学习。因此,仅针对加速训练示例的准确预测可以作为记忆的明确证据,并且相应的准确性可以用于衡量记忆。使用所提出的方法,我们展示了最先进的 ASR 模型中的记忆能力。为了减轻记忆力,我们在训练期间尝试进行梯度裁剪,以限制任何单个示例对最终模型的影响。我们凭经验表明,裁剪每个示例的梯度可以减轻对训练集中最多 16 次重复的加速训练示例的记忆。 |
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation Authors Yiyang Su, Ali Vosoughi, Shijian Deng, Yapeng Tian, Chenliang Xu 视听声音分离场假定视频中的可见源,但这排除了摄像机视野之外的不可见声音。目前的方法很难处理这种缺乏可见线索的声音。本文介绍了一种新颖的视听场景感知分离 AVSA Sep 框架。它包括用于可见和不可见声音的语义解析器以及用于场景通知分离的分离器。 |
Experimental Results of Underwater Sound Speed Profile Inversion by Few-shot Multi-task Learning Authors Wei Huang, Fan Gao, Junting Wang, Hao Zhang 水下声速剖面SSP分布对声信号的传播方式影响很大,因此SSP的快速、准确估计对于构建水下观测系统具有重要意义。最先进的SSP反演方法包括匹配场处理MFP、压缩感知CS和前馈神经网络FNN的框架,其中FNN在保持相同精度水平的同时表现出更好的实时性能。然而,FNN的训练需要大量的历史SSP样本,这在许多海洋区域很难满足。这种情况称为少样本学习。为了解决这个问题,我们提出了一种多任务学习 MTL 模型,在不同的训练任务之间共享部分参数。通过MTL,可以提取共同特征,从而加速给定任务的学习过程,减少对参考样本的需求,从而增强少样本学习的泛化能力。为验证MTL的可行性和有效性,2023年4月在南海进行了深海实验。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com