【AI视野·今日Sound 声学论文速览 第二十六期】Mon, 16 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 16 Oct 2023
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Low-latency Speech Enhancement via Speech Token Generation
Authors Huaying Xue, Xiulian Peng, Yan Lu
现有的基于深度学习的语音增强主要采用数据驱动的方法,利用大量具有各种噪声类型的数据来实现从噪声信号中去除噪声。然而,对数据的高度依赖性限制了其对现实生活环境中看不见的复杂噪声的泛化。在本文中,我们关注低延迟场景,并将语音增强视为以噪声信号为条件的语音生成问题,我们生成干净的语音,而不是识别和消除噪声。具体来说,我们提出了一种用于语音增强的条件生成框架,该框架通过神经语音编解码器的声学代码对干净的语音进行建模,并以自回归的方式生成以过去的噪声帧为条件的语音代码。此外,我们提出了一种显式对齐方法,将噪声帧与生成的语音标记对齐,以提高不同输入长度的鲁棒性和可扩展性。与其他利用多级生成语音代码的方法不同,我们利用基于 TF Codec 神经编解码器的单级语音生成方法来实现低延迟的高语音质量。

Transformer-based Autoencoder with ID Constraint for Unsupervised Anomalous Sound Detection
Authors Jian Guan, Youde Liu, Qiuqiang Kong, Feiyang Xiao, Qiaoxi Zhu, Jiantong Tian, Wenwu Wang
无监督异常声音检测 ASD 旨在在只有正常声音数据的情况下检测设备的未知异常声音。基于自动编码器AE和自监督学习的方法是两种主流方法。然而,基于 AE 的方法可能受到限制,因为从正常声音中学习的特征也可以适合异常声音,从而降低了模型从声音中检测异常的能力。自监督方法并不总是稳定并且表现不同,即使对于相同类型的机器也是如此。此外,异常声音可能持续时间很短,使其更难以与正常声音区分开。本文提出了一种基于 ID 约束 Transformer 的自动编码器 IDC TransAE 架构,具有针对无监督 ASD 的加权异常分数计算。采用机器ID来约束基于Transformer的自动编码器TransAE的潜在空间,通过引入简单的ID分类器来学习相同机器类型的分布差异,并增强模型区分异常声音的能力。此外,引入加权异常分数计算来突出仅出现时间较短的异常事件的异常分数。

Differential Evolution Algorithm based Hyper-Parameters Selection of Convolutional Neural Network for Speech Command Recognition
Authors Sandipan Dhar, Anuvab Sen, Aritra Bandyopadhyay, Nanda Dulal Jana, Arjun Ghosh, Zahra Sarayloo
语音命令识别 SCR 负责识别简短的语音命令,对于包括物联网设备和辅助技术在内的各种应用至关重要。尽管卷积神经网络 CNN 在 SCR 任务中展现出了良好的前景,但其功效在很大程度上依赖于超参数选择,而手动完成时通常既费力又耗时。本文介绍了一种基于差分进化 DE 算法的 CNN 超参数选择方法,旨在提高 SCR 任务的性能。使用 Google Speech Command GSC 数据集进行训练和测试,所提出的方法显示了对语音命令进行分类的有效性。

Learning to Behave Like Clean Speech: Dual-Branch Knowledge Distillation for Noise-Robust Fake Audio Detection
Authors Cunhang Fan, Mingming Ding, Jianhua Tao, Ruibo Fu, Jiangyan Yi, Zhengqi Wen, Zhao Lv
大多数虚假音频检测 FAD 的研究都集中于提高标准无噪声数据集的性能。然而,在实际情况中,通常存在噪声干扰,这会导致FAD系统的性能显着下降。为了提高噪声鲁棒性,我们提出了一种双分支知识蒸馏假音频检测 DKDFAD 方法。具体来说,设计了干净教师分支和噪声学生分支的并行数据流,并提出了基于交互融合和响应的师生范式,从数据分布和决策角度指导噪声数据的训练。在噪声分支中,首先引入语音增强进行去噪,减少强噪声的干扰。所提出的交互式融合结合了去噪特征和噪声特征,以减少语音失真的影响并寻求与干净分支的数据分布的一致性。师生范式将学生的决策空间映射到教师的决策空间,使嘈杂的语音表现得干净。此外,还采用联合训练方法对两个分支进行优化,以实现全局最优。

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models
Authors Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
音频的一个基本特征是它的组合性质。使用对比方法训练的音频语言模型 ALM,例如学习音频和语言模态之间共享表示的 CLAP,提高了许多下游应用的性能,包括零样本音频分类、音频检索等。然而,这些模型有效地执行组合推理在很大程度上仍未被探索,需要进行额外的研究。在本文中,我们提出了 CompA,这是两个专家注释基准的集合,其中包含大多数现实世界的音频样本,用于评估 ALM 中的组合推理。我们提出的 CompA 顺序评估 ALM 对音频中声学事件的顺序或发生的理解程度,CompA 属性评估声学事件的属性绑定。任一基准测试的实例都包含两个音频字幕对,其中两个音频具有相同的声学事件,但成分不同。 ALM 根据正确音频与正确字幕的匹配程度进行评估。使用这个基准,我们首先表明当前的 ALM 的性能仅比随机机会好一点,因此在组合推理方面遇到了困难。接下来,我们提出 CompA CLAP,其中我们使用一种新颖的学习方法对 CLAP 进行微调,以提高其组合推理能力。为了训练 CompA CLAP,我们首先提出对具有构图感知硬底片的对比训练进行改进,从而实现更有针对性的训练。接下来,我们提出了一种新颖的模块化对比损失,可以帮助模型学习细粒度的作曲理解,并克服公开可用的作曲音频的严重稀缺性。

Toward Joint Language Modeling for Speech Units and Text
Authors Ju Chieh Chou, Chung Ming Chien, Wei Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
语音和文本是人类语言的两种主要形式。多年来,研究界一直致力于将语音映射到文本,反之亦然。然而,在语言建模领域,很少有人对它们进行联合建模。鉴于此,我们探索语音单元和文本的联合语言建模。具体来说,我们比较不同的语音标记器将连续语音信号转换为离散单元,并使用不同的方法构建混合语音文本数据。我们引入自动指标来评估联合 LM 混合语音和文本的效果。我们还对具有不同模态语音或文本的下游口语理解 SLU 任务的 LM 进行微调,并测试其性能以评估模型对共享表示的学习。

End-to-end Online Speaker Diarization with Target Speaker Tracking
Authors Weiqing Wang, Ming Li
本文提出了一种用于说话人二值化任务的在线目标说话者语音活动检测系统,该系统不需要基于聚类的二值化系统的先验知识来获得目标说话者嵌入。通过采用传统的目标说话者语音活动检测进行实时操作,该框架可以使用自生成的嵌入来识别说话者活动,从而在推理阶段获得一致的性能,而不会出现排列不一致的情况。在推理过程中,我们采用前端模型来提取每个即将到来的信号块的帧级说话人嵌入。接下来,我们根据这些帧级说话人嵌入和先前估计的目标说话人嵌入来预测每个说话人的检测状态。然后,根据当前块中的预测聚合这些帧级说话人嵌入来更新目标说话人嵌入。我们的模型预测每个块的结果并更新目标扬声器嵌入,直到到达信号末尾。实验结果表明,该方法在 DIHARD III 和 AliMeeting 数据集上优于基于离线聚类的二值化系统。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/162736.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字孪生技术在智慧城市应用的推进建议

(一)坚持需求牵引,强场景重实效 必须始终坚持以人为本、场景导向、需求牵引,站在供给侧结构性改革的角度,突出以用促建,强调建用并重,真正发挥数字孪生城市应用建设的实效。从构建数字孪生创新…

分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

目录 分布式内存计算Spark环境部署 1. 简介 2. 安装 2.1【node1执行】下载并解压 2.2【node1执行】修改配置文件名称 2.3【node1执行】修改配置文件,spark-env.sh 2.4 【node1执行】修改配置文件,slaves 2.5【node1执行】分发 2.6【node2、no…

Linux知识点 -- 高级IO(二)

Linux知识点 – 高级IO(二) 文章目录 Linux知识点 -- 高级IO(二)一、IO多路转接 -- poll1.poll接口2.poll实现3.poll优缺点 二、IO多路转接 -- epoll1.epoll接口2.epoll的工作原理3.epoll服务器实现4.epoll的优点5.epoll的工作模式…

Django REST Framework完整教程-认证与权限-JWT的使用

文章目录 1.认证(Authentication)与权限(Permission)1.1.视图添加权限1.2.登录验证1.3.常用DRF自带权限类1.4.自定义权限类1.5.全局权限1.6.函数视图权限 2.认证详解2.1.认证方案2.2.如何使用TokenAuthentication? 3.JSON Web Token(JWT)认证3.1.工作原理3.2.安装3.…

Java学习笔记(四)——程序控制结构

一、顺序控制 二、分支控制 (一)单分支 (二)双分支 (三)多分支 (四)嵌套分支 (五)switch分支结构 (六)if和switch的选择 三、循…

Megatron-LM GPT 源码分析(一) Tensor Parallel分析

引用 本文基于开源代码 https://github.com/NVIDIA/Megatron-LM ,通过GPT的模型运行示例,从三个维度 - 模型结构、代码运行、代码逻辑说明 对其源码做深入的分析。 Tensor Parallel源码分析

uniapp(uncloud) 使用生态开发接口详情4(wangeditor 富文本, 云对象, postman 网络请求)

wangeditor 官网: https://www.wangeditor.com/v4/pages/01-%E5%BC%80%E5%A7%8B%E4%BD%BF%E7%94%A8/01-%E5%9F%BA%E6%9C%AC%E4%BD%BF%E7%94%A8.html 这里用vue2版本,用wangeditor 4 终端命令: npm i wangeditor --save 开始使用 在项目pages > sy_news > add.vue 页面中…

免密码方式获取Hive元数据

前言 开发中可能用到hive的元数据信息 ,如获取hive表列表、hive表字段、hive表数据量大小、hive表文件大小等信息,要想获取hive元数据信息即需要hive元数据库的账号及密码,此次提供的是一种不需要hive元数据库密码及可获取元数据信息的方式,且此种方式是只读 组件:hive …

程序员必备的IP查询工具

shigen坚持日更的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。坚持记录和分享从业两年以来的技术积累和思考,不断沉淀和成长。 hello,今天shigen给大家分享一下如何优雅的查询IP的工具。我们先看一下效果&a…

CSS的美化(文字、背景) Day02

一、文字控制属性 分为:字体样式属性 、文本样式属性 1.1 CSS字体样式属性 1.color定义元素内文字颜色2.font-size 字号大小3 font-family 字体4 font-weight 字体粗细5.font-style 字体风格6.font 字体综合属性 1.1.1 > 文字颜色 color 属性名: color color …

序列化和反序列化指令在PLC通信上的应用

在了解本篇博客之前,大家可以熟悉下序列化指令的相关介绍,详细内容如下: 博途PLC 1200/1500 PLC 序列化和反序列化指令编程应用_博图序列化和反序列化-CSDN博客序列化最重要的作用:在传递和保存对象时.保证对象的完整性和可传递性。对象转换为有序字节流,以便在网络上传输…

在 Python 脚本中设置环境变量

环境变量是与系统进程交互的一种深入方式; 它允许用户获得有关系统属性、路径和已经存在的变量的更详细信息。 我们如何使用环境变量 如上所述,环境变量促使我们与系统进程进行交互。 我们可以使用环境变量来访问系统中的所有变量和键。 为此&#xff…

6 个可解锁部分 GPT-4 功能的 Chrome 扩展(无需支付 ChatGPT Plus 费用)

在过去的几个月里,我广泛探索了 ChatGPT 的所有可用插件。在此期间,我发现了一些令人惊叹的插件,它们改进了我使用 ChatGPT 的方式,但现在,我将透露一些您需要了解的内容。 借助 Chrome 扩展程序,所有 Chat…

Windows:VS Code IDE安装ESP-IDF【保姆级】

物联网开发学习笔记——目录索引 Visual Studio Code(简称“VS Code”)是Microsoft向开发者们提供的一款真正的跨平台编辑器。 参考: VS Code官网:Visual Studio Code - Code Editing. Redefined 乐鑫官网:ESP-IDF…

分类算法-逻辑回归与二分类

1、逻辑回归的应用场景 广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。 2、 逻辑回归的原理 2.1 输入 逻辑回归的输入就是一个线性…

python二次开发CATIA:CATIA Automation

CATIA 软件中有一套逻辑与关系都十分严谨的自动化对象,它们从CATIA(Application)向下分支。每个自动化对象(Automation Object,以下简称Object)都有各自的属性与方法。我们通过程序语言调用这些 Object 的属性与方法,便…

C语言 内存

内存分配 内存分配的类型 C/C中内存分为5个区,分别为栈区、堆区、全局/静态存储区、常量存储区、代码区 静态内存分配:编译时分配,包括全局、静态全局、静态局部三种变量。 动态内存分配:运行时分配,包括栈&#x…

SVM支持向量机

定义 支持向量机(SVM),Supported Vector Machine,基于线性划分,输出一个最优化的分隔超平面,该超平面不但能将两类正确分开,且使分类间隔(margin)最大 **所有训练数据点距离最优分类超平面的距离都要大于支持向量距离…

【docker】查看容器日志

目录 一.通过查找宿主机日志路径,通过Linux命令查看即可。 1.1 查看容器日志路径 1.2 按照日志路径检索日志 二、通过docker命令检索日志 2.1 查看指定时间后的日志,只显示最后20行 2.2 查看最近10分钟的日志 2.3 查看某时间段之后的日志 2.4 查…