【AI视野·今日Sound 声学论文速览 第五十一期】Mon, 4 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Mon, 4 Mar 2024
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis
Authors Weiwei Lin, Chenhang He, Man Wai Mak, Jiachen Lian, Kong Aik Lee
实现对人类声音细致入微且准确的模拟一直是人工智能的长期目标。尽管近年来取得了重大进展,但语音合成模型的主流仍然依赖于有监督的说话人建模和显式参考话语。然而,人类声音的很多方面,如情感、语调、说话风格等,很难获得准确的标签。在本文中,我们提出了 VoxGenesis,一种新颖的无监督语音合成框架,可以在没有监督的情况下发现潜在的说话人流形和有意义的语音编辑方向。 VoxGenesis 在概念上很简单。 VoxGenesis 不是将语音特征确定性地映射到波形,而是将高斯分布转换为由语义标记调节和对齐的语音分布。这迫使模型学习与语义内容分离的说话人分布。在推理过程中,从高斯分布中采样可以创建具有独特特征的新颖扬声器。更重要的是,对潜在空间的探索揭示了与特定说话者特征(例如性别属性、音调、语气和情感)相关的人类可解释的方向,允许通过沿着这些识别的方向操纵潜在代码来进行语音编辑。我们进行了大量的实验,使用主观和客观指标来评估所提出的 VoxGenesis,发现它比以前的方法产生了更加多样化和现实的、具有独特特征的扬声器。我们还表明,潜在空间操纵会产生一致的、人类可识别的效果,并且不会损害语音质量,这是以前的方法不可能实现的。

The Impact of Frequency Bands on Acoustic Anomaly Detection of Machines using Deep Learning Based Model
Authors Tin Nguyen, Lam Pham, Phat Lam, Dat Ngo, Hieu Tang, Alexander Schindler
在本文中,我们提出了一种基于深度学习的机器声学异常检测模型,即通过分析机器声音来检测异常机器的任务。通过大量的实验,我们表明以特征工程为主的伪音频、音频分段、数据增强、马哈拉诺比斯距离和窄频带等多种技术可以有效提高系统性能。在评估技术中,窄频带具有显着的影响。事实上,我们提出的模型专注于窄频带,在 DCASE 2022 任务 2 开发集的基准数据集上优于 DCASE 基线。

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview
Authors Heyang Liu, Yu Wang, Yanfeng Wang
端到端 E2E 方法正在逐渐取代自动语音识别 ASR 任务的混合模型。然而,E2E模型的优化缺乏直观的方法来处理解码移位,特别是在具有大量具有特定重要含义的特定领域稀有词的场景中。此外,学术界缺乏知识密集型语音数据集一直是一个重要的限制因素,常用的语音语料库与现实对话表现出显着差异。为了应对这些挑战,我们提出了 Medical Interview MED IT,这是一个多轮咨询语音数据集,其中包含大量知识密集型命名实体。我们还探索了增强端到端模型稀有词识别性能的方法。我们提出了一种新颖的方法,即解码器后偏置,它根据训练转录的分布构建变换概率矩阵。这引导模型优先识别偏差列表中的单词。

Efficient Adapter Tuning of Pre-trained Speech Models for Automatic Speaker Verification
Authors Mufan Sang, John H.L. Hansen
凭借出色的泛化能力,自监督语音模型在预训练和微调范式中的各种下游语音任务中表现出了令人印象深刻的性能。然而,随着预训练模型规模的不断增大,由于大量的计算和存储开销以及过度拟合的风险,微调实际上变得不可行。适配器是插入预先训练的模型中的轻量级模块,以促进参数高效适应。在本文中,我们提出了一种有效的适配器框架,旨在使自监督语音模型适应说话人验证任务。通过并行适配器设计,我们提出的框架将两种类型的适配器插入到预先训练的模型中,从而允许调整中间 Transformer 层中的潜在特征和所有 Transformer 层的输出嵌入。我们进行了全面的实验来验证所提出框架的效率和有效性。

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
Authors Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan
听者头部生成旨在通过对说话者和听者之间动态转换的相关性进行建模来合成非语言响应的听者头部。听者代理生成在虚拟交互中的应用推动了许多实现多样化和细粒度运动生成的工作。然而,他们只能通过简单的情感标签来操纵动作,而无法自由地控制听者的动作。由于侦听器代理应该具有类似人类的属性,例如用户可以自由定制身份、个性,这限制了它们的真实性。在本文中,我们提出了一个名为 CustomListener 的用户友好框架,以实现自由格式文本优先引导侦听器生成。为了实现说话者听众的协调,我们设计了一个静态到动态肖像模块SDP,它与说话者信息交互,将静态文本转换为具有完成节奏和幅度信息的动态肖像标记。为了实现片段之间的连贯性,我们设计了过去引导生成模块PGG,通过运动先验保持定制听众属性的一致性,并利用基于肖像标记和运动先验的扩散结构来实现可控生成。为了训练和评估我们的模型,我们构建了两个基于 ViCo 和 RealTalk 的文本注释听力头数据集,它们提供文本视频配对标签。

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART
Authors Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
这项研究解决了用最少的数据训练个性化语音 ASR 模型的挑战。我们仅利用 YouTube 视频中 14 分钟的自定义音频,采用基于检索的语音转换 RVC 来创建自定义 Common Voice 16.0 语料库。随后,跨语言自监督表示 XLSR Wav2Vec2 模型在此数据集上进行了微调。开发的基于 Web 的 GUI 可以有效地转录和翻译输入的印地语视频。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/269467.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion——Animate Diff一键AI图像转视频

前言 AnimateDiff 是一个实用框架,可以对文本生成图像模型进行动画处理,无需进行特定模型调整,即可为大多数现有的个性化文本转图像模型提供动画化能力。而Animatediff 已更新至 2.0 版本和3.0两个版本,相较于 1.0 版本&#xff…

【学位论文】上海交通大学 研究生学位论文 本地保存

上海交大研究生学位论文网:http://thesis.lib.sjtu.edu.cn/ (只能校内访问或SJTU VPN访问) 如果希望下载论文,需要参考:https://github.com/olixu/SJTU_Thesis_Crawler 安装过程 安装过程的几个坑: &a…

RabbitMQ-TTL/死信队列/延迟队列高级特性

文章目录 TTL死信队列消息成为死信的三种情况队列如何绑定死信交换机 延迟队列RabbitMQ如何实现延迟队列 总结来源B站黑马程序员 TTL TTLTTL(Time To Live):存活时间/过期时间当信息到达存活时间后,还没有被消费,会被自动清除。RabbitMQ可以对消息设置过…

vue修改打包后静态资源路径的修改

不得不说,ai是真的强大,直接自己生成。

【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制

本系列文章跟随《MetaGPT多智能体课程》(https://github.com/datawhalechina/hugging-multi-agent),深入理解并实践多智能体系统的开发。 本文为该课程的第四章(多智能体开发)的第一篇笔记。主要记录下多智能体的运行…

[Flutter get_cli] 配置 sub_folder:false报错

flutter get_cli 配置 get_cli:sub_folder:false报错如下 Because getx_cli_learn01 depends on get_cli from unknown source "sub_folder", version solving failed. 原因是在 pubspec.yaml文件中, get_cli:sub_folder:false要和 dependencies: xxx dev_depe…

HTML---表单验证

文章目录 目录 本章目标 一.表单验证概述 二.表单选择器 属性过滤选择器 三.表单验证 表单验证的方法 总结 本章目标 掌握String对象的用法会使用表单选择器的选择页面元素会使用JQuery事件进行表单验证Ajax的概念和作用 一.表单验证概述 前端中的表单验证是在用户提交表…

vs2022 qt 关于lnk2001和2019同时报错的问题

需要像qt中添加模块,这里,缺少qtopenglwidgets模块

Discuz IIS上传附件大于28M失败报错Upload Failed.修改maxAllowedContentLength(图文教程)

下图:Discuz X3.5的系统信息,上传许可为1024MB(1GB) 论坛为局域网论坛,仅供内部同事交流使用! 使用官方最新的Discuz! X3.5 Release 20231221 UTF-8 下图:选择上传附件(提示可以最大上传100M)…

01. Nginx入门-Nginx简介

Web基础知识 Web协议通信原理 Web协议通信过程 浏览器本身是一个客户端,当输入URL后,首先浏览器会请求DNS服务器,通过DNS获取相应的域名对应的IP。通过IP地址找到对应的服务器后,监理TCP连接。等浏览器发送完HTTP Request&…

掘根宝典之C语言字符串输入函数(gets(),fgets(),get_s())

字符串输入前的注意事项 如果想把一个字符串读入程序,首先必须预留该字符串的空间,然后用输入函数获取该字符串 这意味着必须要为字符串分配足够的空间。 不要指望计算机在读取字符串时顺便计算它的长度,然后再分配空间(计算机不会这样做&a…

#QT(网络编程-UDP)

1.IDE:QTCreator 2.实验:UDP 不分客户端和服务端 3.记录 (1)做一个UI界面 (2)编写open按钮代码进行测试(用网络调试助手测试) (3)完善其他功能测试 4.代码 …

Git 远程仓库之Github

目前我们使用到的 Git 命令都是在本地执行,如果你想通过 Git 分享你的代码或者与其他开发人员合作。 你就需要将数据放到一台其他开发人员能够连接的服务器上。 目前最出名的代码托管平台是Github,我们将使用了 Github 作为远程仓库。 添加远程库 要添…

【Python】进阶学习:__len__()方法的使用介绍

【Python】进阶学习:__len__()方法的使用介绍 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订…

209.长度最小的子数组

给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,返回 0 。 第一次写,越界了 in…

链式插补 (MICE):弥合不完整数据分析的差距

导 读 数据缺失可能会扭曲结果,降低统计功效,并且在某些情况下,导致估计有偏差,从而破坏从数据中得出的结论的可靠性。 处理缺失数据的传统方法(例如剔除或均值插补)通常会引入自己的偏差或无法充分利用数…

MySQL王国:从基础到高级的完整指南【文末送书-28】

文章目录 MySQL从入门到精通第一部分:MySQL基础第二部分:MySQL进阶第三部分:MySQL高级应用 MySQL从入门到精通(第3版)(软件开发视频大讲堂)【文末送书-28】 MySQL从入门到精通 MySQL是一种开源…

Linux中汇编语言的学习(加法、乘法、除法、左移、右移、按位与等多种命令操作实例以及ARM的 N、Z、C、V 标志位的解释)

汇编概述 汇编需要学习的大致框架如下: 汇编中的符号 1.指令;能够北嘁肷梢惶?2bit机器码,并且能够被cpui识别和执行 2.伪指令:本身不是指令,编译器可以将其替换成若干条指令 3.伪操作:不会生成指令…

技术指标的买入形态之均线形成多头排列

一、技术特征 1、在股价横盘整理过程中,其短期均线、中期均线持续纠缠在一起。 2、整理一段时间后,短期均线向上突破了中期均线,中期均线也向上突破了长期均线。 均线多头排列是股价处于上涨行情中的信号。 二、买点描述 当均线的多头排列…

tomcat nginx 动静分离

实验目的:当访问静态资源的时候,nginx自己处理 当访问动态资源的时候,转给tomcat处理 第一步 关闭防火墙 关闭防护 代理服务器操作: 用yum安装nginx tomcat (centos 3)下载 跟tomcat(centos 4&#xff0…