【AI视野·今日Sound 声学论文速览 第四十三期】Mon, 8 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Mon, 8 Jan 2024
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

MusicAOG: an Energy-Based Model for Learning and Sampling a Hierarchical Representation of Symbolic Music
Authors Yikai Qian, Tianle Wang, Xinyi Tong, Xin Jin, Duo Xu, Bo Zheng, Tiezheng Ge, Feng Yu, Song Chun Zhu
在解决人工智能音乐智能的可解释性和泛化性的挑战时,本文引入了一种新颖的符号表示,它融合了不同传统和粒度的显性和隐性音乐信息。该模型利用分层和/或图形表示,采用节点和边来封装广泛的音乐元素,包括结构、纹理、节奏和和声。这种分层方法扩展了不同音阶音乐的可表现性。这种表示形式是基于能量的模型的基础,该模型专门针对通过依赖于极小最大熵原理的灵活算法框架来学习音乐概念而定制。该模型利用经过调整的 Metropolis Hastings 采样技术,可以对音乐生成进行细粒度控制。将这种新颖的方法与现有方法进行对比的全面实证评估表明,在可解释性和可控性方面取得了相当大的进步。

Gradient weighting for speaker verification in extremely low Signal-to-Noise Ratio
Authors Yi Ma, Kong Aik Lee, Ville Hautam ki, Meng Ge, Haizhou Li
说话人验证会受到背景噪声的阻碍,尤其是在信噪比 SNR 低于 0 dB 的情况下。在不引入不需要的伪影的情况下抑制噪声是很困难的,这会对说话者验证产生不利影响。我们提出了称为梯度加权 Grad W 的机制,它在预测过程中动态识别并减少伪影噪声。该机制基于梯度指示模型正在关注输入的哪些部分的属性。具体来说,当说话者网络关注去噪话语中的某个区域而不是干净的对应区域时,我们认为它是伪影噪声,并在增强优化期间为该区域分配更高的权重。我们通过训练增强模型并测试说话者验证的增强话语来验证它。

Towards Weakly Supervised Text-to-Audio Grounding
Authors Xuenan Xu, Ziyang Ma, Mengyue Wu, Kai Yu
文本到音频接地 TAG 任务旨在预测自然语言描述的声音事件的开始和偏移。该任务可以促进多模式信息检索等应用。本文重点关注弱监督文本到音频接地 WSTAG,其中声音事件的帧级注释不可用,并且只能利用整个音频剪辑的标题进行训练。 WSTAG 在对大型音频文本数据集的可扩展性方面优于强监督方法。本文研究了句子级别和短语级别的两个WSTAG框架。首先,我们分析了先前 WSTAG 方法中使用的均值池的局限性,并研究了不同池策略的效果。然后,我们提出短语级 WSTAG,以使用音频剪辑和短语之间的匹配标签进行训练。提出了先进的负采样策略和自监督来提高弱标签的准确性并提供伪强标签。实验结果表明,我们的系统明显优于之前的 WSTAG SOTA。最后,我们进行了大量的实验来分析几个因素对短语级别 WSTAG 的影响。

Siamese Residual Neural Network for Musical Shape Evaluation in Piano Performance Assessment
Authors Xiaoquan Li, Stephan Weiss, Yijun Yan, Yinhe Li, Jinchang Ren, John Soraghan, Ming Gong
理解和识别音乐形态在音乐教育和表演评估中起着重要作用。为了简化时间和成本密集的音乐形状评估,在本文中,我们探讨了如何应用人工智能驱动模型。将音乐形状评估视为分类问题,提出了轻量级连体残差神经网络 S ResNN 来自动识别音乐形状。为了在钢琴音乐形状评估的背景下评估所提出的方法,我们生成了一个新的数据集,其中包含由 147 次钢琴准备练习衍生的 4116 首音乐作品,并以 28 类音乐形状进行演奏。

A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model
Authors Dongdi Zhao, Jianbo Ma, Lu Lu, Jinke Li, Xuan Ji, Lei Zhu, Fuming Fang, Ming Liu, Feijun Jiang
远场语音识别是一项具有挑战性的任务,通常使用信号处理波束成形来解决噪声和干扰问题。但由于严重依赖环境假设,性能通常受到限制。在本文中,我们提出了一种统一的多通道远场语音识别系统,该系统结合了神经波束成形和基于变压器的听、拼写、出席 LAS 语音识别系统,将端到端语音识别系统进一步扩展到包括语音增强。然后联合训练这样的框架以优化最终的感兴趣目标。具体来说,采用因子复数线性投影 fCLP 来形成神经波束形成。然后比较几种结合观察方向的池化策略,以找到最佳方法。此外,波束成形中还集成了源方向的信息,以探索源方向作为先验的有用性,这通常在多模态场景中可用。对不同麦克风阵列几何形状进行实验,以评估麦克风阵列对间距变化的鲁棒性。

Some clues to build a sound analysis relevant to hearing
Authors Laurent Millot ACTE
音乐家或音响工程师在研究实验室中用于声音合成的分析工具可能相当不同。对这些工具的假设和局限性的讨论允许为所有声音演员提出尽可能相关和通用的第一个工具,其主要目标是必须能够聆听分析的每个元素,因为听力是最终参考工具。将来,该工具还应该用于在最近关于乐器建模、语音生成和扬声器设计的一些工作的基础上重新研究声音或声学的定义。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/235908.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode面试经典150题——50 快乐数

题目:快乐数 描述: 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变…

Element-ui图片懒加载

核心代码 <el-image src"https://img-blog.csdnimg.cn/direct/2236deb5c315474884599d90a85d761d.png" alt"我是图片" lazy><img slot"error" src"https://img-blog.csdnimg.cn/direct/81bf096a0dff4e5fa58e5f43fd44dcc6.png&quo…

【Redis】Redis面试热点

Redis 集群有哪些方案&#xff1f; 主从复制&#xff1a;解决了高并发问题 哨兵模式&#xff1a;解决了高并发&#xff0c;高可用问题 分片集群&#xff1a;解决了海量数据存储&#xff0c;高并发写的问题 主从复制 图示&#xff1a; 主从复制&#xff1a;单节点 Redis 并发…

2023 Gartner® 云数据库管理系统魔力象限发布 PingCAP 入选“荣誉提及”

近日&#xff0c;全球 IT 市场研究和咨询 公司 Gartner 发布最新报告《Magic Quadrant™ for Cloud Database Management Systems》&#xff08;云数据库管理系统魔力象限&#xff09;&#xff0c; 企业级开源分布式数据库厂商 PingCAP 入选“荣誉提及” 。前不久&#xff0c;P…

STL之list

目录 list定义和结构 list容器模板接受两个参数&#xff1a; list容器的特点 双向性 动态大小 不连续存储 实例 代码输出 需要注意的点 list常用函数 代码示例 list定义和结构 list的使用频率不高&#xff0c;在做题时极少遇到需要使用list的情景。 list是一种双向…

php多小区智慧物业管理系统源码带文字安装教程

多小区智慧物业管理系统源码带文字安装教程 运行环境 服务器宝塔面板 PHP 7.0 Mysql 5.5及以上版本 Linux Centos7以上 统计分析以小区为单位&#xff0c;统计如下数据&#xff1a;小区总栋数、小区总户数、小区总人数、 小区租户数量、小区每月收费金额统计、小区车位统计、小…

小程序系列--4.协同工作和发布

一、小程序成员管理 1. 成员管理的两个方面 2. 不同项目成员对应的权限 3. 开发者的权限说明 4. 添加项目成员和体验成员 二、小程序的版本 1、小程序的版本 三、发布上线 1. 小程序发布上线的整体步骤 一个小程序的发布上线&#xff0c;一般要经过上传代码 -> 提…

Unity中URP下深度图的线性转化

文章目录 前言一、_ZBufferParams参数有两组值二、LinearEyeDepth1、使用2、Unity源码推导&#xff1a;3、使用矩阵推导&#xff1a; 三、Linear01Depth1、使用2、Unity源码推导3、数学推导&#xff1a; 前言 在之前的文章中&#xff0c;我们实现了对深度图的使用。因为&#…

《射雕三部曲》人物关系可视化及问答系统

背景&#xff1a; 该项目旨在构建一个基于图数据库和知识图谱的《射雕三部曲》人物关系可视化及问答系统。通过分析小说中的人物关系&#xff0c;将其构建成图数据库&#xff0c;并结合问答系统和数据分析技术&#xff0c;提供用户可视化的人物关系展示和相关问题的回答。 介绍…

zookeeper下载安装部署

zookeeper是一个为分布式应用提供一致性服务的软件&#xff0c;它是开源的Hadoop项目的一个子项目&#xff0c;并根据google发表的一篇论文来实现的。zookeeper为分布式系统提供了高效且易于使用的协同服务&#xff0c;它可以为分布式应用提供相当多的服务&#xff0c;诸如统一…

docker部署mongo过程

1、拉取MongoDB镜像&#xff0c;这里拉取最新版本。 docker pull mongo2、运行容器 docker run -d --name mongo -p 27017:27017 \ -e MONGO_INITDB_ROOT_USERNAMEadmin \ -e MONGO_INITDB_ROOT_PASSWORD123456 \ mongo:latest --auth#由于 mongodb 默认情况下&#xff0c;…

寒假前端第一次作业

1、用户注册&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>用户注册</title> …

Flink异步IO

本文讲解 Flink 用于访问外部数据存储的异步 I/O API。对于不熟悉异步或者事件驱动编程的用户,建议先储备一些关于 Future 和事件驱动编程的知识。 本文代码gitee地址: https://gitee.com/ddxygq/BigDataTechnical/blob/main/Flink/src/main/java/operator/AsyncIODemo.java …

Java面试——框架篇

1、Spring框架中的单例bean是线程安全的吗&#xff1f; 所谓单例就是所有的请求都用一个对象来处理&#xff0c;而多例则指每个请求用一个新的对象来处理。 结论&#xff1a;线程不安全。 Spring框架中有一个Scope注解&#xff0c;默认的值就是singleton&#xff0c;单例的。一…

性能优化-OpenMP概述(一)-宏观全面理解OpenMP

本文旨在从宏观角度来介绍OpenMP的原理、编程模型、以及在各个领域的应用、使用、希望读者能够从本文整体上了解OpenMP。 &#x1f3ac;个人简介&#xff1a;一个全栈工程师的升级之路&#xff01; &#x1f4cb;个人专栏&#xff1a;高性能&#xff08;HPC&#xff09;开发基础…

多语言历史报纸广告事件抽取(ACL2023)

1、写作动机&#xff1a; 首先&#xff0c;获取大规模的、有注释的历史数据集是困难的&#xff0c;因为只有领域专家才能可靠地为它们打标签。其次&#xff0c;大多数现成的NLP模型是在现代语言文本上训练的&#xff0c;这使得它们在应用于历史语料库时效果显著降低。这对于研…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例3-4 CSS 立方体

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>CSS 立方体</title> <link href"CSS/style.css" rel"stylesheet" type"text/css"> <style> .box {width: 200px…

【Docker】快速入门之Docker的安装及使用

一、引言 1、什么是Docker Docker是一个开源的应用容器引擎&#xff0c;它让开发者可以将他们的应用及其依赖打包到一个可移植的镜像中&#xff0c;然后发布到任何流行的Linux或Windows操作系统的机器上&#xff0c;也可以实现虚拟化。容器是完全使用沙箱机制&#xff0c;相互之…

滚柱导轨精度等级是如何划分?

滚柱导轨的精度等级主要根据其表面精度、滑块与导轨表面的公差以及定位精度等性能指标来划分。根据不同的标准和应用需求&#xff0c;精度等级的划分存在一定的差异。 1、行走平行度&#xff1a;普通级&#xff08;无标注/C&#xff09;5μm&#xff0c;高级&#xff08;H&…

vue/vue3/js来动态修改我们的界面浏览器上面的文字和图标

前言&#xff1a; 整理vue/vue3项目中修改界面浏览器上面的文字和图标的方法。 效果&#xff1a; vue2/vue3: 默认修改 public/index.html index.html <!DOCTYPE html> <html lang"en"><head><link rel"icon" type"image/sv…