【AI视野·今日Sound 声学论文速览 第二十九期】Thu, 19 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Thu, 19 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Take the aTrain. Introducing an Interface for the Accessible Transcription of Interviews
Authors Armin Haberl, J rgen Flei , Dominik Kowald, Stefan Thalmann
aTrain 是一款开源离线工具,用于在 CPU 和 NVIDIA GPU 支持下以多种语言转录音频数据。它是专门为研究人员设计的,使用从与研究参与者的各种形式的语音交互中生成的定性数据。 aTrain 不需要编程技能,可以在大多数计算机上运行,​​不需要互联网连接,并且经过验证不会将数据上传到任何服务器。 aTrain 将 OpenAI 的 Whisper 模型与说话人识别相结合,提供与流行的定性数据分析软件工具 MAXQDA 和 ATLAS.ti 集成的输出。它具有易于使用的图形界面,并通过 Microsoft Store 作为 Windows 应用程序提供,允许研究人员简单安装。源代码可在 GitHub 上免费获取。在开发了专注于本地计算机速度的 aTrain 后,我们发现当前移动 CPU 上的转录时间约为使用最高精度转录模型的音频文件持续时间的 2 到 3 倍。

BUT CHiME-7 system description
Authors Martin Karafi t, Karel Vesel , Igor Sz ke, Ladislav Mo ner, Karel Bene , Marcin Witkowski, Germ n Barchi, Leonardo Pepino
本文介绍了布尔诺理工大学 BUT、AGH 克拉科夫大学和布宜诺斯艾利斯大学为 CHiME 7 挑战赛开发自动语音识别系统的共同努力。我们使用多个工具包训练和评估各种端到端模型。我们严重依赖引导源分离 GSS 将多通道音频转换为单通道。 ASR 利用通过自监督学习预先训练的模型的语音表示,并且我们融合了多个 ASR 系统。此外,我们修改了 LibriSpeech 语料库中的外部数据,使其成为一个封闭域,并将其添加到训练中。

CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition
Authors Kari A Noriy, Xiaosong Yang, Marcin Budka, Jian Jun Zhang
本文提出了一种使用对比学习进行多语言语音和声音表示学习的新颖框架。缺乏大量标记数据集阻碍了跨语言的语音处理研究。对比学习的最新进展提供了从未标记数据中学习的自我监督技术。为了减少数据依赖性并提高不同语言和条件下的泛化能力,我们开发了一个多语言对比框架。

Physics-informed Neural Network for Acoustic Resonance Analysis
Authors Kazuya Yokota, Takahiko Kurahashi, Masajiro Abe
本研究提出了物理通知神经网络 PINN 框架来求解声共振分析的波动方程。 ResoNet是本研究提出的分析模型,除了传统的PINN损失函数之外,还最小化了周期解的损失函数,从而有效地利用神经网络的函数逼近能力,同时进行共振分析。此外,它可以很容易地应用于反问题。在此,分析一维声管中的共振。通过对带有能量损失项的波动方程的正逆分析验证了该方法的有效性。在正演分析中,通过与有限差分法的比较,评估了PINN对共振问题的适用性。

Blind estimation of audio effects using an auto-encoder approach and differentiable signal processing
Authors C me Peladeau, Geoffroy Peeters
音频效果的盲估计 BE AFX 旨在仅根据已处理的音频样本来估计应用于原始、未处理的音频样本的音频效果 AFX。为了训练这样的系统,传统方法会优化真实数据和估计的 AFX 参数之间的损失。这涉及了解该流程所使用的 AFX 的确切实现。在这项工作中,我们提出了一种替代解决方案,无需了解此实现。相反,我们引入了一种自动编码器方法,它可以优化音频质量指标。我们使用差分信号处理或神经近似来探索、建议和比较常用的母带 AFX 的各种实现。

EchoScan: Scanning Complex Indoor Geometries via Acoustic Echoes
Authors Inmo Yeon, Iljoo Jeong, Seungchul Lee, Jung Woo Choi
准确估计室内空间几何形状对于构建精确的数字孪生至关重要,其广泛的工业应用包括在陌生环境中进行导航和高效的疏散规划,特别是在弱光条件下。本研究介绍了 EchoScan,这是一种利用声学回声进行房间几何推断的深度神经网络模型。传统的基于声音的技术依赖于估计与几何相关的房间参数,例如墙壁位置和房间大小,从而限制了可推断的房间几何形状的多样性。相反,EchoScan 通过直接推断房间平面图和高度克服了这一限制,从而使其能够处理任意形状的房间,包括弯曲的墙壁。 EchoScan 的关键创新在于它能够使用多聚合模块分析房间脉冲响应 RIR 中低阶反射和高阶反射之间的复杂关系。当从音频设备的位置无法观察到回声时,高阶反射的分析还使其能够推断出复杂的房间形状。在此,EchoScan 使用从复杂环境(包括曼哈顿和亚特兰大布局)合成的 RIR 进行训练和评估,采用与商业现成设备兼容的实用音频设备配置。

Unintended Memorization in Large ASR Models, and How to Mitigate It
Authors Lun Wang, Om Thakkar, Rajiv Mathews
众所周知,神经网络可能会无意中记住其训练样本,从而引起隐私问题。然而,由于硬度校准等现有方法的计算成本较高,大型非自回归自动语音识别 ASR 模型中的审核记忆一直具有挑战性。在这项工作中,我们设计了一种简单的审核方法来测量大型 ASR 模型中的记忆力,而无需额外的计算开销。具体来说,我们加速随机生成的话语,以创建声音和文本信息之间的映射,而这很难从典型的训练示例中学习。因此,仅针对加速训练示例的准确预测可以作为记忆的明确证据,并且相应的准确性可以用于衡量记忆。使用所提出的方法,我们展示了最先进的 ASR 模型中的记忆能力。为了减轻记忆力,我们在训练期间尝试进行梯度裁剪,以限制任何单个示例对最终模型的影响。我们凭经验表明,裁剪每个示例的梯度可以减轻对训练集中最多 16 次重复的加速训练示例的记忆。

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation
Authors Yiyang Su, Ali Vosoughi, Shijian Deng, Yapeng Tian, Chenliang Xu
视听声音分离场假定视频中的可见源,但这排除了摄像机视野之外的不可见声音。目前的方法很难处理这种缺乏可见线索的声音。本文介绍了一种新颖的视听场景感知分离 AVSA Sep 框架。它包括用于可见和不可见声音的语义解析器以及用于场景通知分离的分离器。

Experimental Results of Underwater Sound Speed Profile Inversion by Few-shot Multi-task Learning
Authors Wei Huang, Fan Gao, Junting Wang, Hao Zhang
水下声速剖面SSP分布对声信号的传播方式影响很大,因此SSP的快速、准确估计对于构建水下观测系统具有重要意义。最先进的SSP反演方法包括匹配场处理MFP、压缩感知CS和前馈神经网络FNN的框架,其中FNN在保持相同精度水平的同时表现出更好的实时性能。然而,FNN的训练需要大量的历史SSP样本,这在许多海洋区域很难满足。这种情况称为少样本学习。为了解决这个问题,我们提出了一种多任务学习 MTL 模型,在不同的训练任务之间共享部分参数。通过MTL,可以提取共同特征,从而加速给定任务的学习过程,减少对参考样本的需求,从而增强少样本学习的泛化能力。为验证MTL的可行性和有效性,2023年4月在南海进行了深海实验。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/169157.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[C++] 类与对象(上)

☃️个人主页:fighting小泽 🌸作者简介:目前正在学习C和Linux 🌼博客专栏:C入门 🏵️欢迎关注:评论👊🏻点赞👍🏻留言💪🏻 …

设计模式篇---组合模式

文章目录 概念结构实例总结 概念 组合模式:组合多个对象形成树形结构以表示具有部分-整体关系的层次结构。组合模式让客户端可以统一对待单个对象和组合对象。 当我们开发中遇到树形结构的业务时,可以考虑使用组合模式。(我也没有想明白为啥…

前端如何直接上传文件夹

前面写了一篇仿写el-upload组件,彻底搞懂文件上传,实现了选择/拖拽文件上传,我们经常看到一些网站支持直接选择整个文件夹上传,例如:宝塔面板、cloudflare托管、对象存储网站等等需要模拟文件路径存储文件的场景。那是…

px4仿真实现无人机自主飞行

一,确定消息类型 无人机通过即在电脑是现自主飞行:思路如下。 通过Mavros功能包,将ROS消息转换为Mavlink消息。实现对无人机的控制。 几种消息之间的关系如下: 对于ROS数据,就是我们机载电脑执行ROS系统的数据。 对于Mavros消息,就是Mavros功能包内部的消息。查询网站…

leetcode:575. 分糖果(python3解法)

难度:简单 Alice 有 n 枚糖,其中第 i 枚糖的类型为 candyType[i] 。Alice 注意到她的体重正在增长,所以前去拜访了一位医生。 医生建议 Alice 要少摄入糖分,只吃掉她所有糖的 n / 2 即可(n 是一个偶数)。Al…

《数字图像处理-OpenCV/Python》连载(26)绘制椭圆和椭圆弧

《数字图像处理-OpenCV/Python》连载(26)绘制椭圆和椭圆弧 本书京东优惠购书链接:https://item.jd.com/14098452.html 本书CSDN独家连载专栏:https://blog.csdn.net/youcans/category_12418787.html 第 4 章 绘图与鼠标交互 本章…

同心创变,共赢未来 ▏易我科技2023年度“春种秋收”经营分析会圆满举行

2023年10月12日—10月13日,易我科技举行了2023年度管理层秋季团建暨“春种秋收”经营分析会,全体管理干部参加了本次活动。 01 本次团建活动的主题是“同心创变,共赢未来”,旨在通过一系列有趣而富有挑战性的团队活动&#xff0c…

计算机能转嵌入式吗?

计算机能转嵌入式吗?计算机和嵌入式不是一个范畴的,嵌入式是计算机的一个求职方向或者细分领域。你应该把他和Java放在一个层次上而不是跟整个计算机放在一个层次上。最近很多小伙伴找我,说想要一些嵌入式资料,然后我根据自己从业…

Node编写用户注册接口

目录 前言 创建服务器 编写注册接口API 创建路由对象,将路由对象导出去 将路由对象导出到服务器中 判断用户发起注册请求时是否输入账号或密码 验证表单数据 在数据库中创建表 在node中绑定mysql数据库 判断用户注册的账号密码是否已经被注册 密码加密 完…

水质分析仪器升级新功能

水质分析仪器:是一种适用于水质多参数测试的便携式仪器。它具有7英寸的触摸彩色屏幕,用户可以通过触摸屏幕进行操作和查看测试结果。 该仪器主要用于测定COD,氨氮,总磷,总氮等常规水质指标,pH值、溶解氧、…

CVer从0入门NLP(一)———词向量与RNN模型

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题 🍊专栏推荐:深度学习网络原理与实战 🍊近期目标:写好专栏的每一篇文章 🍊支持小苏:点赞👍🏼、…

rancher2.6.4配置管理k8s,docker安装

docker快速安装rancher并管理当前k8s集群。 1、拉镜像 docker pull rancher/rancher:v2.6.4 2、启动rancher 启动很慢 --privileged必须拥有root权限,并挂载卷 docker run --privileged -d --restartunless-stopped -p 80:80 -p 443:443 -v /usr/local/docker_vo…

模拟经营微信小游戏-休闲餐厅上线了

《休闲餐厅》是一款关于餐厅经营的小游戏,玩家可以在游戏中扮演餐厅老板,经营自己的休闲餐厅,收集美丽的厨娘,炒菜、做饭、卖钱、装饰餐厅,享受经营的乐趣。 在游戏中,玩家可以解锁几百种菜品,每…

【JS的设计模式一】

本文参考书籍 《JavaScript设计模式与开发实践》 在 JavaScript 编程中,this 关键字总是让人感到迷惑,Function.prototype.call 和 Function.prototype.apply 这两个方法也有着广泛的运用。我们有必要在学习设计模式之前先理解 这几个概念。 this Java…

百度Comate代码助手全新上线SaaS服务,助力企业释放10倍软件生产力!

“1024”程序员节来临之际,百度智能云宣布百度Comate智能代码助手正式上线SaaS版本,可提供10余项编码功能,适配100种开发语言,面向广大企业和开发者提供更便捷、更灵活的智能编码工具,助力企业提升研发效率。即日起企业…

python控制Windows桌面程序自动化模块uiautomation

github仓库地址:GitHub - yinkaisheng/Python-UIAutomation-for-Windows: (Donot use 3.7.6,3.8.1):snake:Python 3 wrapper of Microsoft UIAutomation. Support UIAutomation for MFC, WindowsForm, WPF, Modern UI(Metro UI), Qt, IE, Firefox, Chrome ... uiaut…

领域驱动设计:基于DDD的微服务设计实例

文章目录 项目基本信息战略设计战术设计后续的工作 用一个项目来了解 DDD 的战略设计和战术设计,走一遍从领域建模到微服务设计的全过程,一起掌握 DDD 的主要设计流程和关键 点。 项目基本信息 项目的目标是实现在线请假和考勤管理。功能描述如下&…

新材料制造业工厂MES系统解决方案

新材料是指具有优异性能和功能的材料,是国家战略性新兴产业的重要支撑。新材料涵盖了高性能结构材料、先进功能材料、生物医用材料、智能制造材料等多个领域,广泛应用于航空航天、电子信息、节能环保、生物医药等行业,对于提升国家综合实力和…

生成式AI革命对亚马逊的电商业务是威胁还是机遇?

来源:猛兽财经 作者:猛兽财经 总结: (1)当所有人都在关注生成式AI是如何威胁谷歌(GOOG)的搜索业务之际,投资界却忽视了一个事实,即:它也给亚马逊(AMZN)的电商业务带来了威胁。 &…

使用Selenium-PO设计模式提高Web自动化测试效率

PO(page object)设计模式是在自动化中已经流行起来的一种易于维护和减少代码的设计模式。在自动化测试中,PO对象作为一个与页面交互的接口。测试中需要与页面的UI进行交互时,便调用PO的方法。这样做的好处是,如果页面的…