TPAMI:计算机学会像人脑一样“听话”了!清华团队实现混合语音分离技术突破

我们的大脑在处理声音信息时有一个特长:可以将注意力集中在感兴趣的对话或声音上,忽略其它无关的声音或者噪音。我们每天都在不知不觉地运用这种特长,在通勤的地铁上、嘈杂的餐厅里,广播声、音乐声、多人同时说话的声音,都不会妨碍你与同伴进行交流。早在70多年前,神经科学家就注意到大脑的这种神奇能力,并将其称为“鸡尾酒会效应”。

尽管我们可以轻松地在混合的声音中识别特定的目标声音,计算机要做到这一点却非常困难。在人工智能(AI)领域,要设计出与人类一样强大的语音分离系统是巨大挑战。

日前,来自清华大学的神经科学家和计算机科学家联手,基于哺乳动物丘脑和皮层整合多模态感觉信息的工作原理,构建了一款新的脑启发AI模型(CTCNet),实现了混合语音分离技术突破,让计算机进一步学会像人脑一样“听话”。

▲在两人同时说话的场景中,红框指示了计算机的目标人物,试图从混合语音中将其语音分离出来,迄今为止的其他方法仍无法使计算机有效分离两个人的声音,尤其是在我们看来非常简单的、对话内容单调的场景中(视频2)。使用了CTCNet的计算机系统成功地只“听到”红框中的目标声音(视频来源:研究团队提供)

该研究的负责人之一、神经科学家、清华大学脑与智能实验室兼职研究员、清华大学生物医学工程学院的苑克鑫教授指出:“新模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。”

研究者介绍,现有的多模态语音分离方法大多只是模拟了哺乳动物的皮层通路,即从较低功能区域(例如初级视觉、听觉皮层区)到较高功能区域(例如高级视觉、听觉皮层区),然而实际上,听觉、视觉的信息整合中,以丘脑为代表的皮层下结构发挥了不可忽视的重要作用。

苑克鑫教授团队长期聚焦于脑的听觉处理机制,近年来的一系列工作逐渐揭示了高级听觉丘脑的联接、功能与工作机制。高级听觉丘脑作为处理听觉信息的关键中枢节点,具有听觉、视觉双模态的特性。其腹内侧在介导听觉、视觉刺激触发的危险感知中发挥关键作用(Neuron 2023;J. Neurosci. 2024;Featured Articles);其背侧既接收来自听觉皮层第5层的投射,也接收来自视觉皮层第5层的投射,且在整体上形成了皮层-丘脑-皮层(Cortico-thalamo-cortical,CTC)循环联接架构(Cereb. Cortex 2018a,2018b,2019)。这些工作提示,高级听觉丘脑可能通过特殊的联接模式整合听觉、视觉信息从而增强听觉感知。

在背侧高级听觉丘脑联接特点的启发下,苑克鑫团队与清华大学计算机系胡晓林团队合作提出了一种皮层-丘脑-皮层神经网络(CTCNet)来执行音频-视觉语音分离任务。

在这里插入图片描述

▲高级听觉丘脑-皮层联接模式启发视觉辅助的语音分离模型(CTCNet)(图片来源:研究团队提供)

CTCNet模型包括三个模块——听觉子网络、视觉子网络和听-视融合子网络,分别模拟了听觉皮层、视觉皮层和背侧高级听觉丘脑。其基本工作原理为:首先,听觉信息(语音)和视觉信息(唇部运动)以自下而上的方式分别在独立的听觉和视觉子网络中处理;然后,经过处理的听觉和视觉信息通过自上而下的连接在听-视融合子网络中进行多时间分辨率尺度的融合;最后,融合后的信息被回传至听觉和视觉子网络。上述过程会重复数次,最终输出至听觉子网络。

在三个语音分离基准数据集上的测试结果显示,在参数极少的情况下,CTCNet能在视觉信息(唇部运动)的辅助下,高度准确地将混合在一起的语音分离开来。

研究团队总结说,语音分离模型CTCNet是基于高级听觉丘脑的视、听融合能力及其皮层-丘脑-皮层循环联接架构构建的脑启发AI模型。通过多次融合和循环处理听觉和视觉信息,使AI能够更好地实现“鸡尾酒会效应”。目前,这一创新性学科交叉研究成果于2024年4月5日线上发表于人工智能、模式识别和计算机视觉领域的顶级国际期刊Transactions on Pattern Analysis and Machine Intelligence(TPAMI)。

胡晓林团队硕士生李凯为该论文第一作者,苑克鑫团队博士后谢凤华和胡晓林团队博士生陈航为该论文第二和第三作者,苑克鑫和胡晓林为该论文共同通讯作者,他们均为清华大学脑与智能实验室、清华大学麦戈文脑研究院和清华大学类脑研究中心兼职研究员。该研究得到了国家自然科学基金、科技部经费的大力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/299010.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis中的持久化

持久化 .RDB手动触发save命令bgsave命令 自动触发bgsave的具体流程RDB的处理保存压缩校验 RDB的优缺点 AOF命令写入文件同步重写机制启动时恢复数据 本章重点回顾 . RDB RDB持久化是把当前进程数据生成快照保存到硬盘的过程,触发RDB持久化过程分为手动触发和自动触发 手动触发…

【Java+Springboot】----- 通过Idea快速创建SpringBoot项目操作方法

一、第一步: 点击选择【File】->【New】-> 【Project】 最后弹出[new Project]界面。 二、第二步: 1. 选择【Spring Initializr】 2. 然后选择【Project SDK】的版本 3. 然后 Choose Initializr Service URL 选择默认(Default&#x…

JAVA8 新特性StreamAPI使用(二)

一、使用StreamAPI,(基于数据模型——客户、订单和商品,实体关系图如下,客户可以有多个订单,是一对多的关系,而产品和订单的关系是多对多的)需求如下: 二、Stream API思维导图 三、需…

【Java EE】SpringBoot的创建与简单使用

文章目录 🍀环境准备🌳Maven🌲SpringBoot是什么🎄Spring Boot 项目创建🌸使用Idea创建🌸创建SpringBoot项⽬🌸SpringBoot项目的运行 ⭕总结 🍀环境准备 如果你的IDEA是专业版&#…

六、从零实战企业级K8S本地部署ThingsBoard专业版集群

1、从 docker hub 拉取 ThingsBoard PE 映像(所有节点) 1.1、查看k8s信息(主节点) kubectl cluster-info #查看k8s集群信息 kubectl get node #查看节点信息 kubectl get pod -A #查看内部组件1.2、从 docker hub 拉取 ThingsBoard PE 映像(所有…

SYS-2722音频分析仪SYS2722

181/2461/8938产品概述: Audio Precision 2722 音频分析仪是 Audio Precision 屡获殊荣的 PC 控制音频分析仪的旗舰型号,长期以来一直是音频设备设计和测试的全球公认标准。功能齐全的 SYS-2722 提供了测试转换器技术最新进展所需的无与伦比的失真和噪声…

Linux云计算之网络基础9——园区网络架构项目

要求构建大型园区网络架构,方案如下: 园区A 园区c 公司B 要求: 1、A公司园区网络 一台汇聚层三层交换机,两台接入层二层交换机。 出口有一台路由器。 2、A园区有五台服务器。 分别为两台 WEB 服务器,…

专注项目管理的Mac工具 - Project Office Pro 最新版

Project Office Pro for Mac是一款功能强大的项目管理软件,旨在帮助用户更好地管理和跟踪项目进展,提高工作效率和质量。以下是该软件的主要功能介绍: 项目创建与编辑:用户可以根据自己的需求自定义项目计划,包括设置…

C#手术麻醉信息系统源码,技术框架:Vue,Ant-Design+百小僧开源框架

C#手术麻醉信息系统源码,技术框架:Vue,Ant-Design百小僧开源框架 手术麻醉系统主要用于在手术过程中监测和控制患者的状态,确保手术的顺利进行并保障患者的生命安全。该系统通过一系列先进的医疗设备和技术,为手术患者…

玩机进阶教程-----高通9008线刷XML脚本修改备份 檫除的操作步骤解析

在高通9008官方固件中我们可以看到刷写需要的脚本rawprogram0.xml和辅助脚本patch0.xml,脚本的作用在于将固件内各个分区对应写入手机内。根据分区地址段。然后判断脚本中那些分区不写入。以下步骤将分析emmc字库为例来讲解如何将默认刷入脚本修改为备份 檫除脚本。…

C++——栈和队列容器

前言:这篇文章我们将栈和队列两个容器放在一起进行分享,因为这两个要分享的知识较少,而且两者在结构上有很多相似之处,比如栈只能在栈顶操作,队列只能在队头和队尾操作。 不同于前边所分享的三种容器,这篇…

搭建电商购物独立站抓取主流电商产品数据的方法:工具+电商数据采集API接口

分享一个抓取数据产品的方法,也是别人给我说的。 想做一个联盟产品相关的网站,然后需要采集电商网站的产品。咨询大佬告诉我,大量级电商商品数据的采集可以接入专业的电商数据采集API接口,也可以用webscrsper,于是乎就…

bootstrap+thymeleaf 页面多选回显时莫名其妙多了

bootstrapthymeleaf 页面多选回显时莫名其妙多了 问题现象问题分析问题处理总结 问题现象 今天遇到的问题的描述正如标题中的一样,就是后台管理系统在配置完内容后点击保存,回显时发现页面竟然莫名其妙多了一些数据。项目整体后台管理系统采用的是boots…

回归预测 | Matlab基于CPO-GPR基于冠豪猪算法优化高斯过程回归的多输入单输出回归预测

回归预测 | Matlab基于CPO-GPR基于冠豪猪算法优化高斯过程回归的多输入单输出回归预测 目录 回归预测 | Matlab基于CPO-GPR基于冠豪猪算法优化高斯过程回归的多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab基于CPO-GPR基于冠豪猪算法优化高斯…

【Consul】基于Golang实现Consul服务的注册、注销、修改、监控注册的服务变化、实时同步服务信息机制

【Consul】基于Go实现Consul服务的注册、注销、修改、监控注册的服务变化、实时同步服务信息机制 大家好 我是寸铁👊 总结了一篇【Consul】基于Go实现Consul服务的注册、注销、修改、监控注册的服务变化、实时同步服务信息机制✨ 这应该是目前全网最全的使用golang手…

Git命令(1)[删除,恢复与移动]

文章目录 1.删除文件1.1命令----rm <filename>1.2命令----git rm <filename>1.1命令----git rm <filename> -f 2.恢复文件2.1命令----git restore <filename>2.1命令----git restore --staged <filename> 3.重命名文件3.1命令----mv 旧文件 新文…

Node.js------Express

◆ 能够使用 express.static( ) 快速托管静态资源◆ 能够使用 express 路由精简项目结构◆ 能够使用常见的 express 中间件◆ 能够使用 express 创建API接口◆ 能够在 express 中启用cors跨域资源共享 一.初识Express 1.Express 简介 官方给出的概念&#xff1a;Express 是基…

CSS - 你实现过0.5px的线吗

难度级别:中级及以上 提问概率:75% 我们知道在网页显示或是网页打印中,像素已经是最小单位了,但在很多时候,即便是最小的1像素,精度却不足以呈现所需的线条精度和细节。因此,为了在网页显示和网页打印中呈现更加细致的线条,为了在视觉…

带你了解自动驾驶中的功能安全

谈一谈自动驾驶中的功能安全 附赠自动驾驶学习资料和量产经验&#xff1a;链接 一 概述 汽车涉及到人的生命财产安全&#xff0c;谈汽车首先要谈的就是安全。目前自动驾驶的安全主要分为三大块&#xff1a;功能安全&#xff0c;网络&#xff08;信息&#xff09;安全&#xf…

【LeetCode】--- 动态规划 集训(二)

目录 一、63. 不同路径 II1.1 题目解析1.2 状态转移方程1.3 解题代码 二、931. 下降路径最小和2.1 题目解析2.2 状态转移方程2.3 解题代码三、174. 地下城游戏3.1 题目解析3.2 状态转移方程3.3 解题代码 一、63. 不同路径 II 题目地址&#xff1a; 不同路径 II 一个机器人位于…