我们的大脑在处理声音信息时有一个特长:可以将注意力集中在感兴趣的对话或声音上,忽略其它无关的声音或者噪音。我们每天都在不知不觉地运用这种特长,在通勤的地铁上、嘈杂的餐厅里,广播声、音乐声、多人同时说话的声音,都不会妨碍你与同伴进行交流。早在70多年前,神经科学家就注意到大脑的这种神奇能力,并将其称为“鸡尾酒会效应”。
尽管我们可以轻松地在混合的声音中识别特定的目标声音,计算机要做到这一点却非常困难。在人工智能(AI)领域,要设计出与人类一样强大的语音分离系统是巨大挑战。
日前,来自清华大学的神经科学家和计算机科学家联手,基于哺乳动物丘脑和皮层整合多模态感觉信息的工作原理,构建了一款新的脑启发AI模型(CTCNet),实现了混合语音分离技术突破,让计算机进一步学会像人脑一样“听话”。
▲在两人同时说话的场景中,红框指示了计算机的目标人物,试图从混合语音中将其语音分离出来,迄今为止的其他方法仍无法使计算机有效分离两个人的声音,尤其是在我们看来非常简单的、对话内容单调的场景中(视频2)。使用了CTCNet的计算机系统成功地只“听到”红框中的目标声音(视频来源:研究团队提供)
该研究的负责人之一、神经科学家、清华大学脑与智能实验室兼职研究员、清华大学生物医学工程学院的苑克鑫教授指出:“新模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。”
研究者介绍,现有的多模态语音分离方法大多只是模拟了哺乳动物的皮层通路,即从较低功能区域(例如初级视觉、听觉皮层区)到较高功能区域(例如高级视觉、听觉皮层区),然而实际上,听觉、视觉的信息整合中,以丘脑为代表的皮层下结构发挥了不可忽视的重要作用。
苑克鑫教授团队长期聚焦于脑的听觉处理机制,近年来的一系列工作逐渐揭示了高级听觉丘脑的联接、功能与工作机制。高级听觉丘脑作为处理听觉信息的关键中枢节点,具有听觉、视觉双模态的特性。其腹内侧在介导听觉、视觉刺激触发的危险感知中发挥关键作用(Neuron 2023;J. Neurosci. 2024;Featured Articles);其背侧既接收来自听觉皮层第5层的投射,也接收来自视觉皮层第5层的投射,且在整体上形成了皮层-丘脑-皮层(Cortico-thalamo-cortical,CTC)循环联接架构(Cereb. Cortex 2018a,2018b,2019)。这些工作提示,高级听觉丘脑可能通过特殊的联接模式整合听觉、视觉信息从而增强听觉感知。
在背侧高级听觉丘脑联接特点的启发下,苑克鑫团队与清华大学计算机系胡晓林团队合作提出了一种皮层-丘脑-皮层神经网络(CTCNet)来执行音频-视觉语音分离任务。
▲高级听觉丘脑-皮层联接模式启发视觉辅助的语音分离模型(CTCNet)(图片来源:研究团队提供)
CTCNet模型包括三个模块——听觉子网络、视觉子网络和听-视融合子网络,分别模拟了听觉皮层、视觉皮层和背侧高级听觉丘脑。其基本工作原理为:首先,听觉信息(语音)和视觉信息(唇部运动)以自下而上的方式分别在独立的听觉和视觉子网络中处理;然后,经过处理的听觉和视觉信息通过自上而下的连接在听-视融合子网络中进行多时间分辨率尺度的融合;最后,融合后的信息被回传至听觉和视觉子网络。上述过程会重复数次,最终输出至听觉子网络。
在三个语音分离基准数据集上的测试结果显示,在参数极少的情况下,CTCNet能在视觉信息(唇部运动)的辅助下,高度准确地将混合在一起的语音分离开来。
研究团队总结说,语音分离模型CTCNet是基于高级听觉丘脑的视、听融合能力及其皮层-丘脑-皮层循环联接架构构建的脑启发AI模型。通过多次融合和循环处理听觉和视觉信息,使AI能够更好地实现“鸡尾酒会效应”。目前,这一创新性学科交叉研究成果于2024年4月5日线上发表于人工智能、模式识别和计算机视觉领域的顶级国际期刊Transactions on Pattern Analysis and Machine Intelligence(TPAMI)。
胡晓林团队硕士生李凯为该论文第一作者,苑克鑫团队博士后谢凤华和胡晓林团队博士生陈航为该论文第二和第三作者,苑克鑫和胡晓林为该论文共同通讯作者,他们均为清华大学脑与智能实验室、清华大学麦戈文脑研究院和清华大学类脑研究中心兼职研究员。该研究得到了国家自然科学基金、科技部经费的大力支持。