顶刊TPAMI 2023!解码大脑信号语义,中科院研发脑-图-文多模态学习模型

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:机器之心

近日,中国科学院自动化研究所的研究人员杜长德等人开发了一种「脑 - 图 - 文 」多模态学习模型,可以无创地解码大脑活动的语义信息。新方法不仅揭示了视觉 - 语言的多模态信息加工机理,也实现了大脑信号的零样本语义解码。论文发表在人工智能顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI 2023)。

bac78d33a7607be8b3a59a35726f5107.png

  • 论文地址:https://ieeexplore.ieee.org/document/10089190 

  • 代码地址:https://github.com/ChangdeDu/BraVL

  • 数据地址:https://figshare.com/articles/dataset/BraVL/17024591

太长不看版

这项研究首次将大脑、视觉和语言知识相结合,通过多模态学习的方式,实现了从人类脑活动记录中零样本地解码视觉新类别。本文还贡献了三个「脑 - 图 - 文」三模态匹配数据集

实验结果表明了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义。这些发现不仅对人类视觉系统的理解有所启示,而且也为将来的脑机接口技术提供了新的思路。本研究的代码和数据集均已开源。

研究背景

解码人类视觉神经表征是一个具有重要科学意义的挑战,可以揭示视觉处理机制并促进脑科学与人工智能的发展。然而,目前的神经解码方法难以泛化到训练数据以外的新类别上,主要原因有两个:一是现有方法未充分利用神经数据背后的多模态语义知识,二是现有的可利用的配对(刺激 - 脑响应)训练数据很少。

研究表明,人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。例如当我们看到一个熟悉的物体时,我们的大脑会自然而然地检索与该物体相关的知识。如下图 1 所示,认知神经科学对双重编码理论 [9] 的研究认为,具体概念在大脑中既以视觉方式又以语言方式进行编码,其中语言作为有效的先验经验,有助于塑造由视觉生成的表征。

因此,作者认为想要更好地解码记录到的脑信号,不仅应该使用实际呈现的视觉语义特征,还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

68cb03f616e24ebef61afb4286a184bd.png图 1. 人类大脑中的知识双重编码。当我们看到大象的图片时,会自然地在脑海中检索到大象的相关知识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和语言的形式进行编码,其中语言作为一种有效的先前经验,有助于塑造由视觉产生的表征。

如下图 2 所示,由于收集各种视觉类别的人脑活动非常昂贵,通常研究者只有非常有限的视觉类别的脑活动。然而,图像和文本数据却非常丰富,它们也可以提供额外的有用信息。本文的方法可以充分利用所有类型的数据(三模态、双模态和单模态)来提高神经解码的泛化能力

4a1dcd83822c801bad58bb77fa0fa72c.png图 2. 图像刺激、引发的大脑活动以及它们相应的文本数据。我们只能为少数类别收集大脑活动数据,但是可以很容易地收集几乎所有类别的图像和 / 或文本数据。因此,对于已知类别,我们假设大脑活动、视觉图像和相应的文本描述都可用于训练,而对于新类别,仅视觉图像和文本描述可用于训练。测试数据是来自新类别的大脑活动数据。

「脑 - 图 - 文」多模态学习

如下图 3A 所示,本文方法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中,该空间包含与新类别相关的基本多模态信息。

具体地说,作者提出了一种多模态自编码变分贝叶斯学习框架,其中使用了专家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推断出一种潜在编码,以实现所有三种模态的联合生成。为了学习更相关的联合表示,并在脑活动数据有限的情况下提高数据效率,作者还进一步引入了模态内和模态间的互信息正则化项。此外,BraVL 模型可以在各种半监督学习场景下进行训练,以纳入额外的大规模图像类别的视觉和文本特征。

在图 3B 中,作者从新类别的视觉和文本特征的潜在表示中训练 SVM 分类器。需要注意的是,在这一步中编码器 E_v 和 E_t 被冻结,只有 SVM 分类器(灰色模块)会被优化。

在应用中,如图 3C 所示,本文方法的输入仅为新类别脑信号,不需要其他数据,因此可以轻松应用于大多数神经解码场景。SVM 分类器之所以能够从(B)推广到(C),是因为这三种模态的潜在表示已经在 A 中对齐。

31e98f0488a28a60ac49d6bee01ea187.png图 3 本文提出的 “脑 - 图 - 文” 三模态联合学习框架,简称 BraVL。

此外,脑信号会因试次(trial)的不同而发生变化,即使是相同的视觉刺激也是如此。为了提高神经解码的稳定性,作者使用了稳定性选择方法来处理 fMRI 数据。所有体素的稳定性分数如下图 4 所示,作者选取稳定性最好的前 15% 体素参与神经解码过程。这种操作可以有效地降低 fMRI 数据的维度,并抑制噪声体素引起的干扰,而不会严重影响脑特征的判别能力。

266a5e9bb20f47a7ee756862e00f0189.png图 4. 大脑视觉皮层的体素活动稳定性分数映射图。

现有的神经编解码数据集往往只有图像刺激和脑响应。为了获取视觉概念对应的语言描述,作者采用了一种半自动的维基百科文章抽取方法

具体来说,作者首先创建 ImageNet 类与其对应的维基百科页面的自动匹配,匹配是基于 ImageNet 类和维基百科标题的同义词集单词之间的相似性,以及它们的父类别。如下图 5 所示,遗憾的是,这种匹配偶尔会产生假阳性,因为名称相似的类可能表示非常不同的概念。在构建三模态数据集时,为了确保视觉特征和语言特征之间的高质量匹配,作者手动删除了不匹配的文章。

cb84e536291f486a20e58680b7ddcec9.png图 5. 半自动视觉概念描述获取

实验结果

作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。

cf0f9e5688f8f55aa04e59d133321e03.png

对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。

f6bd97f49abc3b2b1590aec6f85de3b6.png图 6. 加入文本特征后的神经解码准确率增益

除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。

从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说。

3d84982bd9c32d3d5fd603cfe26d88b2.png图 7. 将文本特征贡献投影到视觉皮层

更多实验结果请参见原文。

总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。

讨论与展望

论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」

论文通讯作者、中科院自动化所何晖光研究员指出:「本文提出的方法有三个潜在的应用:1)作为一种神经语义解码工具,此方法将在新型读取人脑语义信息的神经假肢设备的开发中发挥重要作用。虽然这种应用还不成熟,但本文的方法为其提供了技术基础。2)通过跨模态推断脑活动,本文方法还可以用作神经编码工具,用于研究视觉和语言特征如何在人类大脑皮层上表达,揭示哪些脑区具有多模态属性(即对视觉和语言特征敏感)。3)AI 模型内部表征的神经可解码性可以被视为该模型的类脑水平指标。因此,本文的方法也可以用作类脑特性评估工具,测试哪个模型的(视觉或语言)表征更接近于人类脑活动,从而激励研究人员设计更类脑的计算模型。」

神经信息编解码是脑机接口领域的核心问题,也是探索人脑复杂功能背后的原理从而促进类脑智能发展的有效途径。自动化所神经计算与脑机交互研究团队已在该领域持续深耕多年,做出了一系列研究工作,发表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 头条报道,并获得 ICME 2019 Best Paper Runner-up Award。 

该研究得到了科技创新 2030—“新一代人工智能” 重大项目、基金委项目、自动化所 2035 项目以及中国人工智能学会 - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。

作者简介

第一作者:杜长德,中科院自动化所特别研究助理,从事脑认知与人工智能方面的研究,在视觉神经信息编解码、多模态神经计算等方面发表论文 40 余篇,包括 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。

5e3e055d2e546cf7703094f2e0faa862.png

个人主页:https://changdedu.github.io/ 

通讯作者:何晖光,中科院自动化所研究员,博导,中国科学院大学岗位教授,上海科技大学特聘教授,中科院青促会优秀会员,建国七十周年纪念章获得者。先后承担 7 项国家自然基金(含基金重点和国际合作重点)、2 项 863、国家重点研究计划课题等项目。曾获得国家科技进步二等奖两项(分别排名第二、第三)、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研究领域为人工智能、脑 - 机接口、医学影像分析等。近五年来,在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上发表文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委,CCF 杰出会员,CSIG 杰出会员。

a28cc802a95125e86f3a79b6981f22f0.png

参考文献

[1]. Changde Du, Kaicheng Fu, Jinpeng Li, Huiguang He*. Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2023)

[2]. Zhongyu Huang, Changde Du, Yingheng Wang, Kaicheng Fu, Huiguang He. Graph-Enhanced Emotion Neural Decoding. IEEE Transactions on Medical Imaging (TMI 2023)

[3]. Changde Du, Changying Du, Lijie Huang, Haibao Wang, Huiguang He*. Structured Neural Decoding With Multitask Transfer Learning of Deep Neural Network Representations. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2022).

[4]. Kaicheng Fu, Changde Du, Shengpei Wang, Huiguang He. Multi-view Multi-label Fine-grained Emotion Decoding from Human Brain Activity. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2022) 

[5]. Changde Du, Changying Du, Huiguang He*. Multimodal Deep Generative Adversarial Models for Scalable Doubly Semi-supervised Learning. Information Fusion 2021.

[6]. Dan Li, Changde Du, Haibao Wang, Qiongyi Zhou, Huiguang He. Deep Modality Assistance Co-Training Network for Semi-Supervised Multi-Label Semantic Decoding. IEEE Transactions on Multimedia (TMM 2021).

[7]. Changde Du, Changying Du, Lijie Huang, Huiguang He*. Conditional Generative Neural Decoding with Structured CNN Feature Prediction. In AAAI 2020 

[8]. Changde Du, Changying Du, Lijie Huang, Huiguang He*. Reconstructing Perceived Images from Human Brain Activities with Bayesian Deep Multiview Learning. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2019).

[9] Y. Bi, “Dual coding of knowledge in the human brain,” Trends Cogn. Sci., vol.25, no.10, pp.883–895, 2021

[10] S. F. Popham, A. G. Huth et al., “Visual and linguistic semantic representations are aligned at the border of human visual cortex,” Nat. Neurosci., vol. 24, no. 11, pp. 1628–1636, 2021.

点击进入—>【计算机视觉】微信技术交流群

最新CVPR 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看080b2a4754e2e33df5f861712260aa47.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62272.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析实战<一>脑电(EEG)分析

这两天需要对预实验的脑电进行一个分类,在这里记录一下流程 脑电分析系列文章 mne官网 mne教程 随机森林分类 Python 多因素方差分析 文章目录 1. 脑电数据的处理1.1 基本概念1.2 实际处理1.3 全部代码 2. 随机森林分类1. label的制作2. 使用随机森林进行分类3. 全部…

TensorRT量化第一课:量化的定义及意义

目录 模型量化原理前言1. What、Why and How1.1 What1.2 Why1.3 How 2. 拓展-export参数详解3.总结参考 模型量化原理 前言 手写AI推出的全新TensorRT模型量化课程,链接。记录下个人学习笔记,仅供自己参考。 本次课程为第一课,主要讲解量化的…

TensorRT量化第三课:动态范围的常用计算方法

目录 模型量化原理注意事项一、2023/4/11更新二、2023/4/13更新三、2023/4/16更新四、2023/4/24更新前言1.前情回顾2.动态范围的常用计算方法3.Histogram3.1 定义3.2 histogram实现3.3 思考3.4 拓展 4.Entropy4.1 定义4.2 示例代码4.3 流程实现4.4 思考4.5 实际应用4.6 TRT Ent…

当下流行的ChatGPT与百度的文心一言谁才是AI的霸主

ChatGPT和百度的文心一言是两种不同的自然语言处理(NLP)AI技术,它们具有相似的功能和特点,但有着很大的差异和各自的优势。ChatGPT是OpenAI团队开发的基于Transformer框架的大规模语言模型,是从大量自然语言数据中训练…

游戏本地化项目简介

节选自《翻译与本地化项目管理》,:凯瑞J.邓恩、埃琳娜S.邓恩 一个典型而完整的多平台游戏本地化项目涉及了文本的翻译、翻译与本地化项目管理音频的修改或再创作、完成本地化之后游戏内容的整合、质量保证、交付厂家和项目行政管理。 翻译是游戏本地化的中心任务。游…

游戏开发与本地化

游戏由内容和技术组成,技术将内容呈现给玩家,并控制游戏的顺序。内容由图形设计师、音频设计师、动画师以及游戏等级设计师创造,可能以游戏等级、角色、动画和影片等形式体现。技术就是游戏运行时计算机(或主机和其他设备)所读取的可执行代码…

国内头部游戏本地化服务商 安睿杰本地化翻译

安睿杰翻译深耕多年,具有丰富的游戏出海项目经验,凭借50语种、1000资深游戏母语译者的资源优势,已为500家游戏厂商提供千余款成功作品。 自2020年至今,ARJ为国内某头部手游厂商的一款热销手游提供了游戏本地化服务。 这是一款以…

Revit教程免费下载——Revit建筑施工图高级视频课程

Revit建筑施工图高级教程,包含施工图教程、多专业协同、案例文件三个分类。 【下载地址】 链接:https://pan.baidu.com/s/18KSIgfABHG8rNNd9sDHtDg 提取码:jwu8 【资源大小】14.14GB 【资源截图】 【目录】 一、施工图教程 0前言.mp4 …

建筑施工图纸

一、如何看懂施工图纸 在一个建筑工程项目中,看懂施工图纸是决定建筑工程项目施工成败的关键因素。 我们经常会看到老师傅手中拿着图纸,认真的观察。他们在查看施工图纸,很多新手不会看图纸,下面就来教你如何看懂。 二、学会使…

Revit软件中参照线在制作墙体上的使用及快速CAD图纸墙转化

Revit软件中参照线在制作墙体上的使用及快速CAD图纸墙转化 Revit中参考线(参照线)在墙上的妙用,如果你想做这样的墙,你会怎么想? 墙的顶部是倾斜的。对于这形状的墙,不可能通过传统墙的编辑轮廓来完成,因为我们知道编辑轮廓是墙的…

学习如何在AutoCad土木工程中绘制建筑设计图

学习如何在AutoCad中绘制建筑设计图从平面图到AutoCad土木工程中的整栋建筑 你会学到: 如何绘制房屋地图 如何绘制建筑设计 如何从AutoCad打印或出图 AutoCaD使用 AutoCaD命令使用 如何在2D Autocad中构建家庭或房屋地图(完整教程视频包括家庭地图、窗户、门、室内家具或物品、…

建筑设计中,如何快速获得场地的等高线图?

等高线指的是地形图上高程相等的相邻各点所连成的闭合曲线。把地面上海拔高度相同的点连成的闭合曲线,并垂直投影到一个水平面上,并按比例缩绘在图纸上,就得到等高线。(来自百度百科的定义) 图新地球软件,…

YOLOv7改进Transformer主干系列:最新结合BoTNet Transformer结构,一种简单却功能强大的backbone,自注意力提高模型性能

💡统一使用 YOLOv7 代码框架,结合不同模块来构建不同的YOLO目标检测模型。🌟本项目包含大量的改进方式,降低改进难度,改进点包含【Backbone特征主干】、【Neck特征融合】、【Head检测头】、【注意力机制】、【IoU损失函数】、【NMS】、【Loss…

yolov8模型训练结果分析以及如何评估yolov8模型训练的效果

运行结果目录 一、 confusion_matrix_normalized.png和confusion_matrix.png 混淆矩阵是对分类问题预测结果的总结。使用计数值汇总正确和不正确预测的数量,并按每个类进行细分,显示了分类模型进行预测时会对哪一部分产生混淆。通过这个矩阵可以方便地看…

安卓面试题 Android interview questions

安卓面试题 Android interview questions 作者:韩梦飞沙 ‎2017‎年‎7‎月‎3‎日,‏‎14:52:44 1. 要做一个尽可能流畅的ListView,你平时在工作中如何进行优化的? ①Item布局,层级越少越好,使用hie…

求职与面试(一):Android必备

2019年的冬天有点冷,一份基础面试题送给还在奋斗在Android领域的同学. Android基础问题 Activity&View系列 简述Android的布局分类? 早期Android官方提供以下五种布局: LinearLayoutRelativeLayoutFrameLayoutGridLayoutTableLayout 以上传统的布局,以LinearLayout和…

在Android面试前背八股和学面试技巧真的有用吗?

前言: 今年秋招以来,我集中面试了一些公司,想着至少能过一家吧,但后面发现面试安排十分紧凑,有种顾此失彼的感觉。 我刚开始的时候对Android面试的具体情况全然不知,也没有人告诉我应该注意些什么&#…

如何在Android面试中脱颖而出,高频Android面试题解析,帮你快速拿到Offer

Android面试就“小技巧” 了解自己的技能水平:在面试前,确保你对所面试的职位的技能要求有足够的了解,并检查自己的技能水平是否符合这些要求。熟悉面试流程:了解面试过程中可能会遇到的问题,并为每个问题准备好回答。…

Android面试攻略

文章背景 好记性不如烂笔头 Android层面 一、Android基础 1、四大组件的意义及使用,生命周期回调及意义 2、AsyncTask、Handler的使用 3、Android系统层次框架结构 4、AsyncTask的实现方式 5、AsyncTask使用的时候应该注意什么 6、Android常见的存储方式 7、Loop…

面试汇总:这是一份全面详细的Android面试指南

核心面试内容 对于Android技术专业面试,主要考察的内容包括:(已按优先级排序) 通用编程基础计算机基础特定编程语言智力题 需要特别注意的是: 编程基础、计算机基础是 所有技术开发都必备的基础知识,务必…