MMGPL: 多模态医学数据分析与图提示学习| 文献速递-基于深度学习的多模态数据分析与生存分析

Title

题目

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning

MMGPL: 多模态医学数据分析与图提示学习

01

文献速递介绍

神经学障碍,包括自闭症谱系障碍(ASD)(Lord等,2018年)和阿尔茨海默病(AD)(Scheltens等,2021年),严重影响患者的社交、语言和认知能力,并已成为全球严重的公共健康问题(Feigin等,2020年)。不幸的是,对于大多数神经学障碍(例如ASD和AD),目前没有明确的治愈方法,因此迫切需要进行神经学障碍的诊断,以促进早期干预和延缓其恶化(Wingo等,2021年;Zhu等,2022年)。

在过去的十年里,研究人员(Wen等,2020年;Li等,2021年;Dvornek等,2019年)应用了各种机器学习方法,如卷积神经网络(CNN)(LeCun和Bengio,1995年)、图神经网络(GNN)(Kipf和Welling,2017年)和循环神经网络(RNN)(Schuster和Paliwal,1997年),来诊断神经学障碍。尽管这些方法取得了显著的进展,但由于这些方法直接在小规模且复杂的医学数据集上训练(Dinsdale等,2022年),深度学习模型的稳健性和有效性难以保证。

最近,训练在广泛数据集和多样任务上的多模态大型模型(Liu等,2023年;Driess等,2023年;Tu等,2023年;Wu等,2023年)展现出了显著的通用性和适应性。因此,多模态大型模型已成为医学数据分析领域的一个重要关注点。各个领域的研究人员已开发出不同的产品,如大型语言模型(例如GPT(OpenAI,2023年))和大型视觉模型(例如SAM(Kirillov等,2023年))。它们可以加速精确和稳健模型的开发,减少对大量标记数据的依赖(Zhang和Metaxas,2023年)。由于其通用性,多模态大型模型在解决神经学障碍的各种诊断任务中具有巨大潜力。

然而,将这些多模态大型模型应用于神经学障碍诊断领域面临着重大挑战,因为多模态医学数据的各种模态(例如PET和MRI)与自然图像差异很大。为了填补预训练任务与下游任务之间的差距,研究人员利用全面微调和提示学习等技术,对预训练的多模态大型模型进行特定医学领域下游任务的解决。

Abstract

摘要

在将多模态大型模型微调到广泛的下游任务中表现出令人印象深刻的效果。然而,将现有的提示学习方法应用于神经疾病的诊断仍然存在两个问题:(i) 现有方法通常平等对待所有图像块,尽管神经影像中只有少数图像块与疾病相关,(ii) 它们忽略了脑连接网络中固有的结构信息,这对于理解和诊断神经疾病至关重要。为了解决这些问题,我们引入了一种新的提示学习模型,在多模态模型的微调过程中学习图提示,用于诊断神经疾病。具体而言,我们首先利用GPT-4获取相关的疾病概念,并计算这些概念与所有图像块之间的语义相似性。其次,根据每个图像块与与疾病相关概念之间的语义相似性减少不相关图像块的权重。此外,我们基于这些概念构建了一个图,使用图卷积网络层提取图的结构信息,用于提示预训练的多模态模型,以诊断神经疾病。大量实验表明,我们的方法在神经疾病诊断方面相比最先进的方法表现出优越的性能,并得到了临床医生的验证。

Method

方法

Utilizing transformers (Vaswani et al., 2017) as the architectureof encoders to process multimodal data has become a popular choicein modern multimodal large models, as it can effectively integrateinformation from multiple modalities. For example, pre-trained visionlanguage models like CLIP (Radford et al., 2021) employ separatetransformer-based backbones (e.g., ViT) to encode images and textseparately. To obtain representations of the samples, the transformerarchitecture involves two key components: (i) Tokenization: convertingthe raw data into tokens. (ii) Encoding: performing attention-basedfeature extraction layers on all tokens.

在处理多模态数据的编码器架构中,利用Transformer(Vaswani等,2017年)已成为现代多模态大型模型中的流行选择,因为它能够有效地整合来自多个模态的信息。例如,像CLIP(Radford等,2021年)这样的预训练视觉语言模型采用了分别编码图像和文本的基于Transformer的主干(例如ViT)。为了获取样本的表示,Transformer架构包括两个关键组成部分:(i) 分词化:将原始数据转换为标记。(ii) 编码:对所有标记执行基于注意力的特征提取层。

Conclusion

结论

In this paper, we proposed a graph prompt learning fine-turningframework for neurological disorder diagnosis, by jointly considering the impact of irrelevant patches as well as the structural information among tokens in multimodal medical data. Specifically, weconduct concept learning, aiming to reduce the weights of irrelevant tokens according to the semantic similarity between each tokenand disease-related concepts. Moreover, we conducted graph promptlearning with concept embeddings, aiming to bridge the gap betweenmultimodal models and neurological disease diagnosis. Experimentalresults demonstrated the effectiveness of our proposed method, compared to state-of-the-art methods on neurological disease diagnosistasks.

在本论文中,我们提出了一种图提示学习微调框架,用于神经学障碍的诊断,同时考虑多模态医学数据中不相关图像块的影响以及标记之间的结构信息。具体而言,我们进行了概念学习,旨在根据每个标记与与疾病相关的概念之间的语义相似性减少不相关标记的权重。此外,我们进行了带有概念嵌入的图提示学习,旨在弥合多模态模型与神经学疾病诊断之间的差距。实验结果显示,与最先进的神经学疾病诊断方法相比,我们提出的方法在实验中表现出了显著的有效性。

Figure

图片

Fig. 1. The flowchart of the proposed MMGPL consists of three modules i.e., multimodal data tokenizer (light blue block), concept learning (light green block), and graph promptlearning (light yellow block). First, MMGPL divides the multimodal medical data into multiple patches and project them into a shared embedding space (Section 3.2). Second,MMGPL prompts the GPT-4 to generate disease-related concepts and further learn the weights of tokens based on the semantic similarity between tokens and concepts (Section 3.3).Third, MMGPL learns a graph among tokens and extracts structural information to prompt the unified encoder (Section 3.4). Finally, MMGPL obtains the output from the unifiedencoder and uses it to predict the label of the subject.

图 1. 提出的MMGPL流程图包括三个模块,即多模态数据分词器(浅蓝色块)、概念学习(浅绿色块)和图提示学习(浅黄色块)。首先,MMGPL将多模态医学数据分割成多个图像块,并投影到共享嵌入空间中(第3.2节)。其次,MMGPL提示GPT-4生成与疾病相关的概念,并根据各个图像块与概念之间的语义相似性进一步学习标记的权重(第3.3节)。第三,MMGPL在各个标记之间学习一个图,并提取结构信息以提示统一编码器(第3.4节)。最后,MMGPL从统一编码器获取输出,并用于预测受试者的标签。

图片

Fig. 2. Performance of MMGPL with different combinations of components on all datasets, i.e., ‘‘B’’ denotes baseline method, ‘‘B+G’’ denotes baseline method with graph promptlearning, ‘‘B+W’’ denotes baseline method with token weights, and ‘‘B+W+G’’ denotes baseline method with graph prompt learning and token weights.

图 2. MMGPL在所有数据集上使用不同组件组合的性能,即‘‘B’’表示基线方法,‘‘B+G’’表示基线方法与图提示学习,‘‘B+W’’表示基线方法与标记权重,‘‘B+W+G’’表示基线方法与图提示学习以及标记权重的组合。

图片

Fig. 3. Performance of MMGPL with different modalities.

图 3. MMGPL在不同模态下的性能表现。

图片

Fig. 4. Heat maps generated by MMGPL on different subjects in ADNI dataset.

图 4. MMGPL在ADNI数据集中生成的热图,显示不同受试者的结果。

图片

Fig. 5. The visualization of concept-similarity graph on the ADNI dataset. The horizontal and vertical axes represent concepts and tokens. Different colors represent conceptsbelonging to different categories. The red texts represent concepts related to NC, the green texts represent concepts related to LMCI, and the blue texts represent concepts relatedto AD.

图 5. 在ADNI数据集上显示的概念相似性图可视化。水平和垂直轴代表概念和标记。不同颜色表示属于不同类别的概念。红色文字表示与NC相关的概念,绿色文字表示与LMCI相关的概念,蓝色文字表示与AD相关的概念。

图片

Fig. 6. The visualization of the quantified impact of different concepts on the ADNIdataset. The concepts are shown on the left side, while classes are shown on the rightside. The width of the lines corresponds to the magnitude of the weights, and thevalues indicate the specific weight values.

图 6. 在ADNI数据集上显示的不同概念对其影响的可视化。左侧显示概念,右侧显示类别。线条的宽度对应权重的大小,数值表示具体的权重数值。

Table

图片

Table 1Diagnose performance (mean and standard deviation) of all methods on all datasets. Note that, ‘‘ADNI-3CLS’’ and ‘‘ADNI-4CLS’’ indicate theclassification on three classes ‘‘NC/LMCI/AD’’ and the classification on four classes ‘‘NC/EMCI/LMCI/AD’’, respectively.

表 1 各种方法在所有数据集上的诊断性能(均值和标准差)。注意,“ADNI-3CLS”和“ADNI-4CLS”分别表示在三类(“NC/LMCI/AD”)和四类(“NC/EMCI/LMCI/AD”)分类上的表现。

图片

Table 2Comparison between MMGPL and related works on scalability. Note that, ✓(vanilla)indicates can only supports two modalities and is challenging to expand to supportsmore modalities.

表 2 MMGPL与相关工作在可扩展性上的比较。注意,✓(原始)表示只能支持两种模态,并且难以扩展以支持更多模态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/373203.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kafka的副本replica

指定topic的分区和副本 通过kafka命令行工具 kafka-topics.sh --create --topic myTopic --partitions 3 --replication-factor 1 --bootstrap-server localhost:9092 执行代码时指定分区个数

基于Spring Boot框架的EAM系统设计与实现

摘 要:文章设计并实现一个基于Spring Boot框架的EAM系统,以应对传统人工管理模式存在的低效与信息管理难题。系统利用Java语言、JSP技术、MySQL数据库等技术栈,构建了一个B/S架构的高效管理平台,提升了资产管理的信息化水平。该系…

大小端详解

引例 我们知道整形(int)是4个字节,例如随便举个例子:0x01020304,它一共占了四个地址位,01,02,03,04分别占了一个字节(一个字节就对应了一个地址)。 那么就会有个问题:我们的01到底是存储在高地…

STM32的 DMA(直接存储器访问) 详解

STM32的DMA(Direct Memory Access,直接存储器存取)是一种在单片机中用于高效实现数据传输的技术。它允许外设设备直接访问RAM,不需要CPU的干预,从而释放CPU资源,提高CPU工作效率,本文基于STM32F…

C++基础(1)

目录 C的输入输出: 命名空间域: 缺省(默认)参数: 函数重载: 引用: 内联函数inline: 指针空值nullptr: C的输入输出: 输入: int a; char …

社交论坛圈子系统APP开发社交圈子小程序系统源码开源,带语音派对聊天室/圈子社交论坛及时聊天

功能// 首页左右滑动切换分类 使用资讯类app常见的滑动切换分类,让用户使用更方便。 2信息卡片流展示 每条信息都是一个卡片,头像展示会员标签,单图自动宽度,多图九宫格展示,底部展示信息发布地址,阅读量、…

采用3种稀疏降噪模型对心电信号进行降噪(Matlab R2021B)

心电信号采集自病人体表,是一种无创性的检测手段。因此,心电信号采集过程中,本身也已经包含了机体内部其他生命活动带来的噪声。同时,由于采集设备和环境中存在电流的变化,产生电磁发射等物理现象,会对心电…

Java项目:基于SSM框架实现的中小型企业财务管理系统【ssm+B/S架构+源码+数据库+答辩PPT+开题报告+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的中小型企业财务管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单…

浅谈VPS主机上的数据库性能优化

如何提高网站性能?一个显而易见的解决方案是升级托管账户。您的网站将拥有更多硬件资源,因此可以同时处理更多请求并更快地传递数据。 无论如何,人们都是这么认为的。但事实总是不一样。 现代网站是一个复杂的系统,包含许多必须…

效果惊人!LivePortrait开源数字人技术,让静态照片生动起来

不得了了,快手已经不是众人所知的那个短视频娱乐平台了。 可灵AI视频的风口尚未过去,又推出了LivePortrait--开源的数字人项目。LivePortrait让你的照片动起来,合成逼真的动态人像视频,阿里通义EMO不再是唯一选择。 让图像动起来 LivePortrait 主要提供了对眼睛和嘴唇动作的…

实体构件库设计说明方案

实体构件库设计说明方案 一、引言 在数字化设计与制造日益普及的今天,实体构件库作为连接设计创意与物理实现的关键桥梁,其重要性不言而喻。实体构件库不仅存储了各类标准化、参数化的零部件模型,还提供了便捷的检索、配置、优化及自动化生…

昇思MindSpore学习总结十二 —— ShuffleNet图像分类

当前案例不支持在GPU设备上静态图模式运行,其他模式运行皆支持。 1、ShuffleNet网络介绍 ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型,和MobileNet, SqueezeNet等一样主要应用在移动端,所以模型的设计目标就是利用有限的计算资源来达…

信创:鲲鹏(arm64)+麒麟(kylin v10)离线部署k8s和kubesphere(含离线部署新方式)

本文将详细介绍,如何基于鲲鹏CPU(arm64)和操作系统 Kylin V10 SP2/SP3,利用 KubeKey 制作 KubeSphere 和 Kubernetes 离线安装包,并实战部署 KubeSphere 3.3.1 和 Kubernetes 1.22.12 集群。 服务器配置 主机名IPCPUOS用途master-1192.168.10…

变长输入神经网络设计

我对使用 PyTorch 可以轻松构建动态神经网络的想法很感兴趣,因此我决定尝试一下。 我脑海中的应用程序具有可变数量的相同类型的输入。对于可变数量的输入,已经使用了循环或递归神经网络。但是,这些结构在给定行的输入之间施加了一些顺序或层…

7.9实验室总结 SceneBuilder的使用方法+使用javafx等

由于下错了东西,所以一直运行不出来,今天一直在配置环境,配置好了才学,所以没学多少,看了网课学习了SceneBuilder的使用方法还有了解了javafx是怎么写项目的,, 学习了怎么跳转页面:…

html H5 dialog弹窗学习,实现弹窗显示内容 替代confirm、alert

html H5 dialog弹窗学习,实现弹窗内容 替代confirm 框架使用的mui,使用mui.confirm() 弹窗内容过多时,弹窗被撑的到屏幕外去了,使用H5 dialog 标签自定义一个固定大小的弹窗,内容过多时可下拉显示 效果展示 隐私政策内容很多,可以下拉显示 代码 myDialog.css dialog{p…

【光伏仿真系统】光伏设计的基本步骤

随着全球对可再生能源需求的不断增长,光伏发电作为一种清洁、可再生的能源形式,正日益受到重视。光伏设计是确保光伏系统高效、安全、经济运行的关键环节,它涉及从选址评估到系统安装与维护的全过程。本文将详细介绍光伏设计的基本步骤&#…

【RHCE】转发服务器实验

1.在本地主机上操作 2.在客户端操作设置主机的IP地址为dns 3.测试,客户机是否能ping通

LLM应用构建前的非结构化数据处理(三)文档表格的提取

1.学习内容 本节次学习内容来自于吴恩达老师的Preprocessing Unstructured Data for LLM Applications课程,因涉及到非结构化数据的相关处理,遂做学习整理。 本节主要学习pdf中的表格数据处理 2.环境准备 和之前一样,可以参考LLM应用构建前…

Raylib 实现超大地图放大缩小与两种模式瓦片地图刷新

原理: 一种刷新模式: 在宫格内整体刷新,类似九宫格移动到边缘,则九宫格整体平移一个宫格,不过这里是移动一个瓦片像素,实际上就是全屏刷新,这个上限是 笔记本 3060 70帧 100*100个瓦片每帧都…