CoD-MIL: 基于诊断链提示的多实例学习用于全切片图像分类|文献速递-基于深度学习的病灶分割与数据超分辨率

Title

题目

CoD-MIL: Chain-of-Diagnosis Prompting Multiple Instance Learning for Whole Slide Image Classification

CoD-MIL: 基于诊断链提示的多实例学习用于全切片图像分类

01

文献速递介绍

病理检查被广泛视为肿瘤诊断的金标准,因为它为治疗决策和患者管理提供了关键信息。数字切片扫描仪的快速发展使得将传统病理切片高通量转换为全切片图像(WSI)成为可能。该研究得到了宁夏回族自治区重点研发项目资助(项目编号:2023BEG02023),部分资金来自中国工程科技知识中心项目。

Jiangbo Shi、Chen Li(通讯作者)和 Tieliang Gong 隶属于西安交通大学计算机科学与技术学院,地址:中国陕西省西安市,邮编 710049(电子邮件shijiangbo@stu.xjtu.edu.cn;cli@xjtu.edu.cn;gongtl@xjtu.edu.cn)。Chunbao Wang 隶属于西安交通大学第一附属医院病理科,地址:中国陕西省西安市,邮编 710061(电子邮件:bingliziliao2012@163.com)。Huazhu Fu(通讯作者)隶属于新加坡科学技术研究局(ASTAR)高性能计算研究所(IHPC),地址:新加坡,邮编 138632(电子邮件:hzfu@ieee.org)。

全切片图像(WSI)具有金字塔结构和巨大的尺寸,通常在最高放大倍率下包含数十亿像素(0.25 µm/像素)。因此,WSI 的像素级标注非常耗时且劳动密集 。目前,多实例学习(MIL) 已成为处理 WSI 的主要方法,仅利用切片级别的标注。

Aastract

摘要

Multiple instance learning (MIL) has emergedas a prominent paradigm for processing the whole slideimage with pyramid structure and giga-pixel size in digitalpathology. However, existing attention-based MIL methodsare primarily trained on the image modality and a predefined label set, leading to limited generalization and interpretability. Recently, vision language models (VLM) haveachieved promising performance and transferability, offering potential solutions to the limitations of MIL-based methods. Pathological diagnosis is an intricate process thatrequires pathologists to examine the WSI step-by-step. Inthe field of natural language process, the chain-of-thought(CoT) prompting method is widely utilized to imitate thehuman reasoning process. Inspired by the CoT promptand pathologists’ clinic knowledge, we propose a chainof-diagnosis prompting multiple instance learning (CoDMIL) framework for whole slide image classification. Specifically, the chain-of-diagnosis text prompt decomposes thecomplex diagnostic process in WSI into progressive subprocesses from low to high magnification. Additionally,we propose a text-guided contrastive masking module toaccurately localize the tumor region by masking the mostdiscriminative instances and introducing the guidance ofnormal tissue texts in a contrastive way. Extensive experiments conducted on three real-world subtyping datasetsdemonstrate the effectiveness and superiority of CoD-MIL.

多实例学习(MIL)已成为数字病理学中处理具有金字塔结构和超大像素大小的全切片图像的主要方法。然而,现有基于注意力的 MIL 方法主要在图像模态和预定义的标签集上进行训练,导致其泛化性和可解释性受限。最近,视觉语言模型(VLM)取得了令人鼓舞的性能和可迁移性,为 MIL 方法的局限性提供了潜在解决方案。病理诊断是一个复杂的过程,需要病理学家逐步检查全切片图像(WSI)。在自然语言处理中,链式思维(CoT)提示方法被广泛用于模拟人类的推理过程。受 CoT 提示和病理学家临床知识的启发,我们提出了一种用于全切片图像分类的基于诊断链提示的多实例学习(CoD-MIL)框架。具体来说,诊断链文本提示将 WSI 中的复杂诊断过程分解为从低倍到高倍放大的渐进子过程。此外,我们提出了一种文本引导的对比掩模模块,通过掩盖最具辨别力的实例并引入正常组织文本的对比性指导,以准确定位肿瘤区域。在三个真实世界的亚型数据集上进行的大量实验表明了 CoD-MIL 的有效性和优越性。

Method

方法

A. Attention-based Multiple Instance Learning

In MIL, a WSI (i.e., bag) W = {Wl , Wh} is croppedinto a series of patches (i.e., instances) P = {Pl ∈R Nl×N0×N0×3 , Ph ∈ R Nh×N0×N0×3} by the non-overlappingsliding window method. Wl and Wh denote the slides at lowand high magnifications; Pl and Ph represent the corresponding patches to Wl and Wh; Nl and Nh denote the patchnumber of Pl and Ph; and N0 is the patch size. To identifythe corresponding spatial relations of patches between twomagnifications, we define an alignment matrix M ∈ R Nl×Nh .

A. 基于注意力的多实例学习

在多实例学习(MIL)中,全切片图像(WSI,即包)W = {Wl, Wh} 被通过无重叠滑动窗口方法裁剪为一系列小块(即实例)P = {Pl ∈ R Nl×N0×N0×3, Ph ∈ R Nh×N0×N0×3}。其中,Wl 和 Wh 分别表示低倍和高倍放大倍率下的切片;Pl 和 Ph 分别代表与 Wl 和 Wh 对应的小块;Nl 和 Nh 表示 Pl 和 Ph 的小块数量;N0 为小块的尺寸。为了识别两个放大倍率之间小块的对应空间关系,我们定义了一个对齐矩阵 M ∈ R Nl×Nh。

Conclusion

结论

In this work, we proposed a chain-of-diagnosis promptingmultiple instance learning framework (CoD-MIL) for wholeslide image classification. Inspired by the chain-of-thoughtprompt in NLP and the diagnostic prior of pathologists,our chain-of-diagnosis text prompt decomposed the complexdiagnostic process into a series of progressive sub-processesin WSI from low to high magnification. Moreover, we alsoproposed a text-guide contrastive masking module to improvethe model’s ability to accurately locate the tumor region byintroducing the normal tissue texts as the negative corpusin a contrastive way. Extensive comparative and ablationexperiments demonstrated that CoD-MIL achieved new stateof-the-art results for whole slide image classification.

在本研究中,我们提出了一种用于全视野图像分类的链式诊断提示多实例学习框架 (CoD-MIL)。受自然语言处理中的链式思维提示和病理学家诊断先验的启发,我们的链式诊断文本提示将复杂的诊断过程分解为在全视野图像中从低倍到高倍的系列渐进子过程。此外,我们还提出了一种文本引导的对比遮罩模块,通过引入正常组织的文本作为对比中的负样本,提升模型准确定位肿瘤区域的能力。大量的对比实验和消融实验表明,CoD-MIL 在全视野图像分类中达到了新的最先进结果。

Figure

图片

Fig. 1. Illustration on chain-of-thought (CoT) and our chain-of-diagnosis (CoD) prompting methods.

图1. 链式思维(CoT)和我们提出的诊断链(CoD)提示方法的示意图。

图片

Fig. 2. Illustration of the proposed CoD-MIL framework. The input of the CoD-MIL is the multi-scale WSIs and the chain-of-diagnosis text prompt.TCM is the text-guided contrastive masking module to improve the model’s performance and interpretability. The output is the summation of twoscale slide logits.

图2. 所提出的 CoD-MIL 框架示意图。CoD-MIL 的输入包括多尺度全切片图像(WSIs)和诊断链文本提示。TCM 是文本引导的对比掩模模块,用于提升模型的性能和可解释性。输出是两个尺度切片 logits 的总和。

图片

Fig. 3. The second diagnostic chain text prompts of the normal tissues.

图3. 正常组织的第二条诊断链文本提示。

图片

Fig. 4. Text-guided Contrastive Masking Module.

图4. 文本引导的对比掩模模块。

图片

Fig. 5. Visualization results of each ablation setting on TCGA-RCC dataset. The second column represents the tumor area outlined in a red line.

图 5. TCGA-RCC 数据集上各消融设置的可视化结果。第二列表示用红线勾勒的肿瘤区域。

图片

Fig. 6. Parameter analysis: the number of masking ratio r% (first row) and the number of sampling number K (second row) on three datasets.

图 6. 参数分析:在三个数据集上遮罩比例 r%(第一行)和采样数量 K(第二行)的分析。

Table

图片

TABLE I dataset  statics

表1 数据集统计。

图片

TABLE II  table ii results (presented in %) on tcga-rcc, tfah-rcc, and tcga-lung datasets. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05)

表2 TCGA-RCC、TFAH-RCC 和 TCGA-LUNG 数据集的结果(以%表示)。最佳结果以粗体显示,基于配对 t 检验(p 值 > 0.05)的相近性能以下划线标出。

图片

TABLE III  results (presented in %) on the camelyon16 dataset. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表3 CAMELYON16 数据集的结果(以%表示)。最佳结果以粗体显示,基于配对 t 检验(p 值 > 0.05)的相近性能以下划线标出。

图片

TABLE IVtable iv comparison of flops (g) and inference time (s) on three datasets. the top result is in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 IV 三个数据集上的 FLOPs(G)和推理时间(s)比较。最优结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE Vresults (presented in %) of multi-center cross-evaluation between tcga-rcc and tfah-rcc dataset. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VTCGA-RCC 和 TFAH-RCC 数据集之间的多中心交叉评估结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE VI ablation experiment results (presented in %) on tcga-rcc, tfah-rcc, and tfah-rcc datasets. the best result

表 VI在 TCGA-RCC、TFAH-RCC 和 TFAH-RCC 数据集上的消融实验结果(以 % 表示)。最佳结果

图片

TABLE VII results (presented in %) of different ablation factors on three datasets. the best results are in bold, and its comparable performance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VII三个数据集上不同消融因素的结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE  VIII parameter analysis: the number of α1 and α2 on three datasets. the best results are in bold, and its comparableperformance is denoted by underlining based on a paired t-test (p-value>0.05).

表 VIII参数分析:三个数据集上的 α1 和 α2 数值。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

图片

TABLE IXresults (presented in %) of vlms on the tcga-rcc dataset.the best results are in bold, and its comparableperformance is denoted by underlining based on a pairedt-test (p-value>0.05).

表 IXTCGA-RCC 数据集上 VLMS 的结果(以 % 表示)。最佳结果以加粗显示,基于配对 T 检验的可比性能(P 值 > 0.05)以下划线标注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466172.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

232转485模块测试

概述 常用的PLC一般会有两个左右的232口,以及两个左右的485口,CAN口等,但是PLC一般控制的设备可能会有很多,会超出通讯口的数量,此时我们一般会采用一个口接多个设备,这种情况下要注意干扰等因素&#xff0…

网络编程——TCP通信练习

目录 一、多发多收 二、接收和反馈 三、上传文件 四、解决上传文件名重复问题 五、上传文件多线程版 六、上传文件线程池版 七、B/S(接收浏览器的消息并打印) 一、多发多收 客户端:多次发送数据 服务器:接收多次数据,并打印 public cl…

【stm32】RTC时钟的介绍与使用

RTC时钟的介绍与使用 一、时间戳1、Unix时间戳2、UTC/GMT3、时间戳转换 二、BKP简介及代码编写1、BKP简介2、BKP基本结构3、BKP库函数介绍:4、程序编写: 三、RTC简介及代码编写1、RTC简介2、RTC框图2、RTC基本结构3、RTC相关库函数介绍:4、程…

在docker中搭建redis哨兵环境

文章目录 一、引言二、环境准备前提条件目录结构 三、配置文件1. 主节点配置文件 sentinel-master.conf2. 从节点配置文件3. 哨兵配置文件 sentinel.conf4. Docker Compose 文件 四、启动 Docker Compose五、验证哨兵机制1. 检查主节点状态2. 检查从节点状态3. 检查哨兵状态4. …

职场高手揭秘,细节如何左右你的成败与升迁之路

身在职场,每一个人都想得到老板的器重,能不断地加薪、升职,从而获得职场的成功。但你知道,影响一个人职场成功,或者说影响升职加薪的最重要因素是什么吗? 许多人会说那要靠运气,也有人认为工作…

微信小程序 高校教材征订系统

文章目录 项目介绍具体实现截图技术介绍mvc设计模式小程序框架以及目录结构介绍错误处理和异常处理java类核心代码部分展示详细视频演示源码获取 项目介绍 系统分为三个角色,分别是教材科、系教学秘书、教研室主任。系统主要完成功能是教材科要发布教材征订信息&am…

RNN中的梯度消失与梯度爆炸问题

梯度消失与梯度爆炸问题 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络.在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有…

Unity网络开发基础(part5.网络协议)

目录 前言 网络协议概述 OSI模型 OSI模型的规则 第一部分 物理层 数据链路层 网络层 传输层 第二部分 ​编辑 应用层 表示层 会话层 每层的职能 TCP/IP协议 TCP/IP协议的规则 TCP/IP协议每层的职能 TCP/IP协议中的重要协议 TCP协议 三次握手 四次挥手 U…

ENSP GVRP动态学习VLAN

手工配置的VLAN称为静态VLAN,通过GVRP协议创建的VLAN称为动态VLAN。 GVRP有三种注册模式,不同的模式对静态VLAN和动态VLAN的处理方式也不同。 GVRP的三种注册模式分别定义如下: Normal模式:允许动态VLAN在端口上进行注册…

【JavaEE初阶 — 多线程】单例模式 & 指令重排序问题

目录 1. 单例模式 (1) 饿汉模式 (2) 懒汉模式 1. 单线程版本 2. 多线程版本 2. 解决懒汉模式产生的线程安全问题 (1) 产生线程安全的原因 (2) 解决线程安全问题 1. 通过加锁让读写操作紧密执行 方法一 方法二 2. 处理加锁引入的新问题 问题描述 …

论文阅读:Computational Long Exposure Mobile Photography (二)

这篇文章是谷歌发表在 2023 ACM transaction on Graphic 上的一篇文章,介绍如何在手机摄影中实现长曝光的一些拍摄效果。 Abstract 长曝光摄影能拍出令人惊叹的影像,用运动模糊来呈现场景中的移动元素。它通常有两种模式,分别产生前景模糊或…

大语言模型鼻祖Transformer的模型架构和底层原理

Transformer 模型的出现标志着自然语言处理(NLP)技术的一次重大进步。这个概念最初是针对机器翻译等任务而提出的,Transformer 后来被拓展成各种形式——每种形式都针对特定的应用,包括原始的编码器-解码器(encoder-de…

解决vue3导出.xlsx的blob文件受损问题

1、 首先要设置get或者post请求的类型。这里我用到post请求 eg&#xff1a;在http.ts中添加公共的方法。 export function post1(url: string, params: any): Promise<AxiosResponse> | Promise<AxiosResponse<any>> {return new Promise((resolve, reject…

Jest项目实战(6):搭建文档网站

搭建文档网站 创建 API 文档可以选择如下的 3 种方式&#xff1a; 功能较少&#xff0c;可以直接写在 README.md 文件里面内容较多&#xff0c;可以单独写一个文件API 数量众多&#xff08;Vue、React 这种级别&#xff09;&#xff0c;需要考虑单独拿一个网站来做详细的文档…

STM32项目---水质水位检测

1 项目简介 1.1 项目需求 本项目通过测量水体的TDS来反映水体的质量。并同时可以测量水位&#xff08;水深&#xff09;。 1.2 系统总体设计 2 硬件模块 2.1 硬件选型 水位测量模块 TDS采集模块 外置ADC模块&#xff08;ADS1115&#xff09; 2.2 水位测量模块使用方法 …

从神经元到神经网络:深度学习的进化之旅

神经元、神经网络 神经元 Neuron )&#xff0c;又名感知机( Perceptron )&#xff0c;在模型结构上与 逻辑回归 一致&#xff0c;这里以一个二维输入量的例子对其进行进一步 的解释&#xff1a; 假设模型的输 入向 量是一 维特征向 (x1,x2). 则单神 经元的模型结构 如下…

银行信贷风控专题:Python、R 语言机器学习数据挖掘应用实例合集:xgboost、决策树、随机森林、贝叶斯等

银行信贷风控专题&#xff1a;Python、R 语言机器学习数据挖掘应用实例合集&#xff1a;xgboost、决策树、随机森林、贝叶斯等 原创 拓端研究室 全文链接&#xff1a;https://tecdat.cn/?p38026 在当今金融领域&#xff0c;风险管控至关重要。无论是汽车贷款违约预测、银行挖掘…

某华迪加现场大屏互动系统mobile.do.php任意文件上传

免责声明 本文章仅供学习与交流&#xff0c;请勿用于非法用途&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任 漏洞描述 该系统是实现现场大屏互动&#xff0c;里面功能众多&#xff0c;但在mobile.do.php接口处存在任意文件上传漏洞 搜索语法 fof…

基于Python的学生宿舍管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…

【AI视频换脸整合包及教程】AI换脸新星:Rope——让换脸变得如此简单

在数字技术迅猛发展的今天&#xff0c;人工智能&#xff08;AI&#xff09;的应用已经渗透到了我们生活的方方面面&#xff0c;从日常的语音助手到复杂的图像处理&#xff0c;无不体现着AI技术的魅力。特别是在娱乐和创意领域&#xff0c;AI技术更是展现出了惊人的潜力。其中&a…