《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》|文献速递--基于深度学习的医学影像病灶分割

Title

题目

PneumoLLM: Harnessing the power of large language model for pneumoconiosis diagnosis

《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》

01

文献速递介绍

在计算机辅助诊断领域,对医学数据的处理和分析能力至关重要。这不仅有助于潜在疾病的诊断,还能够预测未来的临床结果。随着深度学习理论的迅速发展,研究人员设计了复杂的网络架构(He et al., 2016;Dosovitskiy et al., 2020),并整理了大量高质量的数据集(Deng et al., 2009;Wang et al., 2017),以预训练这些强大的网络。预训练策略通过优化权重分布赋予网络宝贵的知识,从而使研究人员能够进一步利用标注数据来针对特定疾病进行模型的微调。当数据丰富且标注准确时,这一经典范式通常能够取得出色的效果,尤其是在常见疾病的诊断上。例如,EchoNet-Dynamic(Ouyang et al., 2020)在心脏功能评估上已经超越了医学专家。

然而,当我们深入探讨如尘肺病等职业病时(Li et al., 2023b;Dong et al., 2022),情形就会发生变化。长期暴露在充满粉尘的环境中且未配备个人防护装备的个体容易患上肺纤维化,这是一种尘肺病的前兆(Qi et al., 2021;Devnath et al., 2022)。尘肺病高发地区通常经济不发达,缺乏医疗资源和基础设施,以及专业的医疗从业者。此外,这些地区对疾病筛查和诊断存在明显的抵触情绪,导致临床数据严重不足(Sun et al., 2023;Huang et al., 2023b)。数据的匮乏使得传统的预训练与微调策略难以奏效。

Abatract

摘要

The conventional pretraining-and-finetuning paradigm, while effective for common diseases with ampledata, faces challenges in diagnosing data-scarce occupational diseases like pneumoconiosis. Recently, largelanguage models (LLMs) have exhibits unprecedented ability when conducting multiple tasks in dialogue,bringing opportunities to diagnosis. A common strategy might involve using adapter layers for vision–language alignment and diagnosis in a dialogic manner. Yet, this approach often requires optimization ofextensive learnable parameters in the text branch and the dialogue head, potentially diminishing the LLMs’efficacy, especially with limited training data. In our work, we innovate by eliminating the text branch andsubstituting the dialogue head with a classification head. This approach presents a more effective methodfor harnessing LLMs in diagnosis with fewer learnable parameters. Furthermore, to balance the retention ofdetailed image information with progression towards accurate diagnosis, we introduce the contextual multitoken engine. This engine is specialized in adaptively generating diagnostic tokens. Additionally, we proposethe information emitter module, which unidirectionally emits information from image tokens to diagnosistokens. Comprehensive experiments validate the superiority of our methods.

传统的预训练和微调范式虽然在数据充足的常见疾病诊断中表现有效,但在诊断如尘肺病等数据稀缺的职业病时面临挑战。近年来,大型语言模型(LLMs)在对话中执行多项任务时展现出前所未有的能力,为疾病诊断带来了新的机遇。常见的策略可能包括使用适配层进行视觉和语言的对齐,并以对话的方式进行诊断。然而,这种方法通常需要优化文本分支和对话头中的大量可学习参数,在训练数据有限的情况下,可能会削弱LLMs的效能。在我们的工作中,我们创新地去除了文本分支,并用分类头替代了对话头。此方法为利用LLMs进行诊断提供了一种更有效的途径,同时减少了可学习参数的数量。此外,为了平衡详细图像信息的保留与准确诊断的推进,我们引入了上下文多重标记引擎。该引擎专门用于自适应生成诊断标记。此外,我们提出了信息发射模块,该模块单向地将信息从图像标记传递到诊断标记。全面的实验验证了我们方法的优越性。

Method

方法

The efficacy of computer-aided diagnosis systems is crucial in processing and analyzing medical data. However, these systems often facea significant shortfall in clinical data availability. Leveraging the richknowledge reservoirs of foundational models is a promising strategyto address this data scarcity. Yet, the conventional pretraining-andfinetuning approach may compromise the representation capabilities ofLLMs, due to substantial changes in their parameter spaces, leading toincreased training time and memory overhead (Touvron et al., 2023a,b;OpenAI, 2023b).

计算机辅助诊断系统在处理和分析医学数据中的有效性至关重要。然而,这些系统往往面临临床数据可用性不足的重大挑战。利用基础模型丰富的知识储备是一种解决数据稀缺的有前途的策略。然而,传统的预训练和微调方法可能会由于其参数空间的显著变化而削弱大型语言模型(LLMs)的表示能力,导致训练时间和内存开销的增加(Touvron et al., 2023a,b;OpenAI, 2023b)。

Conclusion

结论

In this paper, we introduce PneumoLLM, a pioneering approachutilizing large language models for streamlined diagnostic processesin medical imaging. By discarding the text branch and transformingthe dialogue head into a classification head, PneumoLLM simplifies theworkflow for eliciting knowledge from LLMs. This innovation provesparticular effectiveness when only classification labels are available fortraining, rather than extensive descriptive sentences. The streamlinedprocess also significantly reduces the optimization space, facilitatinglearning with limited training data. Ablation studies further underscorethe necessity and effectiveness of the proposed modules, especiallyin maintaining the integrity of source image details while advancingtowards accurate diagnostic outcomes.

在本文中,我们介绍了PneumoLLM,这是一种利用大型语言模型简化医学影像诊断流程的创新方法。通过舍弃文本分支并将对话头转换为分类头,PneumoLLM简化了从大型语言模型中提取知识的工作流程。这一创新在仅有分类标签用于训练而非大量描述性语句的情况下表现出特别的效果。简化的流程也显著减少了优化空间,有助于在有限的训练数据下进行学习。消融研究进一步强调了所提出模块的必要性和有效性,特别是在保持源图像细节完整性的同时,实现准确诊断结果方面。

Figure

图片

Fig. 1. Representative pipelines to elicit knowledge from large models. (a) Traditional works conduct vision–language contrastive learning to align multimodal representations. (b)To utilize large language models, existing works transform images into visual tokens, and send visual tokens to LLM to generate text descriptions. (c) Our work harnesses LLM todiagnose medical images by proper designs, forming a simple and effective pipeline.

图1. 从大型模型中获取知识的代表性流程。(a) 传统方法进行视觉-语言对比学习,以对齐多模态表示。(b) 为了利用大型语言模型,现有方法将图像转换为视觉标记,并将视觉标记发送到大型语言模型中生成文本描述。(c) 我们的工作通过适当的设计利用大型语言模型诊断医学图像,形成了一个简单而有效的流程。

图片

Fig. 2. Diagram of the proposed PneumoLLM. The vision encoder processes chest radiography and extracts source tokens. The contextual multi-token engine generates multiplediagnosis tokens conditioned on source tokens. To elicit in-depth knowledge from the LLM, we design the information emitter module within the LLM Transformer layers, enablingunidirectional information flow from source tokens to diagnosis tokens, preserving complete radiographic source details and aggregating critical diagnostic information.

图2. 所提出的PneumoLLM的示意图。视觉编码器处理胸部X光片并提取源标记。上下文多重标记引擎基于源标记生成多个诊断标记。为了从大型语言模型中获取深入的知识,我们在大型语言模型的Transformer层中设计了信息发射模块,实现了从源标记到诊断标记的单向信息流动,既保留了完整的X光片源细节,又聚合了关键的诊断信息。

图片

Fig. 3. The illustration examples of dataset preprocessing: two examples labeled as‘‘Normal’’ and ‘‘Pneumoconiosis’’. The window adjustment operation use the defaultwindow level and width (stored in the DICOM tags) to pre-process the original DICOMfiles. The segmentation results are obtained using the CheXmask pipeline, as proposedin the paper by Gaggion et al. (2023). The selection of the rectangular lung regions isbased on the largest external rectangle of the segmentation results.

图3. 数据集预处理的示例说明:“正常”和“尘肺病”两种标签的示例。窗位和窗宽调整操作使用默认的窗位和窗宽(存储在DICOM标签中)对原始DICOM文件进行预处理。分割结果是使用Gaggion等人(2023)论文中提出的CheXmask流程获得的。矩形肺区域的选择基于分割结果的最大外接矩形。

图片

Fig. 4. Pneumoconiosis diagnosis results comparison with recent prestigious methods. The correct diagnosis results are highlighted in red.

图4. 尘肺病诊断结果与近期著名方法的比较。正确的诊断结果以红色突出显示。

图片

Fig. 5. The t-SNE visualization of feature representation obtained by different networks in comparison experiment.

图5. 比较实验中由不同网络获得的特征表示的t-SNE可视化。

图片

Fig. 6. Illustration on various vision encoder networks and the number of generateddiagnosis tokens. Please zoom in for the best view.

图 6. 各种视觉编码器网络及其生成的诊断标记数量的示意图。请放大查看以获得最佳效果。

Table

图片

Table 1Existing diagnosis methods for pneumoconiosis.

表1现有的尘肺病诊断方法。

图片

Table 2Comparison results with recent prestigious methods on the pneumoconiosis dataset

表2 尘肺病数据集上与近期著名方法的比较结果

图片

Table 3Comparison results with recent LLM-based methods on the pneumoconiosis dataset.

表3 尘肺病数据集上与近期基于大型语言模型(LLM)方法的比较结果。

图片

Table 4Analysis of LLaMA-7B foundational model in pneumoconiosis diagnosis

表4 LLaMA-7B基础模型在尘肺病诊断中的分析

图片

Table 5Ablation study on eliminating the textual processing branch in LLM.

表5 消除大型语言模型(LLM)中的文本处理分支的消融研究。

图片

Table 6Ablation study on various PneumoLLM components

表6 各种PneumoLLM组件的消融研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/420589.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nature Communications 多模触觉-视觉融合机器人:用于灵巧机器人做家务

随着机器人越来越多地参与人类日常生活,对模仿人类能力的追求推动了机器人多模态感官的进步。然而,目前的感知技术仍然不能满足机器人在家庭任务/环境中的需求,特别是在多感官整合和融合、快速反应能力和高灵敏度感知方面面临着巨大的挑战。 …

91、K8s之ingress上集

一、Ingress service模式: loadbalance NodePort:每个节点都会有一个指定的端口 30000-32767 内网 clusterip:默认模式,只能pod内部访问 externalName:需要dns提供域名 1.1、对外提供服务的ingress service&…

动态单窗口IP代理:提升网络操作的灵活性和安全性

互联网时代,各种网络工具层出不穷,而动态单窗口IP代理无疑成为了近年来的热门话题。今天,我们就来聊聊这个神奇的工具,看看它到底有什么独特之处。 什么是动态单窗口IP代理? 动态单窗口IP代理,顾名思义&a…

OpenGL Texture C++ 预览Camera视频

OpenGL是一个图形API,并不是一个独立的平台。包含了一系列可以操作图形、图像的函数。基于Texture纹理强大的功能,本篇文章实现Android OpenGL Texture C 预览Camera视频流的功能。 项目github地址:https://github.com/wangyongyao1989/WyFFm…

动手学深度学习(pytorch)学习记录27-深度卷积神经网络(AlexNet)[学习记录]

目录 创建模型读取数据集训练AlexNet AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年提出的深度卷积神经网络,它在当年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了显著的成绩,从而引起了深度…

15.3 JDBC数据库编程2

15.3.1 数据库访问步骤 使用JDBC API连接和访问数据库,一般分为以下5个步骤: (1) 加载驱动程序 (2) 建立连接对象 (3) 创建语句对象 (4) 获得SQL语句的执行结果 (5) 关闭建立的对象,释放资源 下面将详细描述这些步骤 15.3.2 加载驱动程序 要使…

计算机网络408考研 2022

https://zhuanlan.zhihu.com/p/695446866 1 1 1SDN代表软件定义网络。它是一种网络架构,旨在通过将网络控制平面从数据转发平面分离出来,从而实现网络的灵活性和可编程性。在SDN中,网络管理员可以通过集中式控制器 来动态管理网络流量&…

2024 年 8 月区块链游戏研报:用户增长与加密货币市场波动并存

作者:Stella L (stellafootprint.network) 数据来源:Footprint Analytics Games Research 页面 8 月,加密货币市场面临严峻挑战,比特币和以太币的价值都大幅下跌。比特币下跌了 9.3%,而以太坊的跌幅更为严重&#x…

代码随想录27期|Python|Day51|​动态规划|​115.不同的子序列|​583. 两个字符串的删除操作​|

115. 不同的子序列 本题是在原来匹配子序列的基础上增加了统计所匹配的子序列个数,也就是dp数组的定义和更新公式和原来的有所区别。 1、dp数组的定义 dp[i][j]表示以i-1和j-1为末尾的字符串中,给定字符串s包含目标字符串t的个数。注意这里不是长度。…

CTF入门教程(非常详细)从零基础入门到竞赛,看这一篇就够了!

一、CTF简介 CTF(Capture The Flag)中文一般译作夺旗赛,在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。CTF起源于1996年DEFCON全球黑客大会,以代替之前黑客们通过互相发起真实攻击进行技术比拼的方式。…

多个微信是怎么进行管理的?

随着微信逐渐成为企业商务沟通的重要平台,对于业务咨询量较大的行业(例如教育培训、旅游、美容以及医疗等)而言,在利用微信进行营销活动和客户服务的过程中,往往会遭遇多微信管理的困境。 在此情形下,选用工…

企业出海网络方案,助力TikTok直播

在全球贸易蓬勃发展的今天,出海电商已成为引领增长的新动力,政府对此的支持力度也在持续加大,为企业带来了前所未有的出海机遇。越来越多的企业开始进军TikTok直播等业务,而在这一过程中,一个适应全球化运营的出海网络…

RS485网关在工业自动化控制系统中的应用-天拓四方

随着工业自动化控制系统的不断发展,各种现场总线技术在工业领域得到了广泛应用。其中,RS485作为一种半双工的通信方式,因其通信距离远、抗干扰能力强、传输速率高等优点,在工业现场得到了广泛应用。而RS485网关作为连接不同网络之…

“人大金仓”正式更名为“电科金仓”; TDSQL-C支持回收站/并行DDL等功能; BigQuery支持直接查询AlloyDB

重要更新 1. “人大金仓”正式更名为“电科金仓”,完整名称“中电科金仓(北京)科技股份有限公司”,突出金仓是中国电子科技集团有限公司在基础软件领域产品( [1] ) 。据悉人大金仓在上半年营收入为9056万元,净利润约21…

并发编程:Future类

一、Future 类有什么用? Future 类是异步思想的典型运用,主要用在一些需要执行耗时任务的场景,避免程序一直原地等待耗时任务执行完成,执行效率太低。具体来说是这样的:当我们执行某一耗时的任务时,可以将…

使用Python自动抓取亚马逊网站商品信息

全量数据抓取不现实,但可以自动化、小批量采集亚马逊数据,现在可用的工具也非常多,包括Python以及一些专门的爬虫软件,我用过几个比较好入手的,像web scraper、八爪鱼、亮数据。 比如亮数据爬虫,它提供数据…

Dubbo精要

1、为什么需要 Dubbo? 分布式系统中的服务调用和协调问题:在分布式系统中,服务之间的相互依赖会导致复杂的通信和协调问题。Dubbo提供了高效的服务调用和自动注册、发现等功能,使得构建分布式应用程序更加容易。服务治理和服务调…

Ubuntu下使用Cron定时任务

Ubuntu下使用Cron定时任务 文章目录 Ubuntu下使用Cron定时任务概述Cron 工作原理crontab的基本指令使用Cron 定时任务语法用户的crontab 文件系统的crontab 文件cron 任务设置环境变量1. 直接在 crontab 中声明变量2. 将变量声明为命令的一部分3. 从文件加载变量使用环境变量控…

06后夺得都江堰杯2024国际超模大赛四川总决赛冠军

9月8日众人期盼已久的都江堰杯2024国际超模大赛四川总决赛在三遗之城都江堰落下帷幕。国际超模大赛已经举办第12个年头,每年为时尚界、模特界输送无数的优秀时尚模特人才,让世界超模中出现更多的中国面孔。大赛在全球已经布局多个国家及地区,…

MySQL高可用配置及故障切换

目录 引言 一、MHA简介 1.1 什么是MHA(MasterHigh Availability) 1.2 MHA的组成 1.3 MHA的特点 1.4 MHA工作原理 二、搭建MySQL MHA 2.1 实验思路 2.2 实验环境 1、关闭防火墙和安全增强系统 2、修改三台服务器节点的主机名 2.3 实验搭建 1、…