SCI 1区论文:Segment anything in medical images(MedSAM)[文献阅读]

基本信息

  • 标题:Segment anything in medical images
  • 中文标题:分割一切医学图像
  • 发表年份: 2024年1月
  • 期刊/会议: Nature Communications
  • 分区: SCI 1区
  • IF:16.6
  • 作者: Jun Ma; Bo Wang(一作;通讯)
  • 单位:加拿大多伦多大学 健康网络中心
  • DOI:https://doi.org/10.1038/s41467-024-44824-z
  • 开源代码:https://github.com/bowang-lab/MedSAM

摘要: 医学图像分割是临床实践中的一个关键组成部分,有助于准确诊断、治疗计划和疾病监测。然而,现有的方法通常针对特定的模式或疾病类型,在各种医学图像分割任务中缺乏可推广性。在这里,我们介绍了MedSAM,这是一个基础模型,旨在通过实现通用医学图像分割来弥合这一差距。该模型是在大型医学图像数据集上开发的,有1570263对图像-掩码对,涵盖10种成像模式和30多种癌症类型。我们对86个内部验证任务和60个外部验证任务进行了全面评估,证明了比模态专家模型更好的准确性和稳健性。通过在广泛的任务中提供准确高效的分段,MedSAM在加快诊断工具的发展和治疗计划的个性化方面具有巨大潜力。

章节速览

  • Introduction
    1. Results
    • 1.1 MedSAM:快速医学图像分割的基础模型
    • 1.2 定量和定性分析
    • 1.2 训练数据集大小的影响
    • 1.4 MedSAM提升标注效率
    1. Discussion
    1. Methods
    • 3.1 数据集管理和预处理
    • 3.2 网络架构
    • 3.3 训练方案及实验设置
    • 3.4 损失函数
    • 3.5 人类注释
    • 3.6 评估指标
    • 3.7 统计分析
    • 3.8 使用软件
    • 3.9 报告总结

Introduction

医学图像分割领域对通用模型的需求日益增长:即一次训练后能够应用于广泛分割任务的模型。这样的模型不仅在模型容量方面表现出更高的多功能性,还有可能在不同任务中产生更加一致的结果。

然而,由于自然图像与医学图像之间存在显著差异,因此分割基础模型(例如 SAM)在医学图像分割领域的适用性仍然有限。SAM本质上是一种可提示的分割方法,需要使用点或边界框来指定分割目标

许多研究已经将开箱即用的SAM模型应用于典型的医学图像分割任务和其他具有挑战性的场景。我们进一步介绍了MedSAM,这是一种改进的基础模型,可显着增强 SAM 在医学图像上的分割性能。MedSAM 通过在包含超过一百万对医学图像-掩模对的前所未有的数据集上微调 SAM 来实现这一目标

1. Results

1.1 MedSAM:快速医学图像分割的基础模型

MedSAM 旨在发挥通用医学图像分割基础模型的作用。构建此类模型的一个关键方面是能够适应成像条件、解剖结构和病理条件的各种变化。为了应对这一挑战,我们策划了一个多样化的大规模医学图像分割数据集,其中包含 1,570,263 个医学图像掩模对,涵盖 10 种成像模式、30 多种癌症类型和多种成像协议

图1 该数据集涵盖了各种解剖结构、病理状况和医学成像模式。洋红色轮廓和掩模叠加分别表示专家注释和 MedSAM 分割结果

图1 轮廓细节

图 2a概述了数据集中不同医学成像模式的图像分布,按总数排序。很明显,计算机断层扫描(CT)、磁共振成像(MRI)和内窥镜检查是主要的检查方式,反映出它们在临床实践中的普遍性。

图 2a 数据集中不同医学成像模式的图像分布

我们采用了SAM中的网络架构,包括图像编码器、提示编码器和掩模解码器(图2b)。图像编码器将输入图像映射到高维图像嵌入空间。提示编码器通过位置编码将用户绘制的边界框转换为特征表示。最后,掩模解码器使用交叉注意力(方法)将图像嵌入和提示特征融合在一起。

图 2b 网络架构

1.2 定量和定性分析

我们通过内部验证和外部验证评估了 MedSAM。内部验证包含 86 个分割任务。外部验证包括 60 个分割任务,所有这些任务要么来自新数据集,要么涉及看不见的分割目标

图3:内部验证集的定量和定性评估结果

1.3 训练数据集大小的影响

我们还研究了不同数据集大小对 MedSAM 性能的影响,因为训练数据集大小已被证明对模型性能至关重要。我们还在两种不同的数据集大小上训练了 MedSAM:10K 和 100K 图像,并将它们的性能与默认的 MedSAM 模型进行了比较

图 5a:训练数据集大小的影响

增加训练图像的数量显着提高了内部和外部验证集的性能

1.4 MedSAM提升标注效率

此外,我们进行了人工注释研究来评估两个管道的时间成本(方法)。对于第一个管道,两名人类专家以逐片方式手动注释 3D 肾上腺肿瘤。对于第二条流程,专家们首先每隔3-10片用线性标记(初始标记)绘制肿瘤长轴和短轴,这是肿瘤反应评估的常见做法。然后,使用 MedSAM 根据这些稀疏线性注释对肿瘤进行分割。结果表明,在 MedSAM 的帮助下,两位专家的注释时间分别大幅减少了 82.37% 和 82.95%

图5 b MedSAM 可用于大幅减少注释时间成本

2. Discussion

尽管 MedSAM 拥有强大的功能,但它也存在一定的局限性

  • 训练集中的模态不平衡,其中 CT、MRI 和内窥镜图像在数据集中占主导地位。这可能会影响模型在较少代表性的模式(例如乳房X光检查)上的性能。
  • 它在分割血管状分支结构方面存在困难,因为在此设置中边界框提示可能不明确。例如,在眼底图像中,动脉和静脉共享相同的边界框。

然而,这些限制并没有削弱 MedSAM 的实用性。由于 MedSAM 从大规模训练集中学习了丰富且有代表性的医学图像特征,因此可以对其进行微调,以有效地将新任务从代表性较低的模式或复杂的结构(如血管)中分割出来。

3. Methods

3.1 数据集管理和预处理

数据来源:这些数据集是从互联网上的各种来源获得的,包括TCIA、Kaggle、Grand-Challenge、Scientific Data、CodaLab 和MICCAI。

数据处理:所有3D 数据集(DICOM、nrrd 或 mhd 格式)都转换为广泛使用的 NifTI 格式。此外,灰度图像(例如 X 射线和超声)以及 RGB 图像(包括内窥镜检查、皮肤镜检查、眼底和病理图像)也被转换为 png 格式。

归一化方案

  • CT图像归一化:对 Hounsfield 单位进行归一化。软组织、肺和脑所采用的窗口宽度和水平值分别为(W:400,L:40)、(W:1500,L:-160)和(W:80,L:40)。随后,强度值被重新调整到 [0, 255] 的范围。
  • MR、X 射线、超声波、乳房 X 光检查和光学相干断层扫描 (OCT) 图像,我们将强度值剪裁到第 0.5 个百分位数和第 99.5 个百分位数之间的范围,然后将其重新缩放到 [0, 255] 范围。
  • RGB图像(例如内窥镜、皮肤镜、眼底和病理图像),如果它们已经在[0, 255]的预期强度范围内,则它们的强度保持不变。但是,如果它们超出此范围,我们会利用最大-最小归一化将强度值重新调整为 [0, 255]。

图像尺寸

最后,为了满足模型的输入要求,将所有图像调整为统一大小1024×1024×3。对于全幻灯片病理图像,使用滑动窗口方法提取无重叠的斑块。位于边界上的斑块用 0 填充到该大小。对于 3D CT 和 MR 图像,每个 2D 切片的大小调整为 1024 × 1024,并且通道重复 3 次以保持一致性。其余的 2D 图像直接调整为 1024 × 1024 × 3。

3.2 网络架构

本研究中使用的网络是基于Transformer架构,该架构在自然语言处理和图像识别等各个领域展现出了显著的有效性。具体而言,该网络包括一个基于Vision Transformer(ViT)的图像编码器,负责提取图像特征;一个提示编码器,用于整合用户的交互(边界框);以及一个掩模解码器,利用图像嵌入、提示嵌入和输出令牌生成分割结果和置信度分数。

3.3 训练方案及实验设置

模型使用预先训练的 SAM 模型和 ViT-Base 模型进行初始化。损失函数是Dice损失和交叉熵损失之间的未加权总和。AdamW 优化器(β 1 = 0.9,β 2 = 0.999)进行优化,初始学习率为 1e-4,权重衰减为 0.01。全局批量大小为 160,未使用数据增强。该模型在 20 个 A100 (80G) GPU 上进行了 150 个 epoch 的训练,并选择最后一个检查点作为最终模型。

看到最后,20 个 A100,我欣慰了,并不是我脑子不够用才发不了这么好的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/256045.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python+flask+django农产品供销展销电子商务系统lkw43

供销社农产品展销系统的设计与实现,最主要的是满足使用者的使用需求,并且可以向使用者提供一些与系统配套的服务。本篇论文主要从实际出发,采用以对象为设计重点的设计方法,因此在进行系统总体的需求分时借助用例图可以更好的阐述…

一个三极管引脚识别的小技巧,再也不用对照手册啦

三极管是一个非常常用的器件,时不时的就需要用到他们,有些时候当我们拿到一颗三极管时 ,对于常用的友来说,三极管的引脚可能早已烂熟于心,而对于不常用或者初学者来说,三极管的引脚可以说是今天记下明天忘,后天搞混大后天重看手册(玩笑话),但是这种情况可以说每个人都…

[ai笔记3] ai春晚观后感-谈谈ai与艺术

欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第3篇分享! 今天我们不聊技术,只聊感受! 1 关于ai春晚 期待许久的ai春晚,但是等初一晚上观看的时候,或多或少还是有些失望。 首先是观看人数…

工业以太网交换机引领现代工厂自动化新潮流

随着科技的飞速发展,现代工厂正迎来一场前所未有的自动化变革,而工业以太网交换机的崭新角色正是这场变革的关键组成部分。本文将深入探讨工业以太网交换机与现代工厂自动化的紧密集成,探讨这一集成如何推动工业生产的智能化、效率提升以及未…

车载电子电器架构 —— 电子电气系统功能开发

车载电子电器架构 —— 电子电气系统功能开发 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。江湖一碗茶,喝完再挣扎,出门靠自己,四海皆…

腾讯云4核8G服务器可以用来干嘛?怎么收费?

腾讯云4核8G服务器适合做什么?搭建网站博客、企业官网、小程序、小游戏后端服务器、电商应用、云盘和图床等均可以,腾讯云4核8G服务器可以选择轻量应用服务器4核8G12M或云服务器CVM,轻量服务器和标准型CVM服务器性能是差不多的,轻…

[缓存] - Redis

0.为什么要使用缓存? 用缓存,主要有两个用途:高性能、高并发。 1. 高性能 尽量使用短key 不要存过大的数据 避免使用keys *:使用SCAN,来代替 在存到Redis之前压缩数据 设置 key 有效期 选择回收策略(maxmemory-policy) 减…

汽车零部件制造业MES系统解决方案

一、​汽车零部件行业现状 随着全球汽车产业不断升级,汽车零部件市场竞争日趋激烈,从上游的钢铁、塑料、橡胶等生产到下游的主机厂配套制造,均已成为全球各国汽车制造大佬战略目标调整的焦点,其意欲在汽车零部件行业快速开疆扩土&…

【C语言】C的整理记录

前言 该笔记是建立在已经系统学习过C语言的基础上,笔者对C语言的知识和注意事项进行整理记录,便于后期查阅,反复琢磨。C语言是一种面向过程的编程语言。 原想在此阐述一下C语言的作用,然而发觉这些是编程语言所共通的作用&#…

【服务器数据恢复】服务器RAID模块硬件损坏的数据恢复案例

服务器数据恢复环境&故障: 某品牌服务器中有一组由数块SAS硬盘组建的RAID5磁盘阵列,服务器操作系统是WINDOWS SERVER,服务器中存放企业数据,无数据库文件。 服务器出故障之前出现过几次意外断电的情况,服务器断电…

用云手机打造tiktok账号需要注意些什么?

随着tiktok平台的火热,越来越多的商家开始尝试更高效的tiktok运营方法。其中,tiktok云手机作为一种新科技引起了很多人的注意,那么用云手机运营tiktok需要注意些什么?下文将对此进行详细解析。 1. 不是所有的云手机都适合做tiktok…

[BeginCTF]真龙之力

安装程序 双击安装 出现了安装失败的标签&#xff0c;开发者不允许测试。 查看Mainfest入口文件 <?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android" android:versionCo…

【数据分享】1929-2023年全球站点的逐年平均能见度(Shp\Excel\免费获取)

气象数据是在各项研究中都经常使用的数据&#xff0c;气象指标包括气温、风速、降水、能见度等指标&#xff0c;说到气象数据&#xff0c;最详细的气象数据是具体到气象监测站点的数据&#xff01; 之前我们分享过1929-2023年全球气象站点的逐年平均气温数据、逐年最高气温数据…

专业140+总分410+华南理工大学811信号与系统考研经验华工电子信息与通信,真题,大纲,参考书。

23考研已经落幕&#xff0c;我也成功的上岸华工&#xff0c;回首这一年多的历程&#xff0c;也是有一些经验想和大家分享一下。 首先说一下个人情况&#xff0c;本科211&#xff0c;初试成绩400分。专业课140。 整体时间安排 对于考研&#xff0c;很重要的一环就是时间安排&…

零基础学Python之整合MySQL

Python 标准数据库接口为 Python DB-API&#xff0c;Python DB-API为开发人员提供了数据库应用编程接口。 不同的数据库你需要下载不同的DB API模块&#xff0c;例如你需要访问Oracle数据库和Mysql数据&#xff0c;你需要下载Oracle和MySQL数据库模块。 DB-API 是一个规范. 它…

导数的几何意义【高数笔记】

1. 高数中的导数几何意义&#xff0c;与中学中斜率的联系 2. 导函数与导数的区别和联系又是什么 3. 导数的几何意义的题型是什么 4. 这些题型又有哪些区别 5. 点在曲线外和点在曲线上&#xff0c;需要注意什么 6. 法线和切线有什么关系 7. 法线是什么

EasyExcel分页上传数据

EasyExcel分页上传数据 一、实例 controller上传入口 PostMapping("/upload")ResponseBodyLog(title "导入工单", businessType BusinessType.IMPORT)public AjaxResult uploadFile(HttpServletRequest request, MultipartFile files) throws Exceptio…

java之Maven

1. maven Maven是管理和构建java项目的工具 项目依赖资源(jar包)的管理,避免版本冲突统一项目结构项目构建&#xff0c;标准跨平台(Linux,window,MacOS)的自动化项目管理 2.maven依赖仓库 2.maven安装 maven安装视频教程 3. IDEA集成Maven 4. maven的依赖范围 5. maven生命…

【element-ui】el-select下拉框el-date-picker弹出框定位问题解决方案

问题描述&#xff1a; 项目开发过程中发现el-select和el-date-picker弹出框显示时候&#xff0c;滚动屏幕&#xff0c;导致弹出框定位出现问题。 首先考虑到看一下element-ui官网提供的api&#xff0c;如下图 1、select提供了popper-append-to-body属性的配置 代码如下&#x…

C#,21根火柴棍问题(21 Matchticks Problem)的算法与源代码

一、21根火柴棍问题&#xff08;21 Matchticks Problem&#xff09; 21根火柴棍问题是西方经典游戏之一。 给定21根火柴&#xff0c;2个人A和B&#xff08;比如&#xff1a;分别是计算机和用户&#xff09;。 每个人一次可以挑选 1-- 4 根火柴。 被迫挑最后一根火柴的人输了…