【读论文】End-to-end reproducible AI pipelines in radiology using the cloud

文章目录

  • End-to-end reproducible AI pipelines in radiology using the cloud
    • 01 研究背景与目的
      • 医学成像领域
        • (1)研究现状
        • (2)存在问题
      • 其他研究领域:基因组学(genomics)
      • 研究目的:提高医学成像领域的AI研究的可复现性(reproducibility)和可扩展性(scalability)
    • 02 研究方法:cloud-based workflow
      • Data from Imaging Data Commons(IDC)
      • Cloud-based implementation of DL pipelines
      • Use Case 1:deep learning for lung cancer prognostication
      • Use Case 2:foundation models for quantitative biomarker discovery
    • 03 专有名词积累
      • metrics
      • survival analysis(生存分析)

End-to-end reproducible AI pipelines in radiology using the cloud

论文链接:https://www.nature.com/articles/s41467-024-51202-2
代码仓库:https://github.com/ImagingDataCommons/idc-radiomics-reproducibility/tree/v2.0.0

01 研究背景与目的

医学成像领域

(1)研究现状
  • reporting guidelines, checklists and standards
  • community-driven: a registry of AI models developed for biomedical applications
(2)存在问题
  • 只提供了实验设计的规则,没有提供:a practical way to share AI-based pipelines with the community。
  • 缺乏实现的具体信息,包括domain-specific tools、specific software versions、hardware capability

其他研究领域:基因组学(genomics)

  • MIAME guidelines
  • MCI Genomics Data Commons

研究目的:提高医学成像领域的AI研究的可复现性(reproducibility)和可扩展性(scalability)

解决办法:cloud-based workflow
通过简化开发流程实现AI算法的快速临床转化。

  • democratizing access to large standardized datasets(平等地访问大型标准化数据集)
  • free-to-use, easily accessible, consistent computational environments(免费使用、易于访问、一致的计算环境)

02 研究方法:cloud-based workflow

在这里插入图片描述

Data from Imaging Data Commons(IDC)

https://datacommons.cancer.gov/repository/imaging-data-commons

  • Imaging Data Commons (IDC) 是一个基于云的公共癌症影像数据存储库,它与分析和探索工具以及资源共同位于美国国家癌症研究所 (NCI) 癌症研究数据共享平台 Cancer Research Data Commons (CRDC) 内。IDC 是CRDC的一部分,提供了对大量、全面且不断扩展的癌症研究数据的安全访问。
  • 所有由IDC托管的数据都是公开可用的,当前IDC的内容主要来自癌症影像档案库 (The Cancer Imaging Archive, TCIA) 的放射学系列,以及其他主要NCI计划如TCGA、CPTAC、NLST和HTAN收集的数据。
  • IDC不执行图像的去标识化(de-identification),但接受由TCIA或其他NCI安全批准的数据协调中心去标识化的数据。
  • IDC提供使用数字影像和通信医学 (DICOM) 标准标准化的数据访问。它与生成数据的项目合作,将其他格式的数据协调成DICOM表现形式。IDC的内容不仅包括图像,还包括图像注释和分析结果,并且使用通用标识符与CRDC中的其他类型的癌症数据(如蛋白质组学和基因组学数据集)相关联。数据访问通过标准接口支持。
  • 鉴于IDC作为成像数据科学平台的角色,其主要关注点之一是建立成像研究的最佳实践(best practices)。在这方面,IDC的一个关键角色是准备和调整常用的图像分析工具,使其能够在IDC托管的数据集(IDC hosted datasets)上运行的云环境中使用。以前运行分析的总结派生数据(summarized derived data)将与IDC上的影像数据相关联,以方便研究社区使用。

(1)NSCLC-Radiomics collection(LUNG1 dataset)
(2)NSCLC-Radiogenomics collection

Cloud-based implementation of DL pipelines

computing infrastructure:Google Colaboratory (or Colab),Colab是一个免费的云服务,允许用户运行Jupyter笔记本。作者在几个Colab配置(“standard” CPU-only, “high RAM” CPU-only, “free” GPU, and “pro” GPU)下进行测试。

tools:选择open-source and actively developed (or maintained)

  • 医学影像准备和DICOM CT数据预处理:Plastimatch、Numpy和SimpleITK(Insight Segmentation and Registration Toolkit的简化开源接口)
  • 可视化工具:ITKWidgets
  • 影像数据查看器:a browser-based zero-footprint DICOM viewer based on the OHIF viewer,提供了链接到Imaging Data Commons查看器的链接
  • 数据传输工具:将云托管的数据传输到Colab实例,作者使用了s5cmd,这是一个跨平台的开源工具
  • DICOM文件处理:由于从Imaging Data Commons交叉加载的数据以DICOM格式保存,使用dicomsort工具来自定义排序和重命名DICOM文件,以统一其结构
  • 其他DICOM文件操作工具:使用了pydicom和dcmrtstruct2nii等工具来读取、转换或准备DICOM文件
  • 评估指标和生存分析:Scipy、Scikitlearn和Lifelines

Use Case 1:deep learning for lung cancer prognostication

在这里插入图片描述
任务:分析CT图像上的肿瘤病变来预测结果
原数据集:NSCLC-Radiomics数据集的一个子集(N = 211 for the AUC analysis, N = 307 for the Kaplan–Meier analysis
数据集更新:同一队列的更新数据集(2020年底更新的临床和随访数据,clinical and follow-up data)
预处理pipeline:IDC data->format suited for deep learning,开源工具实现
模型权重转换:原始模型权重->open nerual network exchange(ONNX)
评价指标:area under the receiver operating characteristic curve(AUC)、receiver operating characteristic (ROC)、双侧Mann-Whitney U检验、DeLong检验配对AUC曲线、Kaplan-Meier(KM)、Cox比例风险(PH)建模

Use Case 2:foundation models for quantitative biomarker discovery

在这里插入图片描述
任务:自监督训练的基础模型是否可以提高基于深度学习的成像生物标志物的发展

03 专有名词积累

metrics

ROC:receiver operating characteristic
AUC:area under the receiver operating characteristic curve,用于评估分类模型的性能

survival analysis(生存分析)

Kaplan–Meier (KM) analysis,用于估计生存函数和生存曲线
Cox Proportional Hazard (PH) modeling,一种用于生存分析的回归模型,用于评估多个因素对生存时间的影响

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/426271.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据库】MySQL-基础篇-事务

专栏文章索引:数据库 有问题可私聊:QQ:3375119339 目录 一、事务简介 二、事务操作 1.未控制事务 1.1 测试正常情况 1.2 测试异常情况 2.控制事务一 1.1 查看/设置事务提交方式 1.2 提交事务 1.3 回滚事务 3.控制事务二 1.1 开启事…

lvs-dr模式实验详解

华子目录 lvs-dr(企业当中最常用)dr模式数据逻辑dr模式数据传输过程dr模式的特点实验拓扑实验主机准备解决vip响应问题限制响应级别:arp_ignore限制通告级别:arp_announce 实验步骤1.client的ip设定2.router上的ip设定3.router开启路由转发功能4.lvs主机…

Eroded Mountains - Stamp Pack 山脉

这套邮票包含10幅高质量的高度图图像。这些邮票以严重侵蚀的山脉为特色,非常适合古代和史诗般的风景! 高品质邮票塑造您的地形! 每一个伟大的环境场景都始于一个空的平面。 这个邮票包包含10枚邮票,可以帮助你填补这个空白。这些邮票以严重侵蚀的山脉为特色,非常适合古代和…

C++:多态

目录 一.多态的概念 二.多态的定义及其实现 1.虚函数 2.虚函数的重写/覆盖 3.实现多态的条件 4.虚函数重写的例外 5.析构函数的重写 6.经典例题 7.C11 override和final关键字 8.重载、重写/覆盖、隐藏的区别 三.抽象类 四.多态的原理 1.虚函数表指针 2.多态如何实…

13 Midjourney从零到商用·实战篇:漫画设计一条龙

大家好,经过前面十三篇文章,相信大家已经对Midjourney的使用非常熟悉了,那么现在我们开始进行实际的项目操作啦,想想是不是有点小激动呀,本篇文章为大家带来Midjourney在漫画制作领域的使用流程,同样也适用于现在短视频…

[C语言]第十节 函数栈帧的创建和销毁一基础知识到高级技巧的全景探索

10.1. 什么是函数栈帧 我们在写 C 语言代码的时候,经常会把一个独立的功能抽象为函数,所以 C 程序是以函数为基本单位的。 那函数是如何调用的?函数的返回值又是如何待会的?函数参数是如何传递的?这些问题都和函数栈帧…

高德地图2.0 绘制、编辑多边形覆盖物(电子围栏)

1. 安装 npm i amap/amap-jsapi-loader --save移步&#xff1a;官方文档 2. map组件封装 <script lang"ts" setup> import AMapLoader from amap/amap-jsapi-loader import { onMounted, ref } from vue import { propTypes } from /utils/propTypesdefineO…

开发小程序

由于之前购入的阿里云ECS放着落灰&#xff0c;碰巧又看到个有趣的项目&#xff0c;于是就做了个生成头像的小程序…由于第一次完整发布小程序&#xff0c;记录一下遇到的问题 小程序名称&#xff1a;靓仔创意头像 &#x1f602; 关于小程序 接口请求&#xff0c;在开发过程中…

在 Mac 上安装双系统会影响性能吗,安装双系统会清除数据吗?

在 Mac 系统安装并使用双系统已经成为了许多用户办公的选择之一&#xff0c;双系统可以让用户在 Mac 上同时运行 Windows 或其他操作系统。然而&#xff0c;许多用户担心这样做会对 Mac 的性能产生影响。 接下来将给大家介绍 Mac 装双系统会影响性能吗&#xff0c;Mac装双系统…

C++速通LeetCode简单第20题-多数元素

方法一&#xff1a;暴力解法&#xff0c;放multiset中排序&#xff0c;然后依次count统计&#xff0c;不满足条件的值erase清除。 class Solution { public:int majorityElement(vector<int>& nums) {int ans 0;multiset<int> s;for(int i 0;i < nums.s…

孙怡带你深度学习(2)--PyTorch框架认识

文章目录 PyTorch框架认识1. Tensor张量定义与特性创建方式 2. 下载数据集下载测试展现下载内容 3. 创建DataLoader&#xff08;数据加载器&#xff09;4. 选择处理器5. 神经网络模型构建模型 6. 训练数据训练集数据测试集数据 7. 提高模型学习率 总结 PyTorch框架认识 PyTorc…

UE5安卓项目打包安装

Android studio安装 参考&#xff1a;https://docs.unrealengine.com/5.2/zh-CN/how-to-set-up-android-sdk-and-ndk-for-your-unreal-engine-development-environment/ 打开android studio的官网&#xff1a;Download Android Studio & App Tools - Android Developers …

深度学习-生成式检索-论文速读-2024-09-14

深度学习-生成式检索-论文速读-2024-09-14 前言: 生成式检索&#xff08;Generative Retrieval&#xff0c; GR&#xff09;是一种结合了生成模型和检索系统的人工智能技术方法。这种方法在处理信息检索任务时&#xff0c;不仅依赖于已有数据的检索&#xff0c;还能生成新的、…

解锁SQL无限可能 | 基于SQL实现的一种时序数据的波峰个数检测算法

目录 0 算法原理 1 数据准备 2 问题分析 3 小结 数字化建设通关指南专栏原价99&#xff0c;现在活动价39.9&#xff0c;按照阶梯式增长&#xff0c;直到恢复原价 0 算法原理 波峰识别算法 序列数据是按照时间进行采集&#xff0c;其中400个点一个周期&#xff0c;一条数据…

【零散技术】Odoo17通过Controller下载PDF

序言:时间是我们最宝贵的财富,珍惜手上的每个时分 Odoo作为一款开源ERP&#xff0c;拥有极佳的拓展性&#xff0c;Odoo的Controller框架也让它具备了作为微信小程序后端的能力&#xff0c;那么就存在 需要通过小程序来下载PDF的业务情况。 目录 1.功能代码 1.1 manifest 设置 …

Tensorflow—第五讲卷积神经网络

本讲概述 卷积实际上就是特征提取。本讲我们先了解学习卷积神经网络基础知识&#xff0c;再一步步地学习搭建卷积神经网络&#xff0c;最后会运用卷积神经网络对cifar10 数据集分类。在本讲的最后附上几个经典卷积神经网络&#xff1a;LeNet、AlexNet、VGGNet、InceptionNet和…

在Linux中安装FFmpeg

在Linux中安装FFmpeg有两种方法。 安装FFmpeg&#xff08;方法一&#xff09; 第一步&#xff0c;下载FFmpeg。 登录地址&#xff1a;John Van Sickle - FFmpeg Static Builds下载安装包ffmpeg-git-amd64-static.tar.xz。然后使用WinSCP将安装包上传到文件夹/usr/local/src中…

vue2基础系列教程之插槽slot你不得不知道的知识点及面试高频问题

vue2中对插槽的介绍&#xff0c;花了大量的章节篇幅&#xff0c;可想而知&#xff0c;它在框架中的重要性。 slot及slot-scope自 2.6.0 起被废弃。新推荐的语法请查阅v-slot,就语法我们这里就一笔带过&#xff0c;主要学习新的语法 你不能不知道的slot知识点 插槽的作用&#…

C++知识要点总结笔记

文章目录 前言一、c基础1.指针和引用指针和引用的区别函数指针 2.数据类型整型 short int long 和 long long无符号类型强制类型转换怎样判断两个浮点数是否相等&#xff1f; 3.关键字conststaticconst和static的区别define 和 typedef 的区别define 和 inline 的区别define和c…

PostgreSQL(PG)(二十二)

&#x1f33b;&#x1f33b; 目录 &#x1f33b;&#x1f33b; 一、PostgreSQL 简介1.1、PG 的历史1.2、PG的社区1.2.1 纯社区1.2.2 完善的组织结构1.2.3 开源许可独特性 1.3 、PostgreSQL与MySQL的比较 二、PostgresQL的下载安装2.1、Windows上安装 PostgreSQL2.2、远程 连接 …