AI在医学领域:联邦学习 (FL) 在肿瘤学的应用综述

关键词:联邦学习 (Federated Learning, FL)、机器学习 (Machine Learning, ML)、肿瘤学 (Oncology)、数据隐私 (Data Privacy)、精准医疗 (Precision Medicine)、多模态 (Multi-modal)

      肿瘤学正在经历快速的变革,这得益于机器学习(ML)的整合,ML能够丰富大规模数据集中的临床证据,超越了传统的分析方法。然而,到目前为止,ML模型大多是在数据孤岛中集中化的。虽然集中化的ML模型在癌症研究中取得了显著进展,但临床数据的指数级增长和多样化,例如影像学、健康记录和分子特征,现在带来了相当大的挑战。数据量的激增,加上国际合作和标准化数据集的趋势,凸显了局限于本地数据获取实践和人口统计学的单中心研究的局限性。多中心研究,从不同的地区获取数据,提供了一种更全面的ML建模方法。然而,集中化的模型难以有效利用这种日益复杂的数据格局,可能影响ML的泛化能力、性能、全球适用性和可信度。虽然将来自不同来源的数据聚合到集中的数据湖中可能提供了一种替代方案,但它容易受到隐私泄露、复杂的数据共享协议和数据传输法律限制的影响。

     联邦学习(FL)作为这些局限性的潜在解决方案应运而生。使用FL,ML算法可以在本地数据集上同时训练,而无需数据离开其环境。这种去中心化的方法允许医院和研究机构控制自己的数据,解决隐私问题和监管限制,同时从集体洞察中受益。FL在肿瘤学中特别有前景,因为数据涉及敏感的患者信息,及时的协作分析可以对患者的结果产生重大影响。然而,FL的采用并非没有挑战。在不影响数据内容的情况下平衡有效的模型训练和可以增加计算开销并可能影响数据内容的患者隐私技术,确保多个中心的数据质量和一致性,以及保持稳健的模型性能和可信度,都是紧迫的问题。

1 概述

1.1 集中式ML的局限性

  • 数据孤岛: 集中式模型难以有效利用多中心数据,导致模型泛化能力受限。
  • 隐私问题: 集中式模型需要将数据集中存储,容易引发隐私泄露和安全问题。
  • 数据异质性: 不同中心的数据收集方式和人口统计学特征不同,导致数据异质性,影响模型性能和可信度。

1.2 联邦学习的优势

  • 数据分散: 联邦学习允许在本地数据集上同时训练ML模型,无需数据迁移,有效保护隐私。
  • 模型共享: 不同中心的模型可以进行共享和整合,利用集体智慧提高模型性能和泛化能力。
  • 协同分析: 联邦学习可以促进多中心协同分析,加速研究进展,改善患者预后。

1.3 联邦学习的挑战

  • 模型训练与隐私保护的平衡: 需要开发有效的隐私保护技术,同时保证模型训练效果。
  • 数据质量和一致性: 需要确保不同中心数据的质量和一致性,以保证模型性能和可信度。
  • 模型性能和可信度: 需要开发评估方法,确保联邦学习模型的性能和可信度。

2 方法

2.1 文献回顾策略

2.1.1 文献检索策略

  • 时间范围: 2020 年 1 月 1 日至 2023 年 9 月 1 日
  • 数据库: PubMed, Scopus, Web of Science
  • 关键词: 涵盖肿瘤学、联邦学习和机器学习的多个关键词和 MeSH 术语

2.1.2 筛选流程

初步筛选出5,766篇文献,经过逐步筛选,最终纳入25篇符合标准的期刊文章进行分析。

PRISMA流程图

阶段1 - 识别:在数据库搜索和其它来源中识别出的所有潜在相关的研究文献。

阶段2 - 筛选:基于标题和摘要的初步筛选,去除那些明显不相关的文献。

阶段3 - 排除:在初步筛选后,进一步通过阅读全文来排除那些不符合纳入标准的文献。

阶段4 - 纳入:最终纳入综述的文献数量。

2.2 评估标准

  • 联邦学习方法的类型: 模型中心化和数据中心化。
  • 聚合策略: 用于整合参与设备更新或模型参数的方法,例如联邦平均和共识模型集成。
  • 设备类型: 跨设备和跨数据孤岛。
  • 数据类型: 医学影像、电子健康记录等。
  • 隐私方法: 例如差分隐私和加密。
  • 评估指标: 用于评估联邦学习模型性能的指标,例如准确率、召回率和F1分数。
  • 联邦学习范围: 包括模型泛化能力、预测精度、数据隐私、疾病理解、领域适应和训练时间减少等。

2.3 研究重点

  • 临床应用: 包括疾病类型区分、肿瘤识别、治疗反应预测、严重程度评估、副作用预测、生存分析和肿瘤复发评估等。
  • ML模型类型: 包括经典机器学习模型、卷积神经网络、预训练模型和生成对抗网络等。
  • 数据多样性: 评估不同研究中的患者规模和数据规模。

2.4 评估联邦学习方法的严谨性

  • 比较框架: 是否将联邦学习方法与集中式机器学习模型进行比较。
  • 性能比较: 联邦学习方法是否优于或与集中式模型具有可比性。

3 结论

3.1 研究趋势

机器学习(ML)相关的出版物随时间的变化趋势

与FL(联邦学习)相关的出版物随时间的变化趋势

(a)条形/线条:代表每年针对特定临床应用发表的论文数量,不同颜色或样式可能代表不同的临床应用,如肿瘤识别、疾病类型区分、严重程度评估、治疗反应预测、生存分析等。

(b)条形/线条:代表每年针对特定FL范围发表的论文数量,不同颜色或样式可能代表不同的FL目标,如数据隐私、ML预测改进、疾病理解改进、模型泛化能力提升等。

  • 增长趋势: 联邦学习在肿瘤学领域的应用呈上升趋势,从2020年的0篇增加到2023年的13篇。
  • ML技术: 研究涵盖了多种机器学习技术,包括大型预训练模型、UNet、CNN、经典机器学习模型和生成对抗网络等。
  • 临床应用: 研究主要集中在肿瘤识别和疾病类型区分,其次是严重程度评估、治疗反应预测、生存分析和肿瘤复发评估。
  • 联邦学习范围: 研究主要集中在提高模型泛化能力和预测精度,其次是数据隐私和疾病理解。

3.2 联邦学习分析

  • 数据类型: 大型预训练模型主要用于医学影像数据,UNet主要用于MRI、CT、PET-CT和X光数据,CNN用于分析多种数据类型,经典机器学习模型主要用于EHR和影像特征提取,生成对抗网络主要用于MRI和CT数据。
  • 任务类型: 大多数研究关注分类任务,其次是分割和检测任务。
  • 临床应用: 肿瘤识别和疾病类型区分是主要的应用领域,其次是严重程度评估、治疗反应预测、生存分析和肿瘤复发评估。

3.3 数据多样性

  • 患者规模: 研究中的患者规模差异较大,大多数研究集中在100-1,500名患者,但也有研究涉及超过10,000名患者。
  • 数据规模: 数据规模差异也较大,大多数研究集中在1-5,000个图像或样本,但也有研究涉及超过100万个图像或样本。
  • 数据类型: 大多数研究使用公开数据集,但也有研究使用私有数据集或混合数据集。

3.4 联邦学习实施细节

  • 联邦学习方法: 大多数研究没有明确说明所使用的联邦学习方法,其中横向联邦学习最为常见
  • 聚合策略: 大多数研究没有报告聚合策略,少数研究使用了联邦平均和共识模型集成。
  • 设备类型: 大多数研究没有说明设备类型,少数研究提到了跨数据孤岛联邦学习。
  • 隐私方法: 只有少数研究明确说明了所使用的隐私方法,例如差分隐私、安全聚合、安全多方计算和同态加密。

3.5 评估联邦学习范围的严谨性

  • 模型泛化能力: 大多数研究证明了联邦学习可以增强模型泛化能力,例如通过整合来自不同中心的数据。
  • 预测精度: 大多数研究证明了联邦学习可以改善模型预测精度,例如通过减少数据偏差和学习复杂模式。
  • 数据隐私: 一些研究证明了联邦学习可以保护数据隐私,例如通过使用差分隐私和加密技术。
  • 疾病理解: 一些研究证明了联邦学习可以改善疾病理解,例如通过分析来自不同中心的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/400412.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

奥德彪视频素材去哪里找?视频素材网站分享

今天我们来聊一聊一个非常实用的话题——视频素材网站推荐,尤其是奥德彪视频素材。这个名词可能对你来说有些陌生,但别担心,跟着我一起探索,你会发现这是一个充满创意与乐趣的旅程。 蛙学网 首先要介绍的是蛙学网。这是一个视频素…

【传知代码】医疗AI:轻量级图像分割新突破(论文复现)

在医学图像领域,精准的图像分割技术一直是提高诊断效率和准确性的关键,然而传统的图像分割方法常常受到计算资源和处理速度的限制,尤其在资源紧张的医疗环境中更是如此。随着人工智能技术的飞速发展,我们迎来了一个激动人心的新时…

PAT--1101.B是A的多少倍

题目描述 算法分析 把数字转为字符串处理&#xff0c;会简化问题 完整代码 #include<bits/stdc.h> //万能头文件 //#include<iostream> //#include<string> //#include <iomanip> // 包含 std::fixed 和 std::setprecision using namespace std;…

PHP汽车保养维修信息管理系统小程序源码

&#x1f697;爱车守护神器&#xff01;揭秘“汽车保养维修信息管理系统”全攻略&#x1f50d; &#x1f525;【开篇揭秘&#xff1a;为何你需要它&#xff1f;】&#x1f525; 在这个快节奏的时代&#xff0c;爱车不仅是代步工具&#xff0c;更是生活品质的象征。但你是否曾…

JUC-变量的线程安全

成员变量和静态变量是否线程安全&#xff1f; 如果它们没有共享&#xff0c;则线程安全&#xff0c;即没有被外部访问。 如果它们被共享了&#xff0c;根据它们的状态是否能够改变&#xff0c;又分两种情况 如果只有读操作&#xff0c;则线程安全 如果有读写操作&#xff0c;…

精彩回顾 | 风丘科技亮相2024名古屋汽车工程博览会

2024年7月17日-19日&#xff0c;风丘科技联合德国IPETRONIK亮相日本名古屋汽车工程博览会。该展会面向汽车行业不同应用场景&#xff0c;包括新的eAxle、FCEV、ADAS、测试测量系统和ECU测试等相关技术&#xff0c;是一个专为活跃在汽车行业前线的工程师和研究人员举办的汽车技术…

Leetcode JAVA刷刷站(11)盛最多水的容器

一、题目概述 二、思路方向 这个问题是经典的“盛最多水的容器”问题&#xff0c;通常使用双指针法来解决。基本思路是&#xff0c;我们初始化两个指针&#xff0c;一个指向数组的起始位置&#xff0c;另一个指向数组的末尾位置。然后&#xff0c;我们计算当前两个指针所指向…

学习笔记第二十四天

1.exec族函数的区别 int exec l(const char *path, const char *arg, ...); int exec l p(const char *file, const char *arg, ...); int exec l e(const char *path, const char *arg,..., char * const envp[]); int exec v(const char *path, char *const argv[]); …

硬件面试经典 100 题(31~40 题)

31、多级放大电路的级间耦合方式有哪几种&#xff1f;哪种耦合方式的电路零点偏移最严重&#xff1f;哪种耦合方式可以实现阻抗变换&#xff1f; 有三种耦合方式&#xff1a;直接耦合、阻容耦合、变压器耦合。直接耦合的电路零点漂移最严重&#xff0c;变压器耦合的电路可以实现…

广告资料库是什么?如何正确使用Facebook广告资料库?一文解决你的烦恼!

什么是广告资料库 广告营销领域&#xff0c;创意和策略的更新速度极快。为了跟上这种节奏&#xff0c;广告资料库应运而生&#xff0c;成为广告人和营销专家的重要工具。广告资料库是一个集中存储和管理广告素材、创意案例、市场数据和用户反馈的平台。它不仅帮助用户获得灵感…

掌握高可用核心:Keepalived 铸就坚不可摧的集群防线

目录 一.初识keepalived 二.VRRP工作模式 1.三种状态 2.选举机制 三.Keepalived 架构 四. Keepalived环境准备 五.KeepAlived 配置说明 1.配置文件组成部分 2.配置语法说明&#xff1a;全局配置 3.配置虚拟路由器 4.启用keepalived日志功能 5.实现独立子配置文件 六…

Adobe PhotoShop - 制图操作

1. 排布照片 菜单 - 视图 - 对齐&#xff1a;打开后图层将会根据鼠标的移动智能对齐 菜单 - 视图 - 标尺&#xff1a;打开后在页面出现横纵标尺&#xff0c;方便图层的对齐与排列 2. 自动生成全景照 在日常处理中&#xff0c;我们常常想要将几张图片进行拼接获得一张全景图&…

SpringBoot快速入门(手动创建)

目录 案例&#xff1a;需求 步骤 1 创建Maven项目 2 导入SpringBoot起步依赖 3 定义Controller 4 编写引导类 案例&#xff1a;需求 搭建简单的SpringBoot工程&#xff0c;创建hello的类定义h1的方法&#xff0c;返回Hello SpringBoot! 步骤 1 创建Maven项目 大家&…

【多线程-从零开始-柒】单例模式,饿汉和懒汉模式

单例模式&#xff1a;是一种设计模式 设计模式&#xff0c;类似于“棋谱”&#xff0c;就是固定套路&#xff0c;针对一些特定的场景&#xff0c;给出一些比较好的解决方法只要按照设计模式来写代码&#xff0c;就可以保证代码不会太差&#xff0c;保证代码的下限 设计模式 设…

力扣面试经典算法150题:罗马数字转整数

罗马数字转整数 今天的题目是力扣面试经典150题中的数组的简单题: 罗马数字转整数 题目链接&#xff1a;https://leetcode.cn/problems/roman-to-integer/description/?envTypestudy-plan-v2&envIdtop-interview-150 题目描述 将一个罗马数字转换成相应的整数。输入是一…

Docker 日志管理

一、ELK -Filebeat Elasticsearch 数据的存储和检索 常用端口&#xff1a; 9100&#xff1a;elasticsearch-head提供web访问 9200&#xff1a;elasticsearch与其他程序连接或发送消息 9300&#xff1a;elasticsearch集群状态 Logstash 有三个组件构成input&#xff0c;fi…

QT输入组、QT显示组

目录 QT输入组 ​编辑 Combo Box&#xff08;下拉菜单部件&#xff09; Font Combo Box&#xff08;显示系统中可用的字体&#xff09; Line Edit&#xff08;行编辑器&#xff09; Text Edit&#xff08;文本编辑器&#xff09; Plain Text Edit&#xff08;纯文本编辑…

MySQL基础练习题39-商品销售明细表1

目录 题目 准备数据 分析数据 总结 题目 求2024-01-01 每个门店 每个商品 的 销售单量, 销售数量, 销售金额, 线上单量, 线下单量 准备数据 -- 创建库 create database db_2; use db_2;-- 创建商品销售明细(核销)天表 CREATE TABLE dwm_sold_goods_sold_dtl_i (trade_da…

Apple 智能基础语言模型

Introducing Apple’s On-Device and Server Foundation Models technical details June 10, 2024 在2024年的全球开发者大会上&#xff0c;苹果推出了Apple Intelligence&#xff0c;这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。Apple Intelligen…

25届秋招网络安全面试资料库

吉祥知识星球http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247485367&idx1&sn837891059c360ad60db7e9ac980a3321&chksmc0e47eebf793f7fdb8fcd7eed8ce29160cf79ba303b59858ba3a6660c6dac536774afb2a6330#rd 《网安面试指南》http://mp.weixin.qq.com/s?…