LaDM3IL:多实例学习用于免疫库分类

一个人的免疫组库由某一时间点的大量适应性免疫受体组成,代表了该个体的适应性免疫状态。免疫组库分类和相关受体识别有可能为新型疫苗的开发做出贡献。大量的实例对免疫组库分类提出了挑战,这可以表述为大规模多实例学习 (MMIL,Massive Multiple Instance Learning) 问题。传统的 MIL 方法(无论是在bag级还是instance级)在处理大量实例时都面临着巨大的计算负担或监督模糊的问题。为了解决这些问题,作者提出了一种基于标签消歧的多模态大规模多实例学习方法 (LaDM³IL) 用于免疫组库分类。LaDM³IL 采用实例级 MIL 范式来处理高计算成​​本的问题,并使用专门设计的标签消歧模块进行标签校正,减轻误导性监督的影响。为了更全面地表示每个受体,LaDM³IL 利用多模态融合模块来整合每个免疫受体的基因片段-gene segments和氨基酸 (AA,amino acid) 序列的信息。在巨细胞病毒 (CMV,Cytomegalovirus) 和Cancer数据集上进行的大量实验证明了所提出的 LaDM³IL 在免疫组分类和相关受体识别任务方面均具有出色的性能。

来自:A Label Disambiguation-Based Multimodal Massive Multiple Instance Learning Approach for Immune Repertoire Classification
工程:https://github.com/Josie-xufan/LaDM3IL

目录

  • 背景概述
    • 相关工作:标签消歧
  • 方法
    • 问题定义
    • 模型架构-特征提取
    • 标签消歧
    • 聚合
  • 数据集

背景概述

适应性免疫受体库 (AIRR,adaptive immune receptor repertoires) 由 T 细胞受体 (TCR,T-cell receptors) 和 B 细胞受体 (BCR,B-cell receptors) 组成,负责识别致病病原体(如细菌、病毒以及癌细胞)并记录过去和正在进行的免疫反应信息。图 1 显示了典型的适应性免疫过程,其中以 TCR 为例。TCR 位于 T 细胞表面,首先识别主要组织相容性复合体(肽-MHC 复合物,peptide-MHC complexes)上呈递的病原体抗原肽(antigen peptides),然后适应性免疫系统保存和扩增这些免疫受体(immune receptors)以激活免疫反应并保护人体免受疾病侵害。BCR 的病原体识别机制与 TCR 相似,主要区别在于 BCR 直接结合抗原表面,无需 MHC 呈递。
fig1

  • 图1:适应性免疫受体库和免疫过程的说明。a) 适应性免疫受体库 (AIRR) 包括个体的 T 细胞受体 (TCR) 和 B 细胞受体 (BCR),它们是适应性免疫反应中不可或缺的分子。b) 免疫过程:适应性免疫受体 (AIR,adaptive immune receptor) 位于 T 细胞和 B 细胞的表面,其功能是识别抗原肽(antigenic peptides),对于 TCR,该抗原肽由主要组织相容性复合体 (MHC,major histocompatibility complex) 呈递,对于 BCR,该抗原肽直接与抗原(antigen)本身结合。
  • antigen presenting cell:抗原呈递细胞

作为个体TCR和BCR的集合,AIRR记录了过去和正在进行的适应性免疫反应,其状态反映了免疫状态和个体对传染病、自身免疫性疾病和肿瘤相关病原体的反应。因此,AIRRs中的编码信息对于感染、疾病和癌症诊断具有高度的信息性和价值。这可以被概念化为一个免疫库分类问题。我们希望开发一种准确有效的方法来解决免疫系统分类和相关受体识别问题,因为它能加速疫苗的开发。

最近,基于高通量测序的免疫测序技术的进步促进了AIRRs的分析,其提供了一个组库中TCRs和BCRs的计数和受体序列的数据。这一进展为数据驱动方法铺平了道路。然而,由于以下因素,这仍然是一个具有挑战性的问题:

  • 高度多样性-High diversity:适应性免疫受体(AIRs)具有高度多样性,使适应性免疫系统能够识别大量抗原。据估计,自然界中至少有 1 0 16 10^{16} 1016种不同的AIRs。
  • 大容量-Large capacity:每个人都有大量不同的免疫受体( 1 0 7 − 1 0 8 10^{7}-10^{8} 107108)。
  • 低见证率-Low witness rate(WR):个体对特定疾病的免疫状态通常由基因库中极少数特定受体的存在决定。

在实践中,免疫组库分类可以被形式化为大规模多实例学习(MMIL)问题,其中AIR repertoires被视为bags,并且组库中的单个AIR被视为instance。AIRs的生物学功能由其氨基酸(AA)序列和相应的基因片段(V、D和J基因片段)决定。感兴趣的免疫状态(例如感染、疾病和癌症)是我们旨在预测的免疫库分类问题中的库级标签(repertoire-level label)。考虑到个体的特定免疫状态通常仅与库中一小部分特定受体相关,库中AIRs的准确实例水平标签是不可用的。这种弱监督的学习场景是多实例学习(MIL)的特点,在这种场景中,只有bag级标签是可用的。

现有的MIL算法可分为两种主要类型,即bag级和instance级MIL。在bag级MIL中,实例被编码为低维嵌入,然后将其聚合为bag级表示。聚合模块可以采用各种架构,包括固定的或参数化的pooling模块、注意力机制、RNN或Transformer方法,以及图神经网络。这种处理需要大量的计算资源,特别是在处理大规模数据集时,这阻碍了bag级MIL在免疫库分类(大容量)中的实践。相反,实例级MIL专注于实例级学习,并通过聚合每个实例的预测来生成bag级预测。这种方法提供了较低计算资源需求的优点。然而,实例级MIL面临着标签监督不准确的挑战,这源于广泛采用的将bag级标签分配给其中的每个instance的策略。鉴于低WR和高度多样性,这种标签分配策略在免疫库分类的背景下是有害的。

LaDM3IL是一种基于标签消歧的多模态大规模多实例学习方法,用于免疫库分类和相关受体识别。LaDM3IL利用instance级MIL框架来控制计算负载并应对高容量挑战。同时,为了应对高多样性挑战,LaDM3IL利用具有基于gating的注意力的多模态融合模块和张量融合来整合来自每个immune receptor的基因片段和氨基酸(AA)序列信息,从而生成每个受体的判别表示。其中,名为SC-AIR-BERT的预训练模型用于生成AA序列的嵌入。此外,LaDM3 IL结合了一个标签消歧模块(label disambiguation module),专门设计用于减轻错误监督的影响,以应对低WR的挑战。最后,在巨细胞病毒(CMV)和癌症数据集上对LaDM3 IL进行了广泛评估。

相关工作:标签消歧

标签消歧是部分标签学习(PLL,partial label learning)中的一个关键挑战,其目的是从候选标签集中找到正确的标签。与监督学习任务相比,PLL中的标签往往是模糊的,并且在模型学习过程中需要去噪以确保准确的分类。Pico是一种PLL方法(ICLR2021),以在统一的框架中处理表示学习和标签消歧问题,他们使用对比学习生成输入的embedding,然后,他们基于生成的embedding设计了一种基于prototype的标签消歧策略。在训练过程中,将基于prototype中最接近的类同时更新用于分类的pseudo target,以消除标签的歧义。

方法

问题定义

一个AIRR包含大量AIRs。给定 N N N个AIRRs { I R 1 , . . . , I R N } \left\{IR_{1},..., IR_{N} \right\} {IR1,...,IRN},每个AIRR包含 M M M个AIRs { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}。注意, M M M在不同的组库中差异很大。同时,将 N N N个组库的标签定义为 { Y 1 , . . . , Y N } \left\{Y_{1},...,Y_{N}\right\} {Y1,...,YN},类别总数为 C C C。此外,AIRs与表示为 { f r e i 1 , . . . , f r e i M } \left\{fre_{i}^{1},...,fre_{i}^{M}\right\} {frei1,...,freiM}的频率值配对,指示对某些抗原(certain antigens)的免疫反应强度。模型试图建立一个函数 Y i = F ( I R i ) Y_{i}=F(IR_{i}) Yi=F(IRi),与传统instance级MIL方法类似,最初将bag标签 Y i Y_{i} Yi分配给 { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}作为pseudo标签。随着训练更新这些标签。

模型架构-特征提取

图2说明了LaDM3IL的框架。为了获得每个AIR的全面表示,作者基于多模态融合模块,将AA序列和V(D)J基因片段的信息与基于门控的注意力机制相结合,然后进行张量融合。具体而言,基因编码器利用可训练embedding层将token化的V(D)J基因名称转换为数字表示,表示为 h g h_{g} hg h g h_{g} hg是将V基因片段和J基因片段的单独embedding连接起来的结果,每个片段的尺寸分别为16和8。

值得注意的是,D基因信息被排除在外,因为它在很大一部分AIRs中不存在。同时,使用预训练的序列编码器SC-AIR-BERT来生成AIRs的AA序列的表示,称为嵌入维度为512的 h s h_s hs。SCAIR-BERT是一个类似BERT的模型,包括6个标准Transformer层,每层包含4个注意力头。然后,通过基于门控的注意力机制,计算出两种模态的输出,记为 o g o_{g} og o s o_{s} os。张量融合模块对 o g o_{g} og o s o_{s} os进行整合: h = R e L U ( W f u s i o n ⋅ ( o g ⊕ o s ) + b f u s i o n ) h=ReLU(W_{fusion}\cdot(o_{g}\oplus o_{s})+b_{fusion}) h=ReLU(Wfusion(ogos)+bfusion)其中, ⊕ \oplus 表示Kronecker Production。
fig2

  • 图2:模型架构

标签消歧

以实例级MIL为基础框架来解决免疫库分类问题,该问题聚合了所有实例级预测以及bag级预测。为了解决监督不准确的问题,作者设计了一个标签消歧模块。该模块的关键设计是表示为 E p r o t o t y p e E_{prototype} Eprototype的原型,该原型保留了每个类别的典型嵌入以及调整每个受体标签的机制。具体步骤如下。

首先,在获得如特征提取器中所述的受体的表示后,将通过以下方式计算每个受体的预测: p i j = s o f t m a x ( F C r e c e p t o r ( h i j ) ) p_{i}^{j}=softmax(FC_{receptor}(h_{i}^{j})) pij=softmax(FCreceptor(hij))其中, F C r e c e p t o r FC_{receptor} FCreceptor是一个可学习分类器, p i j p_{i}^{j} pij是基于多模态特征embedding h i j h_{i}^{j} hij(来自第 i i i个免疫库的第 j j j个免疫受体)的预测概率。

然后,从每一类 c ∈ { 1 , . . . , C } c\in\left\{1,...,C\right\} c{1,...,C}中选出在epoch e e e时, p i k p_{i}^{k} pik超过阈值 θ \theta θ K K K个免疫受体,记为 k e c − r e c e p t o r kec-receptor kecreceptor。然后,原型将使用基于动量的方法更新,在epoch e + 1 e+1 e+1 处原型中 c c c类的嵌入通过在epoch e e e 处符合 c c c的所选 K K K受体的嵌入来更新。每个免疫受体的标签 Y i j Y_{i}^{j} Yij基于epoch e e e的原型和免疫受体之间的相似性进行调整。

聚合

为了生成免疫库的预测 p i p_{i} pi,作者将相应的免疫受体 p i j p_{i}^{j} pij的预测与相应频率 f r e i j fre_{i}^{j} freij组合如下: p i = ∑ j = 1 M ( p i j ⋅ f r e i j ) p_{i}=\sum_{j=1}^{M}(p_{i}^{j}\cdot fre_{i}^{j}) pi=j=1M(pijfreij)

数据集

CMV数据集由785个组库构成,每个组库平均有243,960个受体。作者排除了信息缺失的组库,684个组库被纳入实验,具有完整的CMV状态(阳性:312,阴性:372)和序列丰度。

癌症数据集包括训练集中的30,000个肿瘤相关受体和40,000个对照受体,以及测试集中10,000个肿瘤相关受体和19,851个对照受体。在CMV数据集上,作者评估方法在免疫库分类和相关受体鉴定方面的性能。在癌症数据集上,更多地关注癌症相关受体识别的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/350326.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动驾驶场景下TCP协议参数优化调整案例分享

RTT 往返时间,从tcp协议栈决定发包,到收到回包的时间。 包含本地驱动,网卡硬件,网线,交换机,收包方处理的耗时。需注意如果开了delayed ack,协议栈未做特殊处理(默认没做&#xff…

Photoshop中颜色与色调的调整

Photoshop中颜色与色调的调整 Photoshop中的颜色模式RGB模式灰度模式位图模式索引模式CMYK模式Lab模式 Photoshop中的颜色/色调调整命令颜色/色调调整命令的分类亮度/对比度调整命令色阶命令曲线命令曝光度命令自然饱和度命令色相/饱和度命令色彩平衡命令照片滤镜调整命令通道混…

LLVM Cpu0 新后端10

想好好熟悉一下llvm开发一个新后端都要干什么,于是参考了老师的系列文章: LLVM 后端实践笔记 代码在这里(还没来得及准备,先用网盘暂存一下): 链接: https://pan.baidu.com/s/1yLAtXs9XwtyEzYSlDCSlqw?…

[RL9] Rocky Linux 9.4 搭载 PG 16.1

副标题:Rocky Linux 9.4 升级实录,及 PG 16 相关内容 背景 Rocky Linux 9.4 (以下简称 RL) 于5月9日正式发布,本文记录了从 RL 9.3 升级到 9.4 的过程,以及升级前后的一些变化。 之前介绍过 RL 9 的相关内容,请戳&…

windows环境如何运行python/java后台服务器进程而不显示控制台窗口

1.通常我们在windows环境下使用Java或Python语言编写服务器程序,都希望他在后台运行,不要显示黑乎乎的控制台窗口: 2.有人写了一个bat文件: cd /d D:\lottery\server && python .\main.py 放到了开机自启动里,可是开机的…

MT2093 活动安排

贪心策略&#xff1a; 每次选择结束时间最早的活动 代码&#xff1a; #include <bits/stdc.h> using namespace std; const int N 5e5 10; int n; struct pp {int a, b; } p[N]; bool cmp(pp x, pp y) {return x.b < y.b; } int ans 0;int main() {cin >>…

数据结构(DS)学习笔记(二):数据类型与抽象数据类型

参考教材&#xff1a;数据结构C语言版&#xff08;严蔚敏&#xff0c;吴伟民编著&#xff09; 工具&#xff1a;XMind、幕布、公式编译器 正在备考&#xff0c;结合自身空闲时间&#xff0c;不定时更新&#xff0c;会在里面加入一些真题帮助理解数据结构 目录 1.1数据…

学习资料分析

学习资料分析 速算运算 √截位直除分数比较等比修正其他速算方法基期与现期基本概念求基期求现期增长率与增长量增长相关统计术语求一般增长率比较一般增长率增长量比重比重相关公式求比重平均数倍数间隔增长乘积增长率年增长率混合增长率资料分析:主要测查报考者对文字、数字…

【数据的增值之路】全生命周期的数据演化过程

引言&#xff1a;随着云计算、大数据、人工智能、区块链等新一代信息技术的快速发展&#xff0c;数据已经成为推动经济增长的重要生产要素。数据量的爆炸式增长&#xff0c;为挖掘数据价值、推动数字经济发展提供了丰富的资源基础。重要概念解析&#xff1a; 数据经济&#xf…

Elasticsearch + Mongodb实现海量数据的检索

1. ES用来检索关键字&#xff08;分词&#xff09;的获得文档id 2.文档存储在分布式存储数据库Mongodb

企业化运维(3)_PHP、nginx结合php-fpm、memcache、openresty、goaccess日志可视化

###1.PHP源码编译### 解压PHP压缩包&#xff0c;切入PHP目录&#xff0c;进行configure-->make-->make installd三部曲 [rootserver1 ~]# yum install -y bzip2 systemd-devel libxml2-devel sqlite-devel libpng-devel libcurl-devel ##依赖性 [rootserver1 ~]# yum…

找我设计官网的不多了,看到漂亮大气的,还是忍不住分享出来。

现在有客户找我做官网设计&#xff0c;我说&#xff1a;要么搞个高大上个性化定制的&#xff0c;要么就选个模板得了&#xff0c;几千元的网站不上不下&#xff0c;不如不做。 分享一批高大上的网站给老铁们看看。

《精通ChatGPT:从入门到大师的Prompt指南》附录C:专业术语表

附录C&#xff1a;专业术语表 本附录旨在为读者提供一本全面的术语表&#xff0c;帮助理解《精通ChatGPT&#xff1a;从入门到大师的Prompt指南》中涉及的各种专业术语。无论是初学者还是高级用户&#xff0c;这些术语的定义和解释将为您在使用ChatGPT时提供重要参考。 A AI&…

探索交互的本质:从指令到界面的演进与Linux基础指令的深入剖析

目录 1.指令 vs 界面//选读 1.1交互的需求 满足需求的第一阶段-指令 满足需求的第二阶段-界面 1.2 指令 和 界面交互 区别 2.操作系统介绍 2.1 举例说明 驱动软件层 2.2 为什么要有操作系统&#xff1f; 0x03 为什么要进行指令操作&#xff1f; 3.Linux基本指令 l…

linux驱动学习(十二)之看门狗

一、看门狗定时器功能 1、产生复位信号&#xff1a;当系统受到由于噪声或者干扰而造成系统死机&#xff0c;看门狗产生一个复位信号。 2、普通定时器&#xff1a;16bits定时器&#xff0c;产生周期性的中断信号 二、看门狗系统框图 设置计数值以每隔10S就会产生一个复位信号&…

【机器学习】机器学习中的人工神经元模型有哪些?

线性神经元 线性神经元&#xff08;Linear Neuron&#xff09;是一种基本的人工神经元模型&#xff0c;特点是其输出是输入的线性组合。线性神经元是神经网络中最简单的一种形式&#xff0c;适用于处理线性关系的问题。数学模型如下&#xff0c; y w ⋅ x b ∑ i 1 n w i x…

MySQL数据库初体验

SQL Server&#xff08;微软公司产品&#xff09;1、数据库基本概念 &#xff08;1&#xff09;数据Data 数据就是描述事物的符号记录。主要包括数字&#xff0c;文字、图形、图像、声音、档案记录等。一般以“记录”形式按统一的格式进行存储。 &#xff08;2&#xff09;表…

自动控制理论---离散傅里叶变换(DFT)进行信号谱分析

1、实验设备 PC计算机1台&#xff0c;MATLAB软件1套。 2、实验目的&#xff1a; 学习使用离散傅里叶变换&#xff08;DFT&#xff09;进行信号谱分析的方法。选择合适的变换区间长度N&#xff0c;对给定信号进行谱分析&#xff0c;并绘制幅频特性和相频曲线。 3、实验原理说…

DHCP部署与安全

DHCP作用 DHCP&#xff08;Dynamic Host Configure Protocol &#xff09;&#xff0c;作用是自动分配IP地址 DHCP相关概念 地址池/作用域&#xff1a;&#xff08;这里面放有IP、子网掩码、网关、DNS、租期&#xff09; DHCP协议端口是UDP 67/68 DHCP优点 减少工作量、避…

微服务之远程调用

常见的远程调用方式 RPC&#xff1a;Remote Produce Call远程过程调用&#xff0c;类似的还有 。自定义数据格式&#xff0c;基于原生TCP通信&#xff0c;速度快&#xff0c;效率高。早期的webservice&#xff0c;现在热门的dubbo &#xff08;12不再维护、17年维护权交给apac…