Geneformer AI 模型,有限数据也能解锁基因网络

目录

类似于 BERT 的单单元数据参考模型

NVIDIA Clara 工具组合用于药物研发

用于疾病建模的基础 AI 模型


Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,研究人员可以在数据有限的情况下准确预测基因行为和疾病机制,从而加速药物目标的发现,并提高对各种生物学背景下复杂基因网络的理解。

AI 模型 Geneformer 由麻省理工学院和哈佛大学博德研究所的研究人员及其合作者开发,该模型使用 sc-RNA 表达数据中表达最高的基因生成每个细胞的密集表示,这些表示可以用作各种下游预测任务的特征。然而,Geneformer 的独特之处在于其架构所支持的功能,即使在使用很少的数据进行训练时也是如此。

类似于 BERT 的单单元数据参考模型

Geneformer 具有类似 BERT 的 Transformer 架构,并基于来自各种人体组织中大约 3000 万个单细胞转录组的数据进行了预训练。其注意力机制使其能够专注于输入数据中最相关的部分,以便更好地捕捉关键信息。借助这种上下文感知方法,模型可以通过考虑基因之间的关系和依赖性来做出预测。

在预训练阶段,模型采用了一种蒙版语言建模技术。这种技术将部分基因表达数据蒙版,然后模型根据周围环境学习预测蒙版基因。这项方法不需要标记数据,而是使模型能够理解复杂的基因相互作用和调节机制。

这种架构和训练 使模型能够在处理有限的数据时持续提高与染色质和基因网络动力学相关的各种任务的预测准确性。 例如,Geneformer 能够使用仅 5000 个数据细胞重建心脏内皮细胞中的重要基因网络,这与之前使用超过 30000 个数据细胞进行训练时使用的先进方法一样准确。

它还可以在特定细胞类型分类任务中实现超过 90% 的准确度,这是基因表达基础模型的最常见用例之一。我们使用了克罗恩病小肠数据集对 NVIDIA BioNeMo 模型进行评估,在准确性 (图 1) 和 F1 评分 (图 2) 方面,与基准模型相比,性能有所提高。

Two Geneformer models in the BioNeMo platform show improved performance in cell annotation accuracy over baseline controls.

图 1. Geneformer 模型的参数为 10M 和 106M 时,细胞标注准确率比基准模型有所提高

Two Geneformer models in the BioNeMo platform show improved cell annotation F1 score performance over baseline controls.

图 2. Geneformer 模型的参数为 10M 和 106M 时,细胞标注 F1 得分比基准模型有所提高

图 1 和图 2 中的比较使用了一个基准 Logp1 PCA+RF 模型,该模型使用包含 10 个组件的 PCA,并使用归一化和对数转换的表达式计数训练随机森林模型。基准随机权重模型经过大约 100 步的训练,使用近似随机的权重。具有 1000 万个参数的模型是 6 层模型,具有 106M 个参数的模型具有 12 层,这两种模型都在 BioNeMo 文档中进行了描述。

我们的实验 和原始 Geneformer 出版物中的数据表明,将 Geneformer 扩展到目前生成的 10.6M 参数 12 层模型是有价值的。

为了支持新一代基于 Geneformer 的模型,我们在 BioNeMo 框架中提供了两项新功能。首先,BioNeMo 模型版本具有数据加载器,其数据加载速度比发布方法快 4 倍,同时保持与原始出版物中使用的数据类型的兼容性。其次,Geneformer 现在允许实现张量和管线并行,只需简单地更改训练配置。这有助于管理内存限制并减少训练时间,从而能够利用多个 GPU 的总计算能力训练具有数十亿参数的模型。

NVIDIA Clara 工具组合用于药物研发

Geneformer 可以在 BioNeMo 框架内访问,是 NVIDIA Clara 套件中不断增长的加速单细胞和空间组学分析工具目录的一部分(图 3)。这些工具可以在用于药物研发的互补研究工作流中实施,如 转化基因组学研究院(TGen)的研究。

RAPIDS 编程库套件(包括 RAPIDS-SINGLECELL 工具包和 ScanPy 库)专为基于 Python 的组学数据预处理、可视化、集群、轨迹推理和差分表达测试而构建。当用于分析单细胞表达数据时,其输出可以使用传统的生物信息学方法来分析表达数据,对细胞类型标注和微扰预测的成像和基础模型方法进行补充。借助 NVIDIA RAPIDS 数据分析库,RAPIDS SINGLE-CELL 可加速 Scanpy 中最计算成本极高的工作负载。

对于空间分辨率方法,MONAI 中的 VISTA-2D 模型专为处理和分析细胞图像而设计。它提供高质量的分割掩膜,用于识别和量化细胞形态以及组织内的空间组织。通过 VISTA-2D 生成的分割掩膜,可以生成表达数据,并将其输入到基础模型中,如 Geneformer。

AI models like VISTA 2D, Geneformer, and RAPIDS-SINGLECELL can use cell images and expression data to provide complementary downstream analyses, such as cell type annotation and predicting the effects of cell perturbation.

图 3. Geneformer 在 NVIDIA Clara 套件中补充了 BioNeMo 之外的其他单细胞资源,以加速获得见解。

用于疾病建模的基础 AI 模型

正如其各种应用所展示的那样(图 4),Geneformer 可以作为生物学基础模型,这些用例涵盖了从分子到有机体规模的问题,使其成为生物学研究中一种广泛实用的工具。

模型论文中描述了其中许多用例。该模型现已开源,可供研究使用。 图 4 展示了 Geneformer 可以使用零样本学习处理的用例,其中包括一些下划线的项目。零样本学习意味着 Geneformer 可以预测其以前从未见过或明确训练过的数据类,即使没有相关的训练数据。

This image illustrates the problems that Geneformer can solve in three categories, including gene regulation, cell type and cell state annotation, and predictive biological modeling for therapeutics.

图 4. Geneformer 用例涵盖多个生物复杂性级别,从基因调节到治疗性疾病建模。

在基因调控研究中,Geneformer 可以对测量基因表达变化的数据集进行微调,这些变化是响应不同水平的转录因子的结果。这使得可以准确预测不同剂量的转录因子如何影响基因表达和细胞表型,从而帮助了解基因调控和潜在的治疗干预措施。

通过在数据集上微调 Geneformer,捕捉细胞在微分过程中的状态转换,可以实现细胞状态的精确分类,从而帮助理解微分过程和发展。该模型甚至可以用于一-shot 识别转录因子之间的协同作用。这可以增强对复杂调节机制的理解,以及转录因子如何协同工作来调节基因表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/424510.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

尚品汇-订单拆单、支付宝关闭交易、关闭过期订单整合(五十)

目录: (1)拆单接口 (2)取消订单业务补充关闭支付记录 (3)支付宝关闭交易 (4)查询支付交易记录 (5)PaymentFeignClient 远程接口 &#xff08…

探索Python轻量级数据库:TinyDB的奇妙之旅

文章目录 探索Python轻量级数据库:TinyDB的奇妙之旅背景:为何选择TinyDB?什么是TinyDB?如何安装TinyDB?简单库函数使用方法场景应用常见Bug及解决方案总结 探索Python轻量级数据库:TinyDB的奇妙之旅 背景&…

Redis入门2

在java中操作Redis Redis的Java客户端 Redis 的 Java 客户端很多,常用的几种: Jedis Lettuce Spring Data Redis Spring Data Redis 是 Spring 的一部分,对 Redis 底层开发包进行了高度封装。 在 Spring 项目中,可以使用Spring Data R…

Vue介绍、窗体内操作、窗体间操作学习

系列文章目录 第一章 基础知识、数据类型学习 第二章 万年历项目 第三章 代码逻辑训练习题 第四章 方法、数组学习 第五章 图书管理系统项目 第六章 面向对象编程:封装、继承、多态学习 第七章 封装继承多态习题 第八章 常用类、包装类、异常处理机制学习 第九章 集…

【Linux】Ubuntu 22.04 shell实现MySQL5.7 tar 一键安装

参考 https://blog.csdn.net/qq_35995514/article/details/134350572?spm1001.2014.3001.5501 源文章是centos 的 教程,这里为了大家的方便,再原作者基础上做了修改,记录了ubuntu的22.04的我的配置,加了一个删除原有mysql 的脚本…

【诉讼流程-健身房-违约认定-私教课-诉讼书前提材料整理-民事诉讼-自我学习-铺平通往法律的阶梯-讲解(2)】

【诉讼流程-健身房-违约-私教课-前期法律流程-民事诉讼-自我学习-铺平通往法律的阶梯-讲解(2)】 (1)前言说明1、目的2、一个小测试1、更换原教练2、频繁更换教练3、上课估计拖课,占用上课时间,抽烟等。4、以…

Python计算机视觉 第10章-OpenCV

Python计算机视觉 第10章-OpenCV OpenCV 是一个C 库,用于(实时)处理计算视觉问题。实时处理计算机视觉的 C 库,最初由英特尔公司开发,现由 Willow Garage 维护。OpenCV 是在 BSD 许可下发布的开源库,这意味…

2024/9/11学校教的响应式前端能学到什么?

9.11 1)砌砖 确定整体框架,而不是想到一点写一点,类似盖大楼,不是想到哪盖到哪,先砌砖,再装修 砌砖前先划分好砌砖范围(初始化样式) 清除body自带的内外边距 * { margin: 0; padding: 0; }去掉li的小圆点…

【新片场-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

微信小程序开发第三课

1 wxml语法 1.1 模版语法 # 1 在页面 xx.js 的 Page() 方法的 data 对象中进行声明定义 # 2 在xx.wxml 中使用 {{}} 包裹,显示数据 # 3 可以显示如下,不能编写js语句或js方法-变量-算数运算-三元运算-逻辑判断# 4 只是单纯通过赋值,js中…

快速生成服务器响应json-server的安装和使用

json-server介绍地址:https://www.geeksforgeeks.org/json-server-setup-and-introduction/ 1.json-server是什么? 基于自定义的json文件,快速生成服务端响应,可用于前端调试接口 2.安装和卸载json-server 2.1 安装: 使用npm命令: npm install -g json-server 2.2 卸载 npm …

工厂方法模式和抽象工厂模式

工厂方法模式 一个工厂只能创建一种产品 工厂方法模式的结构 工厂方法模式包含以下4个角色 Product(抽象产品) ConcreteProduct(具体产品) Factory(抽象工厂) ConcreteFactory(具体工厂…

(论文解读)Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

Comment: accepted by CVPR2023 基于知识引导上下文优化的视觉语言提示学习 摘要 提示调优是利用任务相关的可学习标记将预训练的视觉语言模型(VLM)适应下游任务的有效方法。基于CoOp的代表性的工作将可学习的文本token与类别token相结合,…

项目需求 | MySQL增量备份与恢复的完整操作指南

目录 一、MySql数据库增量备份的工作原理 1、全量备份与增量备份 2、增量备份原理 二、进行增量备份 步骤1:启用二进制日志 使用 SHOW VARIABLES 命令查看二进制日志状态 步骤2:执行增量备份脚本 三、使用增量备份恢复损坏的数据库 步骤1&#…

WSL安装Redis

前言 本来一直是在虚拟机的Ubuntu开发 但是 搞着搞着内存不足 导致我某些数据损坏了 然后目前迁移到Wsl开发 运行WSL的相较于虚拟机你不需要很多的性能开销! 我只是代码开发和git交互,如果是搞逆向还是虚拟机。 记录一下redis 安装卸载 免得以后又忘了…

java基于PDF底层内容流的解析对文本内容进行编辑

本文实现了基于坐标位置对PDF内容的底层修改而非覆盖,因此不会出现在某些高级PDF编辑器中可以移除插入内容或者文件随着编辑次数增多而大幅增大(原因是原内容还在文件中)的问题,而且使用的pdfbox是一个开源的、免费的PDF处理库&am…

SSHamble:一款针对SSH技术安全的研究与分析工具

关于SSHamble SSHamble是一款功能强大的SSH技术安全分析与研究工具,该工具基于Go语言开发,可以帮助广大研究人员更好地分析SSH相关的安全技术与缺陷问题。 功能介绍 SSHamble 是用于 SSH 实现的研究工具,其中包含下列功能: 1、针…

ESP01的AT指令连接到阿里云平台

物联网平台提供安全可靠的设备连接通信能力,支持设备数据采集上云,规则引擎流转数据和云端数据下发设备端。此外,也提供方便快捷的设备管理能力,支持物模型定义,数据结构化存储,和远程调试、监控、运维。总…

移动UI案例:工具类app整套案例

工具类App是指提供各种实用工具和功能的手机应用程序。这些工具可以包括但不限于日历、闹钟、备忘录、翻译、计算器、单位转换、天气预报、地图导航、音乐播放器、相机、视频编辑等。这些工具类App能够帮助用户解决日常生活和工作中的各种问题,提高效率和便利性。 …

Java数据结构(十)——冒泡排序、快速排序

文章目录 冒泡排序算法介绍代码实现优化策略复杂度和稳定性 快速排序算法介绍优化策略非递归实现代码演示复杂度和稳定性 冒泡排序 算法介绍 冒泡排序是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就交换。遍历…