文献解读-DNAscope: High accuracy small variant calling using machine learning

关键词:基准与方法研究;基因测序;变异检测;


文献简介

  • 标题(英文):DNAscope: High accuracy small variant calling using machine learning
  • 标题(中文):DNAscope:使用
    的机器学习高精度小变异调用
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司
  • 发表年份:2022
  • 文章地址:https://doi.org/10.1101/2022.05.20.492556

图1 文献简介

图1 文献简介

当前的小变异检测技术,尤其是GATK的HaplotypeCaller,在大多数情况下表现优秀。然而,在复杂基因组区域的检测准确性仍有提升空间。随着测序技术在临床应用中的普及,提高这些区域的检测准确性变得越来越重要。传统方法主要依赖专家构建的模型和手动调整的过滤器,而机器学习方法显示出通过学习更复杂的变异特征关系来提高检测准确性的潜力。


测序流程

DNAscope作为GATK HaplotypeCaller的进阶版本,巧妙地融合了成熟的基于单倍型的变异检测方法和先进的机器学习技术,以提升变异检测的准确性。它在保留原有逻辑架构的同时,优化了活跃区域检测和局部组装过程,特别增强了在复杂基因组区域的表现。DNAscope通过为候选变异添加额外信息注释,并结合机器学习模型进行变异基因型分析,显著提高了整体准确度。此外,DNAscope还可与贝叶斯基因型分析模型配合使用,使其在非哺乳动物物种的重测序分析中同样发挥优势,体现了其广泛的适用性和卓越的性能。

图2  DNAscope方法概述

图2 DNAscope方法概述

为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。

测试涵盖了不同测序深度(15x至36x),并以NIST GIAB高置信度调用v4.2.1为基准。结果显示,DNAscope在所有样本和测序深度下的SNP和INDEL检测性能均优于DNAseq,特别是在30x HG002样本中,SNP和INDEL的F1分数分别达到99.57%和99.46%,总体错误率降低了一半以上。这种在多个样本中的卓越表现证明了DNAscope模型的泛化能力,而非过拟合于训练样本。此外,DNAscope还展现了适应新测序技术的潜力,如之前研究中开发的MGI模型所示,进一步凸显了其在变异检测领域的先进性和灵活性。

图3  DNAscope 和 DNAseq 的精确召回曲线

图3 DNAscope 和 DNAseq 的精确召回曲线

图4  对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

为深入评估变异检测工具的性能,研究组利用GA4GH的分层区域进行了详细分析。这些区域包括低可映射性、分段重复、自链区域、MHC以及综合多种复杂因素的"全难度"区域。结果显示,DNAscope在读数映射困难的区域,如低可映射性、分段重复和自链区域,均明显优于DNAseq。特别是在MHC区域的SNP检测和长同聚物区域的INDEL检测中,DNAscope表现更为出色。这些优势共同导致DNAscope在复杂基因组区域的整体表现优于DNAseq。值得注意的是,即使在相对简单的区域,DNAscope在INDEL检测方面仍保持领先,而在SNP检测方面与DNAseq旗鼓相当。这一全面的分层分析凸显了DNAscope在处理各种复杂基因组区域时的强大能力和灵活性。

研究团队通过对HG002、HG003和HG004的36x测序数据进行抽样,创建了5个不同深度的数据集,以评估变异检测工具在不同测序覆盖度下的性能。结果显示,尽管变异检测准确性通常随覆盖度降低而下降,但DNAscope在低覆盖度条件下仍然保持了优于DNAseq的高准确性。特别值得注意的是,DNAscope在20x覆盖度下的表现始终优于DNAseq在36x覆盖度下的表现。这一发现突显了DNAscope改进的架构和机器学习模型过滤在低覆盖度条件下的显著优势,为高效且经济的变异检测提供了新的可能性。

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

研究探讨了DNAscope贝叶斯模型在非人类和多倍体样本上的表现,特别关注15x覆盖度下的性能。结果显示,尽管整体准确性低于其机器学习模型,DNAscope的贝叶斯模型在INDEL检测方面仍优于DNAseq,而在SNP检测方面两者相当。这表明DNAscope在处理非标准样本时仍具有一定优势,尤其是在INDEL检测方面。

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

在标准化的AWS环境中,对DNAscope进行了性能测试。结果显示,使用96+vCPU处理30x全基因组测序样本时,DNAscope的运行时间不到1小时,与DNAseq相当,比BWA/GATK快5倍。测试还表明DNAscope具有良好的可扩展性,运行时间与线程数几乎呈线性关系。

图7 DNAscope 在多个 AWS C6i 实例上的运行时

图7 DNAscope 在多个 AWS C6i 实例上的运行时


总结

在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470652.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue中如何关闭eslint检测?

ESLint作为一个用于JavaScript代码的验证工具,主要用于检查代码语法和编码规范。本文旨在指导那些希望在Vue.js项目中禁用ESLint验证功能的用户。对于需要这一操作的朋友,以下内容将提供参考。 vue中如何关闭eslint检测? 有了eslint的校验&…

用vscode编写verilog时,如何有信号定义提示、信号定义跳转(go to definition)、模块跳转这些功能

(一)安装插件SystemVerilog - Language Support 安装一个vscode插件即可,插件叫SystemVerilog - Language Support。虽然说另一个插件“Verilog-HDL/SystemVerilog/Bluespec SystemVerilog”也有信号提示及定义跳转功能,但它只能提…

️️一篇快速上手 AJAX 异步前后端交互

AJAX 1. AJAX1.1 AJAX 简介1.2 AJAX 优缺点1.3 AJAX 前后端准备1.4 AJAX 请求基本操作1.5 AJAX 发送 POST 请求1.6 设置请求头1.7 响应 JSON 数据1.8 AJAX 请求超时与网络异常处理1.9 取消请求1.10 Fetch 发送 Ajax 请求 2. jQuery-Ajax2.1 jQuery 发送 Ajax 请求(G…

❤React-React 组件通讯

❤ React 组件通讯 组件通讯将教我们的内容: 能够使用道具接收数据W能够实现父子组件之间的通讯能够实现兄弟组件之间的通讯能够给组件添加道具校验能够说出生命周期常用的钩子函数能够知道高阶组件的作用 1、 组件通讯介绍 组件是独立且封闭的单元,…

【初阶数据结构与算法】链表刷题之移除链表元素、反转链表、找中间节点、合并有序链表、链表的回文结构

文章目录 一、移除链表元素思路一思路二 二、合并两个有序链表思路:优化: 三、反转链表思路一思路二 四、链表的中间节点思路一思路二 五、综合应用之链表的回文结构思路一:思路二: 一、移除链表元素 题目链接:https:…

POI实现根据PPTX模板渲染PPT

目录 1、前言 2、了解pptx文件结构 3、POI组件 3.1、引入依赖 3.2、常见的类 3.3、实现原理 3.4、关键代码片段 3.4.1、获取ppt实例 3.4.2、获取每页幻灯片 3.4.3、循环遍历幻灯片处理 3.4.3.1、文本 3.4.3.2、饼图 3.4.3.3、柱状图 3.4.3.4、表格 3.4.3.5、本地…

计算机毕业设计Python+Neo4j知识图谱医疗问答系统 大模型 机器学习 深度学习 人工智能 大数据毕业设计 Python爬虫 Python毕业设计

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

【机器学习】机器学习中用到的高等数学知识-2.概率论与统计 (Probability and Statistics)

概率分布:理解数据的分布特征(如正态分布、伯努利分布、均匀分布等)。期望和方差:描述随机变量的中心位置和离散程度。贝叶斯定理:用于推断和分类中的后验概率计算。假设检验:评估模型的性能和数据显著性。…

Scala入门基础(17.1)Set集习题

一.选择题 二.实训 图书馆书籍管理系统相关的练习。内容要求: 1.创建一个可变 Set,用于存储图书馆中的书籍信息 (假设书籍信息用字符串表示,如“Java编程思想”“Scala实战”等) 2.添加两本新的书籍到图书馆集合中&a…

移动端【01】面试系统的MVVM重构实践

基于MVVM的移动端面试系统重构实践:模块化设计与实现 一、项目背景 面试记录表系统在经过一年多的迭代后,代码质量问题日益突出。View和ViewModel代码均超过3000行,组件引用超过1000个,亟需进行架构重构。本文将详细介绍基于MVV…

Springboot 启动端口占用如何解决

Springboot 启动端口占用如何解决 1、报错信息如下 *************************** APPLICATION FAILED TO START ***************************Description:Web server failed to start. Port 9010 was already in use.Action:Identify and stop the process thats listening o…

基于Python+Django+Vue3+MySQL实现的前后端分类的商场车辆管理系统

项目名称:基于PythonDjangoVue3MySQL实现的前后端分离商场车辆管理系统 技术栈 开发工具:PyCharm、Visual Studio Code (VSCode)运行环境:Python 3.10、MySQL 8.0、Node.js 18技术框架:Django 5、Vue 3.4、Ant-Design-Vue 4.12 …

ML 系列: 第 23 节 — 离散概率分布 (多项式分布)

目录 一、说明 二、多项式分布公式 2.1 多项式分布的解释 2.2 示例 2.3 特殊情况:二项分布 2.4 期望值 (Mean) 2.5 方差 三、总结 3.1 python示例 一、说明 伯努利分布对这样一种情况进行建模:随机变量可以采用两个可能的值&#…

Openstack7--安装消息队列服务RabbitMQ

只需要在控制节点安装 安装RabbitMQ yum -y install rabbitmq-server 启动RabbitMQ并设置开机自启 systemctl start rabbitmq-server;systemctl enable rabbitmq-server 创建 rabbitmq 用户 并设置密码为 000000 rabbitmqctl add_user rabbitmq 000000 如果你不慎创错了…

图像处理实验二(Image Understanding and Basic Processing)

图像理解(Image Understanding)和基本图像处理(Basic Image Processing)是计算机视觉领域的重要组成部分。它们涉及从图像中提取有用信息、分析图像内容、并对其进行处理以达到特定目的。图像理解通常包括识别、分类和解释图像中的…

第74期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

Kafka - 启用安全通信和认证机制_SSL + SASL

文章目录 官方资料概述制作kakfa证书1.1 openssl 生成CA1.2 生成server端秘钥对以及证书仓库1.3 CA 签名证书1.4 服务端秘钥库导入签名证书以及CA根证书1.5 生成服务端信任库并导入CA根数据1.6 生成客户端信任库并导入CA根证书 2 配置zookeeper SASL认证2.1 编写zk_server_jass…

除了 Postman,还有什么好用的 API 调试工具吗

尽管 Postman 拥有团队协作等实用特性,其免费版提供的功能相对有限,而付费版的定价可能对小团队或个人开发者而言显得偏高。此外,Postman 的访问速度有时较慢,这可能严重影响使用体验。 鉴于这些限制,Apifox 成为了一…

matlab建模入门指导

本文以水池中鸡蛋温度随时间的变化为切入点,对其进行数学建模并进行MATLAB求解,以更为通俗地进行数学建模问题入门指导。 一、问题简述 一个煮熟的鸡蛋有98摄氏度,将它放在18摄氏度的水池中,五分钟后鸡蛋的温度为38摄氏度&#x…

【C#设计模式(8)——过滤器模式(Adapter Pattern)】

前言 滤液器模式可以很方便地实现对一个列表中的元素进行过滤的功能&#xff0c;能方便地修改滤器的现实&#xff0c;符合开闭原则。 代码 //过滤接口public interface IFilter{List<RefuseSorting> Filter(List<RefuseSorting> refuseList);}//垃圾分类public cla…