病毒组学数据分析 -03 CheckV病毒序列识别

CheckV 是一个完全自动化的命令行管道,用于评估单重叠群病毒基因组的质量,包括识别集成原病毒的宿主污染、估计基因组片段的完整性以及识别封闭基因组。
管道可以分为4个主要步骤:
A:去除原噬菌体上的宿主污染

  • 根据与自定义 HMM 数据库的比较,基因首先被注释为病毒或细菌
  • CheckV 扫描重叠群(5' 到 3'),比较一对相邻ORF之间的基因注释和 GC 含量
  • 此信息用于计算每个基因间位置的分数并识别宿主病毒断点
  • 宿主-病毒断点标识为:
    • 高分 (>1.2)
    • 假定宿主区域中至少有 2 个宿主特异性基因(对于具有 >=10 个基因的重叠群)
    • 推定的病毒区域中至少有 2 个病毒特异性基因(对于具有 >=10 个基因的重叠群)
    • 在假定的宿主区域中至少有 30% 的基因被注释为细菌

B:估计基因组完整性(2 种算法)

  • 基于 AAI 的方法(基因组完整性的精确点估计)
    • 首先,使用 AAI(平均氨基酸同一性)将蛋白质与 CheckV 基因组数据库进行比较
    • 在识别出最高命中后,完整性被计算为重叠群长度(或原噬菌体的病毒区域长度)与匹配的参考基因组长度之间的比率
    • 根据比对的强度和重叠群的长度报告置信水平
    • 一般来说,高可信度和中等可信度的估计是相当准确的,可以信赖
  • 基于 HMM 的方法(基因组完整性的估计范围)
    • 高度新颖的病毒可能不匹配具有足够 AAI 的 CheckV 基因组(即低置信度估计)
    • 在这些情况下,CheckV 识别重叠群上的病毒 HMM,并将重叠群长度与共享相同 HMM 的参考基因组进行比较
    • CheckV 然后返回基因组完整性的估计范围(例如 35% 到 60% 的完整性),它代表基于具有相同病毒 HMM 的参考基因组长度分布的 90% 置信区间

C:预测封闭基因组(3个签名)

  • 直接末端重复 (DTR)
    • 在 contig 的开始/结束处重复序列 >20-bp
    • 我们经验中最值得信赖的签名
    • 可能表示从环状模板(即串联体)复制的环状基因组或线性基因组
  • 原噬菌体(原病毒)
    • 在 5' 和 3' 端预测宿主边界的病毒区域
    • 注意:如果宿主区域已被移除(例如使用 VIBRANT 或 VirSorter,Virsorter2中关闭原噬菌体预测),CheckV 将不会检测原噬菌体
  • 反向末端重复 (ITR)
    • 在 contig 的起始/末端重复 >20-bp 的序列(3' 重复被倒置)
    • 根据我们的经验,最不可信的签名

CheckV 还将报告基于与完整性估计的比较的置信水平:

  • 高置信度:>90% 的估计完整性
  • 中等置信度:80-90% 的估计完整性
  • 低置信度:<80% 估计完整性

对于 DTR 和 ITR,CheckV 执行一些额外的过滤/检查:

  • 重复中的歧义碱基(例如“NNNNN”):<= 20% 的重复序列带有 Ns
  • 重复中的模式碱基频率(例如“AAAAA”):<= 由单个碱基组成的重复序列的 75%
  • 重复序列的最大出现次数:<= 每个重叠群 8 次(去除高度重复的序列)
  • 最大kmer频率:<= 1.5(去除背靠背重复的相同基因组的重叠群)

D:总结质量。
根据 AC 的结果,CheckV 生成报告文件并将查询重叠群分配给五个质量层之一(与 MIUViG 质量层一致并扩展):

  • 完整(高度或中等置信度预测)
  • 高质量(>90% 完整性)
  • 中等质量(50-90% 的完整性)
  • 低质量(<50% 完整性)
  • 质量未定

安装

基于conda

conda install -c conda-forge -c bioconda checkv
#数据库下载(自动)
checkv download_database ./
#数据库下载(手动)
wget https://portal.nersc.gov/CheckV/checkv-db-v1.0.tar.gz
tar -zxvf checkv-db-v1.0.tar.gz
export CHECKVDB=/path/to/checkv-db-v1.0

使用

checkv end_to_end input_file.fna output_directory -t 16

结果解读

quality_summary.tsv

这包含来自三个主要模块的综合结果,主要输出。

contig_idcontig_lengthprovirusproviral_lengthgene_countviral_geneshost_genescheckv_qualitymiuvig_qualitycompletenesscompleteness_methodcomplete_genome_typecontaminationkmer_freqwarnings
15325NoNA1102Not-determinedGenome-fragmentNANANA01no viral genes detected
241803NoNA72271Low-qualityGenome-fragment21.99AAI-based (medium-confidence)NA01flagged DTR
338254Yes3607254232Medium-qualityGenome-fragment80.3HMM-based (lower-bound)NA5.71 
467622NoNA143250High-qualityHigh-quality100AAI-based (high-confidence)NA01.76high kmer_freq
598051NoNA158271CompleteHigh-quality100AAI-based (high-confidence)DTR01 

在上面的例子中,有 6 个病毒重叠群的结果:

  • 第一个 5325 bp 重叠群没有完整性预测,这由“checkv_quality”字段的“未确定”指示。这个重叠群也没有确定病毒基因,所以它甚至可能不是病毒。
  • 第二个 41803 bp 重叠群被归类为“低质量”,因为其完整性 <50%。这是基于“AAI”方法的估计。请注意,quality_summary.tsv 文件中仅报告了高可信度或中等可信度的估计值。您可以查看“completeness.tsv”以获取更多详细信息。这个 contig 有一个 DTR,但它由于某种原因被标记(有关详细信息,请参阅 complete_genomes.tsv)
  • 第三个重叠群被认为是“中等质量”,因为它的完整性估计为 80%,这是基于“HMM”方法。这意味着序列新颖性较高,基于 AAI 估计完整性不准确,但与 CheckV 参考基因组共享一个 HMM。请注意,此值代表一个下限(意味着真正的完整性可能高于但不低于此值)。请注意,该重叠群也被归类为原噬菌体。
  • 第四个重叠群被归类为高质量,基于 >90% 的完整性。但是,请注意“kmer_freq”的值为 1.7。这表明病毒基因组在重叠群中多次出现。这些情况非常罕见,但需要注意。
  • 根据直接末端重复序列 (DTR) 的存在,第五个重叠群被归类为完整的,并且根据 AAI 方法具有 100% 的完整性。该序列可以放心地视为一个完整的基因组


completeness.tsv

关于如何估计完整性的详细概述

contig_idcontig_lengthproviral_lengthaai_expected_lengthaai_completenessaai_confidenceaai_erroraai_num_hitsaai_top_hitaai_idaai_afhmm_completeness_lowerhmm_completeness_upperhmm_hits
19837571353242.810.7high3.710DTR_51715778.534.65154
239498NA37309100medium7.711DTR_35745645.1830.467510022
329224NA44960.165.8low15.217DTR_09123039.7419.54527010
423404NANANANANA0NANANANANA0

在上面的例子中,有 4 个病毒重叠群的结果:

  • 使用基于 AAI 的方法 (100 x 5713 / 53242.8),第一个前病毒重叠群的估计完整性为 10.7%。此估计的置信度很高,基于 3.7% 的相对估计误差,这又基于 aai_id(平均氨基酸同一性)和 aai_af(重叠群的比对分数)与 CheckV 参考 DTR_517517
  • 第二个重叠群使用基于 AAI 的方法具有 100% 的完整性,使用基于 HMM 的方法具有 75-100% 的完整性范围。请注意,重叠群长度比预期的基因组长度 37,309 bp 稍长。
  • 根据 AAI 方法,估计第三个重叠群完成了 65.8%。然而,我们不能完全相信这一点,因为 aai_confidence 很低(意味着基于 AAI 的最高命中相当弱)。为保守起见,我们可能希望报告基于 HMM 方法的完整性范围 (52-70%)
  • 最后一个 contig 没有任何基于 AAI 的命中,也没有任何病毒 HMM,所以我们对这个序列无话可说

contamination.tsv

如何估计污染的详细概述:

contig_idcontig_lengthtotal_genesviral_geneshost_genesprovirusproviral_lengthhost_lengthregion_typesregion_lengthsregion_coords_bpregion_coords_genesregion_viral_genesregion_host_genes
198051158271NoNANANANANANANANA
23825454232Yes360722182host,viral1-2182,2183-382541-2182,2183-382541-4,5-540,232,0
36930912Yes30233907viral,host30,233,9071-3023,3024-69301-5,6-91,00,2
4101630103724Yes2817073460host,viral,host468,042,817,026,6561-46804,46805-74974,74975-1016301-43,44-85,86-1030,7,013,0,11

在上面的例子中,有 4 个病毒重叠群的结果:

  • 第一个 contig 不是预测的原病毒(原噬菌体)
  • 第二个 contig 有一个预测的宿主区域,覆盖 2182 bp
  • 第三个 contig 在左侧有一个宿主区域,,覆盖6930 bp
  • 第四个 contig 有 101630 bp其中有103 个基因,包括 7 个病毒基因和 24 个宿主基因。CheckV 确定了两个宿主病毒边界

complete_genomes.tsv

已确定的假定完整基因组的详细概述:

contig_idcontig_lengthprediction_typeconfidence_levelconfidence_reasonrepeat_lengthrepeat_count
144824DTRhighAAI-based completeness > 90%2532
238147DTRlowLow complexity TR; Repetetive TR2010
367622DTRlowMultiple genome copies detected268572
45477ITRmediumAAI-based completeness > 80%912
5101630Provirusnot-determinedNANANA

在上面的例子中,有 5 个病毒重叠群的结果:

  • 第一个病毒重叠群具有 253 bp 的直接末端重复序列。根据估计的完整性 > 90%,它被归类为高置信度
  • 第二个病毒重叠群具有 20 bp 的 DTR,但 DTR 复杂度低且不可信,导致置信度低。DTR 也发生 10 倍,并且被认为是重复的。
  • 第三个病毒重叠群的 DTR 为 26857 bp!这表明基因组的很大一部分是重复的。CheckV 将这些归类为低置信度,但用户可能需要手动解决这些重复
  • 第四个病毒重叠群的 ITR 为 91 bp。基于 AAI 的完整性 > 80%,这被认为是中等置信度
  • 第五个病毒重叠群的两侧是宿主(前病毒)。但是 CheckV 无法评估完整性,因此置信度未确定

end_to_end 帮助文档和总文档

input         以FASTA格式输入核苷酸序列(支持.gz,.bz2和.xz文件)output        输出目录optional arguments:-h, --help    显示此帮助消息并退出-d PATH       引用数据库路径。默认情况下,使用 CHECKVDB 环境变量【添加后可不写】--remove_tmp  从输出目录中删除中间文件-t INT        用于Prodigal和DIAMOND的线程数--restart     覆盖现有的中间文件。默认情况下,CheckV 在程序中断的地方继续--quiet       禁止记录消息programs:end_to_end          运行完整的管道以估计完整性,污染并识别封闭的基因组contamination       识别并消除集成前病毒上的宿主污染completeness        估计基因组片段的完整性complete_genomes    根据末端重复序列和侧翼宿主区域识别完整基因组quality_summary     跨模块汇总结果download_database   下载最新版本的CheckV数据库update_database     使用您自己的完整基因组更新CheckV的数据库

参考文献

Bitbuckethttps://bitbucket.org/berkeleylab/checkv/src/master/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56784.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新冠病毒分型和突变分析(SARS-CoV2_ARTIC_Illumina)

SARS-CoV2_ARTIC_Illumina新冠病毒分型和突变分析 一. 本文适用于使用Artic扩增子扩增&#xff0c;Illumina双端测序&#xff0c;用于分析新冠病毒突变及分型鉴定 二. 概览&#xff1a;按照惯例&#xff0c;先上一张概览图 流程输入SRR22216743_1.fastq.gz SRR22216743_2.fas…

还真不错,今天 Chatgpt 教会我如何开发一款小工具开发(Python 代码实现)

上次使用 Chatgpt 写爬虫&#xff0c;虽然写出来的代码很多需要修改后才能运行&#xff0c;但Chatgpt提供的思路和框架都是没问题。 这次让 Chatgpt 写一写GUI程序&#xff0c;也就是你常看到的桌面图形程序。 由于第一次测试&#xff0c;就来个简单点的&#xff0c;用Python…

Android中文图混排时文图的居中对齐

http://www.jianshu.com/p/2650357f7547 先上效果图 看订阅号时间发现的&#xff0c;前一阵子项目要做一个比较复杂的图文混排&#xff0c;但是最后没有做&#xff0c;今天看到&#xff0c;回过头来学习下 代码还是他们的代码&#xff0c;我就不复制了 下来说一下这种形式…

赢在微点答案专区英语_掌握这一招!快速提高英语阅读理解成绩(终生受益)...

一、经常有学生向老师倒苦水&#xff0c;说学英语花了很多时候&#xff0c;总是提不高英语成绩&#xff1f;为什么&#xff1f; 你是否还在为英语阅读成绩而烦恼呢&#xff1f; 你的阅读成绩是否还总是提不高呢&#xff1f; 你的阅读速度是不是还很慢呢&#xff1f; 你阅读的准…

Android中文图混排时文图的居中对齐 FontMetrics以及自定义ImageSpan实现

文章转自&#xff1a;http://www.sohu.com/a/150059234_611601 本文作者CnPeng的博客地址&#xff1a; http://www.jianshu.com/p/2650357f7547 这个标题有点长&#xff0c;乍一看这么个标题你可能没明白啥意思&#xff0c;且听我慢慢道来。 公司的项目中新增了一个“心动”…

实战 | Android中文图混排时文图的居中对齐 FontMetrics以及自定义ImageSpan实现

这个标题有点长&#xff0c;乍一看这么个标题你可能没明白啥意思&#xff0c;且听我慢慢道来。 公司的项目中新增了一个“心动” 的功能&#xff0c;用户初次使用时需要给一个引导页&#xff0c;就是下面图中的这个样子&#xff08;这就是做完之后的效果了&#xff09;。 在上图…

英文期刊论文翻译格式要求和文献要求

英文期刊论文翻译格式要求和文献要求 一、全文翻译&#xff0c;句式尽量简单易懂&#xff08;借助谷歌有道&#xff0c;同时借鉴前人文献写法&#xff09;1、论文的翻译不能直译。 二、套入模板&#xff0c;调整格式&#xff08;文章、参考文献&#xff09;1、论文直接粘贴到模…

时文直播:2015年通信运营业统计公报

2015年&#xff0c;我国通信运营业认真贯彻落实中央各项政策措施&#xff0c;围绕实施网络强国战略&#xff0c;推动网络提速降费&#xff0c;提升4G网络和宽带基础设施水平&#xff0c;积极推动移动互联网、IPTV等新型信息服务普及&#xff0c;全面服务国民经济和社会发展&…

FontMetrics以及自定义ImageSpan实现TextView中文图混排时文图的居中对齐

这个标题有点长&#xff0c;乍一看这么个标题你可能没明白啥意思&#xff0c;且听我慢慢道来。 公司的项目中新增了一个“心动” 的功能&#xff0c;用户初次使用时需要给一个引导页&#xff0c;就是下面图中的这个样子(这就是做完之后的效果了)。 Paste_Image.png 在上图中整体…

单词测试通关学英语的软件,推荐5款最火的英语学习类app

学习英语很累很吃力吗?小编推荐5款最火的英语学习类app,希望对你有所帮助。 如果你是高中生的话,蝶变高中是你必备的app,里面除了正常的励志电台和各科知识点外,还有历年的高考英语听力真题、高中英语课文音频、以及很多英语美文的音频。 1、推荐5款最火的英语学习类app:…

计算机专业英语邱仲潘版英语翻译,计算机英语邱仲潘

本书共分为20章&#xff0c;每章由正文、难句解释、关键词、练习和课外阅读等部分组成&#xff0c;此外&#xff0c;每章还提供了参考译文。本书由一线教师编写&#xff0c;其了解学生的知识水平、接受能力和需求点&#xff0c;而且翻译过大量计算机图书&#xff0c;有丰富的翻…

新编计算机英语,新编计算机英语

《新编计算机英语》以计算机和IT领域的*英语时文和经典原版教材为基础&#xff0c;通过精心挑选难度适中的新闻记者材料和悉心编写的学习指南&#xff0c;配以详尽的注释和练习&#xff0c;使读者能够快速掌握计算机英语的一般特点和大量专业词汇&#xff0c;并提高阅读和检索计…

快讯 | OpenAI 推出漏洞赏金计划,奖励最高 2 万美元;马斯克被曝明面上呼吁暂停 AI 研究,暗中却购买上万个 GPU 推进 AIGC 项目

一分钟速览新闻点 复旦大学与阿里云共建中国高校最大的科研智算平台 科大讯飞将于 5 月 6 日发布讯飞预训练大模型的详细信息 国家网信办就《生成式人工智能服务管理办法&#xff08;征求意见稿&#xff09;》公开征求意见 毫末智行正式发布自动驾驶生成式大模型DriveGPT O…

OpenAI向ChatGPT社区致歉:承认数据泄露 CEO称感觉糟糕

雷递网 乐天 3月26日 人工智能企业OpenAI日前发布公告&#xff0c;承认部分ChatGPT Plus服务订阅用户可能泄露部分个人隐私和支付信息。 OpenAI称&#xff0c;由于开源库中的一个错误&#xff0c;本周早些时候将ChatGPT下线&#xff0c;该错误允许一些用户看到另一个活跃用户的…

如何用 Midjourney 绘制你自己的皮克斯风格头像?

元宇宙时代&#xff0c;有个卡通形式的头像&#xff08;Avatar&#xff09;似乎是刚需了。我看到很多小伙伴都给自己弄了一个头像。大多保持了神似&#xff0c;很是羡慕。 我也想自己弄一个&#xff0c;不过雇人设计绘制太贵&#xff0c;自己画嘛&#xff0c;你知道的…… 我的…

联邦学习(FL)安全威胁

MPC、DP等&#xff1a;通过降低模型性能或系统效率为代价来确保隐私安全 一、FL安全问题 训练过程中&#xff0c;联邦学习仍然存在模型更新过程中向第三方或中央服务器透露敏感信息的情况FL协议设计存在漏洞&#xff0c;任一参与方可能获得全局参数并能控制这些参数的上传模型…

如何准备CKAD和CKA认证?

在准备 CNCF 的 CKAD 或 CKA 认证时&#xff0c;会有很多疑问&#xff0c;首先出现哪个考试&#xff0c;参考哪些资源&#xff0c;避免哪些常见错误等。尤其是如果您没有以前的知识或新手- 根据 Kubernetes 的经验&#xff0c;这可能是一个艰难的处境。InfraCloud 强烈鼓励工程…

朝鲜APT组织使用带后门IDA软件攻击安全研究人员

2021年初&#xff0c;朝鲜APT组织Lazarus通过养推特大V账号&#xff0c;配合定制开发的恶意软件0day漏洞针对安全研究人员进行了一系列的网络攻击活动&#xff0c;详细可见&#xff1a;通过社交媒体针对安全研究人员的社会工程学攻击活动。 而就在2021年11月10日&#xff0c;国…

chatgpt自己杜撰答案(sometimes)?

当我想通过filebeat将mysql表的内容同步到ELK系统中时&#xff0c;我向chatgpt询问时&#xff1a; 在我根据上述回答完成配置文件后启动filebeat后报错如下&#xff1a; ERRORinstance/beat.go:916Exiting: Error while initializing input: Error creating input. No such i…

智能聊天功能——语音聊天篇

如今大部分人都面临着来自生活各方面的压力&#xff0c;时常感到焦虑、孤独&#xff0c;有的甚至患上了抑郁症等心理疾病&#xff0c;他们无法排解&#xff0c;甚至找不到人来诉苦&#xff0c;本系统提供了语音对话功能。 在用户无聊的时候&#xff0c;可以唤醒“依米”&#x…