姜敬哲/孙燕妮/原丽红合作开发可用于病毒快速分类的工具PhaGCN2

南海水产研究所姜敬哲团队、香港城市大学孙燕妮团队、广东药科大学原丽红合作开发的可用于病毒快速分类生信工具

使用PhaGCN2对病毒基因组片段分类

Virus classification for viral genomic fragments using PhaGCN2

c8701fd9c09a46ca6ef13e6715e567c5.png

文章链接:https://www.researchsquare.com/article/rs-1658089/v1

软件链接:https://github.com/KennthShang/PhaGCN2.0

第一作者:Jing-Zhe Jiang(姜敬哲), Wen-Guang Yuan(袁文广), and Jiayu Shang(商家煜)

通讯作者:Jing-Zhe Jiang (姜敬哲),Yanni Sun(孙燕妮), Li-Hong Yuan(原丽红)

合作作者:Ying-Hui Shi(史莹慧), Li-Ling Yang(杨李玲), Min Liu(刘敏), Peng Zhu(朱鹏),Tao Jin(金桃),

主要单位:

南海水产研究所 (Key Laboratory of South China Sea Fishery Resources Exploitation & Utilization, Ministry of Agriculture and Rural Affairs, South China Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Guangzhou 510300, Guangdong, China)

中国药科大学 (Guangdong Province Key Laboratory for Biotechnology Drug Candidates, School of Biosciences and Biopharmaceutics, Guangdong Pharmaceutical University, Guangzhou 510006, Guangdong, China)

香港城市大学(Department of Electrical Engineering, City University of Hong Kong, Hong Kong (SAR), China)

天津农学院(Tianjin Agricultural University, Tianjin 300384, China)

广东美格基因(Guangdong Magigene Biotechnology Co., Ltd, Guangzhou 510000, Guangdong, China)

摘要

Abstract

背景:病毒是生物群系中最普遍和最多样化的实体。由于新发现病毒的快速增长,我们迫切需要新的工具来对新的病毒进行准确且全面的病毒分类。

结果:本研究中,我们提出了PhaGCN2,它可以在科水平上快速对病毒序列进行分类,并支持网络图来可视化结果文件。我们使用几个广泛使用的指标将PhaGCN2与最先进的病毒分类工具(如vConTACT2、CAT和VPF-Class)进行比较。结果表明,PhaGCN2大大提高了病毒分类的precision和recall。基于PhaGCN2预测结果,我们将GOV2.0(全球海洋病毒数据库)数据库中的可分类病毒序列数量提高了4倍,并且分类了90%以上的GPD数据库(人体肠道病毒数据库)。PhaGCN2使国际病毒分类委员会(International Committee on Taxonomy of Viruses)的高通量和自动扩充数据库成为可能。

引言

Introduction

作为地球上最丰富的生物实体,病毒几乎可以寄生所有的生命体。它们通过影响宿主死亡、代谢、生理和进化来影响海洋生物地球化学循环。生物测序技术最近被用于从不依赖培养的环境样本中探索病毒圈的多样性。病毒基因组数据库的迅速扩张导致国际病毒分类委员会(ICTV)提出了一项共识声明,建议从“传统”分类标准转向以基因组为中心的分类。目前,病毒分类主要依靠病毒学家手工分类和定义,对数百万个病毒基因组序列进行分类太慢。例如,尽管IMG/VR中有数百万种病毒序列,但ICTV2021年报告(以下简称ICTV2021)中分类的病毒只有约10,550种。因此,迫切需要一种病毒分类方法,能够快速和准确地对这些新的病毒基因组序列进行分类,并将计算分类与ictv批准的分类单元对齐。

在我们之前的工作中,我们提出了一个基于图卷积网络的半监督机器学习模型,—— PhaGCN。PhaGCN中有两个主要组件:CNN编码器和GCN分类器。首先,CNN编码器将不同长度的contigs编码为256维的嵌入向量。每个向量代表从DNA序列中捕获的相关图案。其次,建立一个knowledge graph,将RefSeq数据库中的已知噬菌体与测试噬菌体连接起来。图中的每个节点代表一个噬菌体,噬菌体之间的边代表基于序列和蛋白质组成的相似性。我们使用CNN编码器输出的嵌入向量作为节点特征,并应用蛋白质簇和蛋白质相似性来定义边的特征。最后,在knowledge graph上应用GCN,利用已知噬菌体和测试噬菌体进行训练。但是目前的版本只能对Caudovirales(有尾噬菌体目)下的病毒进行分类。更重要的是,ICTV会根据研究的进展经常调整其分类标准,如删除旧科,增加新科,将成员从一个科转移到另一个科。参考文献的不断变化和新病毒的出现,阻碍了自动预测的准确性和敏感性。另外,大多数基于学习的模型必须指定标签集(例如,科标签),这将不能容纳来自新科的病毒。因此,需要一种能识别新科的方法来支持病毒自动分类。

在这里,我们提出了PhaGCN2,一个可以通过升级数据库,使分类与ICTV批准的分类标准保持一致的病毒分类工具。PhaGCN2可以在科水平上预测病毒序列的分类,准确识别ICTV中尚未定义的新病毒科成员。我们使用几个广泛使用的指标将PhaGCN2与最先进的病毒分类工具(如vConTACT2、CAT和VPF-Class)进行比较。实验结果表明,该方法优于现有方法.

结果

Result

PhaGCN2的主要改进

Improvements of PhaGCN2

PhaGCN2与以前的版本相比有三个主要的改进,包括(1)使用prodigal在整个病毒领域下构建参考数据库(2)使用网络图来识别离群点,(3)将离群节点分配给family_like。(2)和(3)中的改进使PhaGCN2能够自动识别新的科,从而消除了常用监督学习模型中对固定标签集的限制。这些改进使得PhaGCN2比原始版本获得了更准确的预测,precision(公式(1))从73.19%提高到83.91%,recall(公式(2))从87.92%提高到89.30%,F1-score(公式(3))从79.88%提高到86.52%(附表1)。详细的描述可以在下面的章节中找到。

d94138f081ef14e37af7d96f9af996d7.png                                   (1)

329e6f7230f1e3daf33995f8c275d978.png                                   (2)

570f8cecacee15314f002d20ab5da669.png                                   (3)

蛋白数据库的构建. PhaGCN蛋白质数据库是通过从美国生物技术信息中心(NCBI)手工下载蛋白质序列来构建的。使用旧数据库有两个潜在的缺点。首先,蛋白质的数量受到RefSeq蛋白质数据库更新的限制。其次,用户需要逐个序列地将蛋白质映射到原始基因组,这是一项繁琐且容易出错的工作。为了建立更快捷、更方便用户的数据库构建管道,我们应用Prodigal基于最新的ICTV2021数据库进行了蛋白翻译(最新的ICTV2021包含10550个病毒)。利用DOV (Dataset of Oyster Virome)中的8760个病毒序列(length>8000bp)作为测试序列,将使用Prodigal构建的数据库的PhaGCN2与原始PhaGCN数据库进行比较。结果显示98.46%的预测结果是一致的,说明使用Prodigal建立蛋白质数据库是可靠的(表S2)。现在,用户可以通过训练PhaGCN2中的病毒分类数据库的功能,将分类与ICTV批准的分类进行对齐。

网络图可视化. 与vConTACT2类似,PhaGCN2也可以输出病毒簇集群网络。这可以我们对不同病毒科和病毒科成员之间的关系有了直观的了解。除了将科与科之间的关系可视化,我们还使用网络拓扑来识别可能的新家庭,这些新科由与ICTV节点弱连接的子图组成。首先,我们识别离群点——没有连接到ICTV中的任何病毒的测试病毒(节点)(图S1A,红点)。通常这些异常值来自新的科,但由于监督学习算法的设计限制,它们被分配到family_like(图S1B,绿点)。

0921162f2699c52afeb901fbe1242744.png

图S1,引入“family_like“前后的网络图对比

图A为代码改动前,图B为代码改动后,图中右上角为红框放大部分,20_database_virus是数据库的点,21_test_virus和family_like是测试数据。

Family-like的预测.为了支持新family_like的自动识别,我们将这些异常值赋值为family_like(可能属于与参考科相近的另一个科)。例如,如果一个节点被预测为Lipothrixviridae_like,这意味着该节点与Lipothrixviridae很接近,但不建议将其归入同一科。为了验证family - like离群值预测的可行性,我们利用ICTV2020病毒构建蛋白质数据库,并利用ICTV2021新添加的病毒(包括2636个病毒参考基因组)作为测试数据。

在新增的2636个病毒中,有339个属于ICTV2020中没有定义的科,因此我们的训练数据中不存在它们的标签。PhaGCN2总共分配了204个病毒作为family_like病毒。在这些序列中,167个测试序列是ICTV2021真正的新科成员或ICTV2020训练时未包含的科成员。因此,family_like标签的precision为81.86%(167/204),recall为49.26%(167/339)。167个真正的类科标签中,有153病毒在ICTV2021中被定义为Genomoviridae,这个科是新增的科,而在ICTV2020中被定义为Geminiviridae(与Genomoviridae同为Geplafuvirales)。改良后的PhaGCN2则将它们直接判定为Geminiviridae_like,提示该病毒很可能属于跟Geminiviridae很相似的一个科。根据ICTV2021,其他37个测试序列被错误地标注为family_like,因为它们是ICTV2020列表中的家庭成员。例如,在ICTV2021中,一些病毒属于Myoviridae,但被PhaGCN预测为Drexlerviridae(与Myoviridae同属Caudovirales)。PhaGCN2将它们识别为Drexlerviridae_like。根据ICTV2021标准,它们属于Myoviridae,但属于该科的一个新属,与ICTV2020中的Myoviridae成员没有交集。事实上,37个测试序列中的大部分在ICTV2021中被归为一个新属。

PhaGCN2与当前最先进的工具的对比

Comparison with the state-of-the-art tools

为了对PhaGCN2进行综合评价,我们使用6个广泛使用的指标:precision(公式(1))、recall(公式(2))、F1-score(公式(3))、consistency (式(4))计算速度和峰值内存,将PhaGCN2与vConTACT2、CAT和VPF-Class进行比较。

9a0f5e14fcd13301dae2f3d14ec70e2c.png                                   (4)

Precision、recall、F1-score.我们用PhaGCN2数据库所收录的9604条病毒基因组序列(即ICTV2021序列)作为PhaGCN2,vConTACT2,CAT的测试数据,将得到的结果与ICTV2021的分类进行对比。对比结果如表1。

Table 1.Comparison of PhaGCN2 with the state-of-the-art virus classification tools

Tools

PhaGCN2

vConTACT2

CAT

VPF-Class

Test Data

96041

ICTV2021 (including 3189 RNA virus2)

True Positive

8379

1616

6928

3840

False Positive

260

773

825

3683

False Negative

965

4026

1852

2080

Precision

96.99%

67.64%

89.36%

51.04%

Recall

89.67%

28.64%

78.91%

64.86%

F1-score

93.19%

40.24%

83.81%

57.13%

1以ICTV2021中超过1700 bp的病毒基因组作为测试数据,对所有软件进行评估。

2由于vConTACT2只为DNA病毒分类而设计,因此将RNA病毒基因组排除在评估之外。

Consistency.我们使用PhaGCN2和CAT对GOV 2.0数据集进行了测试,并将预测结果分别与GOV2.0论文中vConTACT2预测结果进行了对比(图1)。比较发现:①vConTACT2与PhaGCN2共有的预测结果是20430条,结果相同的序列是16958条,一致性为82.97% (16958/20430);②vConTACT2与CAT共有的预测结果是10779条,结果相同的序列是5893条序列,一致性为54.67% (5893/10779); ③CAT与PhaGCN2共有预测结果的序列是13996条,结果相同的序列是5694条序列,一致性为40.68% (5694/13996); ④三者共有的预测结果序列是5441条,结果相同的序列是3205条序列,一致性为58.90% (3205/5441)。结果表明,vConTACT2与PhaGCN2由于采用的分类方法相似,因此预测结果一致性最高,而二者与CAT的结果一致性都不高。

38b157e5e69ba8a205dfe49518b9a0b4.png

图1:三种病毒分类软件结果一致性的维恩图。

A:测试数据是9604条ICTV2021序列。B:测试数据是482,522 条GOV2.0的序列。不带括号的数为有预测结果的序列数,带括号的数为对应工具有相同预测的序列数,百分比为两个工具之间或三个工具之间的一致性

计算速度和内存峰值.此外,我们记录了这三种工具的运行时间和峰值内存。我们从GPD中随机选择1000、5000和10000个序列进行检测(图2)。

1e2954d1fa6f6a905f650032882d0508.png

图2:PhaGCN2与vContact2和CAT在运算速度和内存使用上的比较

1000、5000、10000代表测试的基因组序列数量。

对漏检序列的分析

Analysis of the sequences without predictions

在以ICTV2020做训练数据库,以ICTV2021新增的2634条序列作为测试数据的实验中,其中1492条序列结果是阳性的,1142条序列结果是阴性的。我们针对这1142条阴性结果进一步的分析(附表7),其中有992条是ICTV2021新增的科,是本身就不应该被预测到的。剩余150条序列中,有80条序列是已知科下面的新属。我们推测,由于这些科中不同属差异性太大,导致这些新的属没有被预测到;另外有49条序列被漏检,虽然它们不是新属,但由于2020数据中该属下的样本量太少(少于8条),所以没有被PhaGCN2训练。剩余21条序列中我们暂时无法确定原因,然而相对于总共2634条测试序列来说,我们认为这个数字是可以接受的。

进一步,我们以ICTV2021新增序列作为query,以ICTV2020的训练数据作为subject,用diamond blastx进行了对比,比较了阳性和阴性结果组间的Identity、score。结果如图3所示,两组间的Identity有显著的差别,其中Identity在54.8,的新病毒序列会有很大概率被PhaGCN2预测到;而Identity低于37.4%高度变异序列获得阳性结果的概率则很低。

aa07ee38fd5cc2984f7d47b5bc000bdb.png

图S2检测序列(阳性结果与阴性结果)与参考基因组之间的蛋白序列一致性比较。N:阴性结果;Y:阳性结果。

PhaGCN2对属水平预测的可能性

Possibility of genus-level prediction

和vConTACT2一样,PhaGCN2也可以绘制网络图。我们使用1700个人类肠道微生物组DNA病毒的基因组作为测试数据,并根据PhaGCN2的结果绘制网络图。由于空间的限制,我们只显示数据库中最大的10个家族的结果(图3A)。显然,同一科的病毒节点紧密地聚集在一起。为了在属水平上可视化簇,我们选取了病毒种最多的Siphoviridae。同样,在图3B中,Siphoviridae的前16个属成员用不同的颜色显示出来。我们可以看到一些属,如Pahexavirus, Skunavirus,和ceduvirus,在自己内部聚集。然而,一些属(如Triavirus、Phietavirus、Bioseptimavirus、Dubowvirus和Peeveelvirus)混合在一起(图3B)。这表明它们的差异不足以使PhaGCN2预测它们是不同的属。

0dc1614a6cf8c3625508769d6123a52b.png

图3,PhaGCN2网络图在科和属水平上的聚类效果展示

AB两图的拓扑结构完全相同,test为MGV测试数据。A图中丰度为前9的科用不同颜色标识,没有着色的low_abundance代表其它低丰度的科;B图中专门显示Siphoviridae科内的不同属,高丰度属(成员数量≧10)用不同颜色标识,low_abundance用浅绿色标识,代表Siphoviridae中其它低丰度的属,other_family代表非Siphoviridae科。

PhaGCN2对公共数据库的挖掘

Investigation of public data using PhaGCN2

GPD和GOV2.0代表了两个完全不同的病毒生境。在本节中,我们使用PhaGCN2对GPD和GOV2.0数据库进行分类。去除不合格序列后,它们分别剩下142333(142809)和328173(482522)。如图4所示,GPD和GOV2.0的总体召回率分别为91.9%和40.8%。GOV2.0中未知病毒的比例较高,远远超过GPD,说明海洋中的病毒还没有得到充分的探索,还有很大一部分仍在冰山下。仅从分类类别来看(没有unknown), Siphoviridae和Myoviridae占GPD的54.5%,Siphoviridae_like和Myoviridae_like占GPD的31.1%。与GPD相比,在GOV2.0中Siphoviridae和Myoviridae占28.9%,Siphoviridae_like和Myoviridae_like占40.4%。如果包括Caudovirales下的其他科,如Podoviridae和Herelleviridae,人类肠道中99.16%的噬菌体为Caudovirales,而海洋中为94.8%。这意味着在目水平上,GPD和GOV2.0以Caudovirales为主,而在科水平上GPD和GOV2.0差异较大。具体结果见表S9和表S5。

我们进一步应用PhaGCN2对2202个合格的RNA病毒基因组进行了分类,这些基因组来自无脊椎动物和脊椎动物病毒的研究。有1094个序列被预测,只有6个病毒基因组被预测为非rna病毒。排在前3位的是马氏病毒科、双裂病毒科和结节病毒科,占总数的18.7%。然而,有高达52.5%的病毒不能被分类到一个已知的病毒家族,这表明我们对RNA病毒圈的了解仍然非常有限。详细结果如表S10和图S3所示。

ef55e96d7a41d12c7dffe946aa8f0875.png

图5,基于PhaGCN2的GPD和GOV2数据中的病毒科水平组成结果比较

该图为GPD和GOV2数据库中使用PhaGCN2进行分类后根据各个科占据的百分比画出来的饼状图,其中“-“后面的数字代表序列条数,low_abundance表示数量较少(低于总个数的0.5%)的科的总和,unknown代表未能预测的数量,其他分别代表各个科。GPD和GOV2.0总测试点分别为142809和482522

进一步,针对GOV2在科水平的分类及来源站位信息,我们还绘制了Myoviridae和Siphoviridae在不同站点和海水深度的分布丰度图(图6),详细经纬度及其含量数据见附表11。由图6可见,Myoviridae表现出非常明显的纬度和深度效应,越接近赤道地区、表层水域,Myoviridae占比越高,而Siphoviridae则是俩极区域显然要超过赤道地区。这说明不同科的病毒可能在漫长的进化过程中对同环境进化出了独特的适应性。

f0d94ea0847ed5db6cfc83f50466516e.png

图6:GOV2的Myoviridae和Siphoviridae病毒类群随纬度和海水深度的不同分布模式

地图中颜色深度代表Myoviridae和Siphoviridae占该取样点中总病毒种类百分比含量的大小,颜色代表含量的高低。从左至右的采样深度依次为5m-15m,15m-150m,150m-1000m

讨论

Discussion

vConTACT2是当前被广泛认可的病毒分类工具,它结合了ClusterONE、分层聚类和马尔可夫聚类算法(MCL)生成的蛋白质聚类。该方法的优点是可以准确预测具有多个orf和频繁重组的大型DNA噬菌体的基因组分类。然而,对于含有较少蛋白质簇的噬菌体,其性能会下降。PhaGCN将基于蛋白质聚类的特征集成到一个更强大的基于图卷积网络的机器学习模型中,从而以更少的计算资源获得更高的精度。但是,PhaGCN仅限于噬菌体,这限制了它对病毒的全面分类。PhaGCN2通过扩展学习模型和参考数据库来消除这个限制。PhaGCN2可以应用于所有类型的病毒宏基因组数据,自动产生DNA和RNA病毒的科水平的分类。此外,它还可以根据网络拓扑结构提出新的病毒族。基于比对的分类方法如CAT,BLAST仅依赖比对结果,基于多数投票方法来推断出物种的分类。尽管CAT是识别已知病毒的第二精确的工具(表1),但基于比对的工具在分类新病毒或高度分化的病毒方面并没有优化。

PhaGCN2被设计和训练用于在家族水平上进行预测。虽然该方法可以推广到属水平预测,但许多属的成员数量较少,不足以训练一个广义学习模型。另一个情况是,在当前的ICTV标准下,有些属类过于相似,无法有效区分(图3B)。然而,随着ICTV参考数据集的不断增长和ICTV对属的调整,病毒实现属水平的预测将更加可行。

与其他基于学习的模型一样,PhaGCN2的性能也依赖于训练数据的质量。由于测序的偏重,目前的训练数据没有系统地覆盖不同的分类群。虽然PhaGCN利用网络拓扑结构来预测新家族,但其对新家族的预测能力是有限的。Identity小于37.4%的未知病毒序列的检出率通常很低(图S2)。利用PhaGCN2进行迭代预测是增强新病毒科分类的一种可能策略。首先,我们可以使用PhaGCN2对所有病毒基因组数据(如IMG/VR)进行预测。然后,我们可以将新预测的Family_like成员加入到训练数据中,增加PhaGCN2识别更多新家族成员的能力。迭代训练和搜索可能会提高PhaGCN2对新家族的检测能力。我们将在今后的工作中对此进行研究。

然而,对于那些没有相似度或相似度很低的“暗物质”序列,进行从头病毒分类可能是一项不可能的任务。首先,我们无法评估预测的准确性。其次,没有任何同源物,很难描述它们基因组的结构或功能。无论确定了多少个序列,它们仍然是“暗物质”。

最后,由于PhaGCN2不能预测输入序列是属于病毒还是宿主细胞,我们强烈建议使用病毒序列作为PhaGCN2的输入。换句话说,在应用PhaGCN2之前,应先使用病毒识别工具(如DIAMOND、Virsorter2等)去除非病毒序列。

参考文献

Kunkun Fan, Manuel Delgado-Baquerizo, Xisheng Guo, Daozhong Wang, Yong-guan Zhu & Haiyan Chu. (2020). Biodiversity of key-stone phylotypes determines crop production in a 4-decade fertilization experiment. The ISME Journal, doi: https://doi.org/10.1038/s41396-020-00796-8

Gelderblom, H.R. (1996) Structure and Classification of Viruses. Medical Microbiology.

Suttle, C.A. (2007) Marine viruses βÄî major players in the global ecosystem. Nature Reviews Microbiology, 5, 801-812.

Geoghegan, J.L. and Holmes, E.C. (2017) Predicting virus emergence amid evolutionary noise. Open Biol, 7.

Asokan, G.V. and Kasimanickam, R.K. (2013) Emerging Infectious Diseases, Antimicrobial Resistance and Millennium Development Goals: Resolving the Challenges through One Health. Cent Asian J Glob Health, 2, 76.

Grant, W.B. (2008) Hypothesis--ultraviolet-B irradiance and vitamin D reduce the risk of viral infections and thus their sequelae, including autoimmune diseases and some cancers.

Gregory, A.C., Zayed, A.A., Conceicao-Neto, N., Temperton, B., Bolduc, B., Alberti, A., Ardyna, M., Arkhipova, K., Carmichael, M., Cruaud, C. et al. (2019) Marine DNA Viral Macro- and Microdiversity from Pole to Pole. Cell, 177, 1109-1123 e1114.

Camarillo-Guerrero, L.F., Almeida, A., Rangel-Pineros, G., Finn, R.D. and Lawley, T.D. (2021) Massive expansion of human gut bacteriophage diversity. Cell, 184, 1098-1109 e1099.

Roux, S., Paez-Espino, D., Chen, I.A., Palaniappan, K., Ratner, A., Chu, K., Reddy, T.B.K., Nayfach, S., Schulz, F., Call, L. et al. (2021) IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses. Nucleic Acids Res, 49, D764-D775.

Simmonds, P., Adams, M.J., Benko, M., Breitbart, M., Brister, J.R., Carstens, E.B., Davison, A.J., Delwart, E., Gorbalenya, A.E., Harrach, B. et al. (2017) Consensus statement: Virus taxonomy in the age of metagenomics. Nat Rev Microbiol, 15, 161-168.

Dutilh, B.E., Varsani, A., Tong, Y., Simmonds, P., Sabanadzovic, S., Rubino, L., Roux, S., Munoz, A.R., Lood, C., Lefkowitz, E.J. et al. (2021) Perspective on taxonomic classification of uncultivated viruses. Curr Opin Virol, 51, 207-215.

Shang, J., Jiang, J. and Sun, Y. (2021) Bacteriophage classification for assembled contigs using graph convolutional network. Bioinformatics, 37, i25-i33.

Hyatt, D., Chen, G.L., Locascio, P.F., Land, M.L., Larimer, F.W. and Hauser, L.J. (2010) Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics, 11, 119.

Jing-Zhe, J., Yi-Fei, F., Hong-Ying, W., Ying-Xiang, G., Li-Ling, Y., Tao, J., Mang, S., Shao-Kun, S., Meng, W., Tuo, Y. et al. (2021) Dataset of Oyster Virome and the Remarkable Virus Diversity in Filter-Feeding Oysters. Research Square.

Nayfach, S., Páez-Espino, D., Call, L., Low, S.J., Sberro, H., Ivanova, N.N., Proal, A.D., Fischbach, M.A., Bhatt, A.S., Hugenholtz, P. et al. (2021) Metagenomic compendium of 189,680 DNA viruses from the human gut microbiome. Nature Microbiology, 6, 960-970.

Shi, M., Lin, X.-D., Tian, J.-H., Chen, L.-J., Chen, X., Li, C.-X., Qin, X.-C., Li, J., Cao, J.-P., Eden, J.-S. et al. (2016) Redefining the invertebrate RNA virosphere. Nature, 540, 539-543.

Shi, M., Lin, X.-D., Chen, X., Tian, J.-H., Chen, L.-J., Li, K., Wang, W., Eden, J.-S., Shen, J.-J., Liu, L. et al. (2018) The evolutionary history of vertebrate RNA viruses. Nature, 556, 197-202.

Nepusz, T., Yu, H. and Paccanaro, A. (2012) Detecting overlapping protein complexes in protein-protein interaction networks. Nat Methods, 9, 471-472.

Lima-Mendez, G., Van Helden, J., Toussaint, A. and Leplae, R. (2008) Reticulate representation of evolutionary and functional relationships between phage genomes. Mol Biol Evol, 25, 762-777.

Bin Jang, H., Bolduc, B., Zablocki, O., Kuhn, J.H., Roux, S., Adriaenssens, E.M., Brister, J.R., Kropinski, A.M., Krupovic, M., Lavigne, R. et al. (2019) Taxonomic assignment of uncultivated prokaryotic virus genomes is enabled by gene-sharing networks. Nat Biotechnol, 37, 632-639.

Altschul, S.F., Gish, W., Miller, W., Myers, E.W. and Lipman, D.J. (1990) Basic local alignment search tool.

Benjamin, B., Chao, X. and H, H.D. (2015) Fast and sensitive protein alignment using DIAMOND. nature methods 12.

Guo, J., Bolduc, B., Zayed, A.A., Varsani, A., Dominguez-Huerta, G., Delmont, T.O., Pratama, A.A., Gazitua, M.C., Vik, D., Sullivan, M.B. et al. (2021) VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses. Microbiome, 9, 37.

von Meijenfeldt, F.A.B., Arkhipova, K., Cambuy, D.D., Coutinho, F.H. and Dutilh, B.E. (2019) Robust taxonomic classification of uncharted microbial sequences and bins with CAT and BAT. Genome Biol, 20, 217.

Pons, J.C., Paez-Espino, D., Riera, G., Ivanova, N., Kyrpides, N.C. and Llabres, M. (2021) VPF-Class: Taxonomic assignment and host prediction of uncultivated viruses based on viral protein families. Bioinformatics.

Shang, J. and Sun, Y.J.M. (2020) CHEER: hierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning.

M, B., S, H. and M, J. (2009) Gephi: an open source software for exploring and manipulating networks. International AAAI Conference on Weblogs and Social Media.

猜你喜欢

iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文,跳转最新文章目录阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57330.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多组学在药物机制解析和诊断标志物开发中的应用

链接:多组学在药物机制解析和诊断标志物开发中的应用_哔哩哔哩_bilibili 药物研发流程和多组学前沿技术 药物研发流程遇到的挑战 流程:新药的发现——临床前研究——临床研究 挑战: 诊断是否清晰、机制是否明确、靶点是否可靠、药物是否有…

药物研发早期预测细胞毒性的解决方案

药物从设计到上市的整个研究阶段,毒性通常是导致研发失败的最主要原因。即使上市以后还有许多药物由于出现研发阶段未能发现的毒性而被撤市或严格限制使用。因此,如何及时、准确、快速地评价药物毒性便成为药物开发中的一个重要问题。 在体外快速的、高…

针对新冠病毒,盛普始终坚持多靶标协同的防治病毒药物研发

全球范围内的新冠确诊人数仍旧在增加,“特效治疗药”依然没有找到。凛冬已至,更适于病毒传播的寒冷高湿天气已经笼罩了半个地球。在一片阴霾的疫情当中,“希望之光”开始浮现,新冠疫苗和单一靶标的小分子药物开始被世界各国政府应急准入市场。这些疫苗和小分子药物依靠海量…

3CLpro蛋白酶抑制剂,如何靠实力进入新冠病毒诊疗方案

3月15日,国家卫健委发布《新型冠状病毒肺炎诊疗方案(试行第九版)》,在抗病毒治疗中,抗新冠病毒药物PF-07321332/利托那韦片(Paxlovid)被写入诊疗方案。Paxlovid是由两种抗病毒药物组成&#xff…

关于CV算法岗就业相关问题,精华回答分享

粉丝提问: 你好,看星球上做前端,后端,java 的人比较多,好像没有看到有多少人做算法,我现在已经毕业了,是一名 cv 算法工程师,但是我现在很苦恼,感觉自己代码能力很弱&am…

chatgpt赋能python:Python自动打开软件:实现轻松便捷的操作

Python自动打开软件:实现轻松便捷的操作 在许多工作场所,我们可能需要反复打开某个软件,费时费力。那么有没有一种方式能够轻松地自动打开特定软件呢?此时Python便是一个好帮手。PythonとWINDOWS关联性较强,可以方便地…

Golang/Python 调用 openAI 的API 详解

学习目标: OpenAI API介绍 学习如何通过 Golang 使用 OpenAI 的 API OpenAI 的常用的参数及其说明 了解OpenAI API 中令牌(tokens) OpenAI API 提供了几个不同的终端点(endpoints)和模式(modes) 复杂和…

我改了一行公共代码后,同事说要建个没我的小群

点击上方 前端Q,关注公众号 回复加群,加入前端Q技术交流群 嗨,大家好!这里是道长王jj~ 🎩🧙‍♂️ 今天我想和大家分享一个惨痛的教训,就是当我一意孤行地删掉一个看起来没用的配置文件时&#…

chatgpt赋能python:免费的Python教程:从入门到精通

免费的Python教程:从入门到精通 Python是如今最热门的编程语言之一,在众多编程语言中占据了重要的地位。Python有着简单易学的语法,充足的库支持,高效的执行速度和海量的社区支持,这些使得Python成为最适合初学者的编…

chatgpt赋能python:Python报错Module:从入门到精通

Python报错Module:从入门到精通 在Python编程中,我们经常会遇到各种各样的错误。其中,Module错误是最常见的一种。在这篇文章中,我们将深入探讨Python报错Module的各种原因和解决方法,并希望能够帮助那些遇到这种问题…

chatgpt赋能python:Python词汇大全:从入门到精通

Python词汇大全:从入门到精通 Python作为一门简洁易学的编程语言,已经成为了全球程序员的热门选择。在这篇文章中,我们将介绍Python的词汇大全,包括关键字、数据类型、内建函数、标准库、第三方库等内容,帮助读者更好…

chatgpt赋能python:Python的口头禅:从入门到精通

Python的口头禅:从入门到精通 什么是Python口头禅? Python是一门强大的编程语言,它不仅拥有简洁易读的语法,而且拥有着许多独特的语言特性。其中,Python口头禅是指程序员们在使用Python时最常用的,最经典…

chatgpt赋能python:Python要点:从入门到精通

Python要点:从入门到精通 Python是一门高级编程语言,是一种解释型、面向对象、动态数据类型的语言。它的设计思想是“代码易读易写”,在数据科学、人工智能、自动化测试、Web开发等领域广泛应用。本文将从入门到精通的角度来介绍Python的要点…

chatgpt赋能python:Python构造列表:从入门到精通

Python 构造列表:从入门到精通 Python是一种强大、可扩展、易于学习的编程语言。用Python编写代码的一个重要部分是构建列表,这是Python中最重要的数据结构之一。本文将深入探讨Python列表的构造方法,以帮助您更好地理解它们的概念和用途。 …

基于 ChatGPT 的 helm 入门

1. 写在最前面 公司最近在推业务上云(底层为 k8s 管理),平台侧为了简化业务侧部署的复杂度,基于 helm 、chart 等提供了一个发布平台。 发布平台的使用使业务侧在不了解 helm 、chart 等工具的时候,「只要点点」就可…

我的新书《Android App开发从入门到精通》终于出版啦

前言 经过了两年多终于完成了这本书,2016年9月份开始写的,到今天为止2年零2个月,本书的内容大部分是去年完成的,看过我去年总结的读者可能知道,去年事情很多太忙了,导致本命年这本书没有上架(有…

毕业论文答辩ppt怎么做?

毕业论文是令每个学生最头疼的事情了,毕业论文答辩ppt模板怎么做?毕业ppt模板制作方法有什么技巧呢?下面ppt家园就来介绍一下答辩PPT内容。 答辩PPT最忌讳长篇大论,只需要提炼你论文的核心要点和成果即可。 1.PPT封面 完整的论文答…

如何防止短信验证码接口、登录注册入口被恶意调用攻击?

目录 前言1、短信验证码是什么?2、为什么要对短信验证码进行防护?3、有哪些常见的防护手段?4、这些防护手段有没有用呢,到底该如何选择?5、结语 前言 最近遇到一个关于防止短信验证码被刷的问题,相信很多朋…