高分综述:人类肠道病毒组分类的进展和挑战

期刊:Cell Host Microbe

影响因子:31.316

发表时间:2022.7

- 一、摘要 -

人类肠道病毒组通常被称为肠道微生物组的“暗物质”,仍未得到充分研究。了解不同人群肠道病毒组的组成和变化对于探索其对人类健康的影响至关重要。人类肠道病毒组研究揭示了肠道病毒的高度遗传多样性和各种功能潜力。本综述总结了最近可用的四个人类肠道病毒组数据库,并讨论了它们的特征、构建过程和挑战,旨在为研究人员在选择数据库时提供参考。本综述还提出了对病毒种群进行分类的“最佳实践”。

- 二、背景介绍 -

粪便中人类肠道病毒浓度为109-10个病毒颗粒(VLPs)/g,是肠道微生物群中不可忽视的组成部分,具有高丰度、时间持久性和显著的多样性。虽然存在真核病毒,但人类肠道病毒组主要由噬菌体构成。最近的研究表明,病毒组可能在人类肠道菌群的生态过程中发挥重要作用。在炎症性肠病、糖尿病、高血压、艾滋病、结直肠癌和急性营养不良中,已报道肠道病毒组的疾病特异性改变。

肠道病毒组研究一般有两种测序策略:VLP宏基因组学(也称为病毒宏基因组学)和整体宏基因组学。

基于病毒RefSeq数据库的分析是直接将宏基因组测序reads与包含已知肠道相关病毒的公共数据库对比,导致对肠道病毒群组成的描述较差和不完整。因此,宏基因组测序和重新组装相结合被认为是揭示肠道噬菌体种群多样性和促进新病毒基因组发现的关键方案。过去几年里,一些人类肠道病毒库相继发表,这些数据库极大地扩展了人们对人类肠道病毒基因组的认识,并提供了丰富的注释信息。

然而,这些数据库之间可区分的特征和构建方法有差异,这导致了两个关键问题:①如何选择合适的数据库;②如何选择适当的参考程序。本综述讨论了肠道病毒数据库构建的差异和影响,并预测了未来研究中仍需解决的挑战。

- 三、人肠道病毒体的特征数据库 -

对过去2年发表的大规模宏基因组数据集建立的4个肠道病毒组数据库进行描述。

1)肠道病毒数据库(GVD)是基于2,697个人类肠道宏基因组数据,获得33,242个病毒种群(vOTUs),并记录了病毒多样性在健康个体的整个生命周期中的变化。

2)Cenote人病毒组数据库(CHVD)分析人不同部位(肠道、口腔、鼻子、皮肤和阴道)的5996个宏基因组样本测序数据,获得45033个非冗余的vOTUs,并发现了2200多个病毒类群与帕金森病和肥胖等几种慢性疾病的关联。

3)宏基因组肠道病毒数据库 (MGV) 是基于已发表的11,810 个人类粪便宏基因组测序数据,对病毒基因组进行大规模鉴定, 获得54,118 个vOTUs,这些基因组极大地扩展了肠道微生物组中 DNA 病毒的已知多样性,并提高了对宿主-病毒关联的了解。

4)肠道噬菌体数据库(GPD)是通过调查28,060个人类肠道宏基因组形成的一个更广泛的人类病毒库,其中包含142,809个非冗余肠道噬菌体基因组。GPD将噬菌体与特定的细菌宿主联系起来,并披露了人类肠道病毒体的全球分布特征。

这四项研究共同证明了人类肠道病毒体的高度多样性。随着样本量的增加,识别到的vOTU数量也在增加(图1A),这意味着目前发布的肠道病毒库并未达到饱和。

表1 4个人类肠道病毒库的情况

维恩图(图1B)显示了用于构建这四个肠道病毒库研究的重叠情况。78.8%的GVD研究和24.0%的CHVD研究采用VLP宏基因组学策略(图1C)。

据报道,地理、饮食、遗传和药物等宿主因素会塑造人类肠道病毒体。在一项针对中国人群的肠道病毒体研究中,发现地理对人类肠道病毒体变异的影响最为显著。本综述分析了4个数据库样本的地理分布(图1D),GPD从大洋洲收集的样本为3432个,远远超过了MGV、CHVD和GVD,这意味着GPD更适合大洋洲肠道病毒群的研究。

图1 四个肠道病毒库样本数量、已发表的研究以及样本的地理组成

四、病毒数据库的构建流程

通过从宏基因组数据集中组装病毒基因组,可以建立一个更全面的病毒数据库。上述这四个肠道病毒数据库从28,000个样本中收集到肠道病毒组,为肠道病毒的研究奠定良好基础。然而,四个数据库在执行类似程序的方式上有差异,因此,需要一种对人类肠道病毒体进行编目的标准化过程。

本综述将这些过程分为五个部分:reads组装、病毒contig识别、基因组质量评估、分类学注释和细菌宿主分配。结合每项研究的优点,提出了一个肠道病毒体编目的“最佳实践”实现。

图2 肠道病毒组编目的工作流程

五、宏基因组组装、病毒识别和质量评估

人类肠道菌群的大部分宏基因组测序数据来自细胞生物,为了解决这一问题,肠道病毒数据库的研究包括三个过程:宏基因组测序数据的组装、推定病毒序列的识别、病毒基因组的质量控制和评估。

组装:肠道病毒的高度多样性、个体特异性、可变丰度以及整合前噬菌体和宿主基因组序列之间的模糊边界等特征阻碍了病毒基因组的精确组装:MEGAHIT和metaSPAdes是目前病毒库研究中常用的两种方法。MEGAHIT在组装大型复杂宏基因组数据时具有更快的速度和更少的计算机内存消耗,而metaSPAdes的特点是对计算资源的需求更高,但在获得较长的contigs时具有更好的性能。

病毒序列的识别:肠道病毒缺乏一种通用的标志基因,这里讨论的研究应用了各种复杂的方法来识别病毒,包括:(1)VirSorter软件是使用隐马尔可夫模型(HMM)搜索病毒蛋白家族的存在;(2)VirFinder或DeepVirFinder是利用病毒核苷酸特征,如k-mer频率和GC skew值;(3)基因组末端特征,如直接末端重复序列和反向末端重复序列;(4)同一链上的多个相邻基因。多种方法联合使用。

对假定病毒序列进行质控去除假阳性序列,通常是基于以下几种方法进行的:

(1)通过HMM搜索细菌蛋白家族排除细菌序列;

(2)使用机器学习分类器或HMM搜索将噬菌体与结合移动元件区分;

(3)使用CheckV或Cenote-Taker 2修剪前噬菌体的宿主侧翼序列;

(4)去除人类、动物序列;

(5)消除已知的污染物。

去除假阳性序列后,通过CheckV自动化流程估计基因组完整性来评估剩余病毒contigs的质量。如表1所示,三个数据库中病毒的完整度都不高,这表明目前病毒基因组数据库中的基因组很大程度上是碎片化的。

总之,以上三个步骤在GPD、MGV、CHVD和GVD研究中是相似的,但每一项研究对病毒鉴定和质量控制都不尽相同,每个研究使用的不同标准是互补的,未来的研究可能通过综合考虑所有这些标准来获得更高的特异性和更有利的表现。

- 六、细菌寄主分配 -

鉴定噬菌体的宿主范围对于理解肠道微生态至关重要,包括以下内容:

(1)噬菌体动力学和进化是如何被重塑的;

(2)细菌生长和代谢是如何重新连接的;

(3)如何促进水平基因转移(HGT);

(4)噬菌体相互作用如何影响人类健康。

计算方法可分为依赖序列对比和不依赖序列比对。依赖对比方法通过筛选与噬菌体匹配的CRISPR间隔区来进行。以此为原理的工具包括CRISPRDetect和CRISPRCasFinder。然而,大多数新组装的噬菌体序列与任何参考数据库都不匹配,并且只有大约40%的细菌携带CRISPR-Cas系统。

不依赖于序列比对的工具可以增加宿主预测百分比。基于基因组寡核苷酸k-mer频率的机器学习的工具,其预测准确率在28%~81%之间(属水平)。不依赖于序列对比的工具显示出相对较低的准确性,并且预测通常限于属水平及以上。

GPD、MGV、CHVD和GVD研究均采用了依赖序列比对方法以及CRISPR序列分配宿主(图2)。MGV内81%的噬菌体注释到宿主,其次是CHVD内69%、GVD内42%和GPD内29%(表1)。通过检查数据库构建的程序,研究者总结出两个可能对宿主预测性能至关重要的因素。首先,宿主分配很大程度上取决于CRISPR序列数据库,特别是数据库的大小和来源。

总之,依赖对比方法的宿主预测的性能主要受间隔数据库的大小和来源以及对齐参数设置的影响。研究人员可以结合结合多个CRISPR间隔区数据库,以提高宿主预测的灵敏度,根据研究的目的选择适当的对齐参数。还可以改进机器学习模型和输入特征,如phisdetector和VirHostMatcher-Net使用集成特征来提高预测精度。总之,必须整合不依赖比对和依赖比对的方法,在提高宿主预测的灵敏度的同时保证准确性。

- 七、总结与展望 -

本综述总结了四个肠道病毒数据库的特点,有助于后续研究选择更合适的数据库。此外,研究者发现涉及的宏基因组数据集越多,识别出的物种样vOTU数量越多,表明目前的数据库仍然没有达到肠道病毒多样性的饱和。通过普通病毒宏基因组测序鉴定ssDNA、ssRNA和dsRNA噬菌体存在局限性。综述总结了肠道病毒组分类时涉及的典型程序,提出了一种考虑到每项研究优点的“最佳实践”方法。希望这一最佳实践方法将对计划建立或更新病毒数据库的研究人员具有指导意义和信息价值。

新病毒的注释似乎更具挑战性,在属和科的水平上,关于阈值和聚类算法还没有达成共识。仍需要开发一种可行和稳健的噬菌体系统发育方法。最后,研究者注意到在四个病毒组数据库中细菌宿主指定的噬菌体的比例变化很大,受所使用的CRISPR间隔区数据库大小和错配设置的影响,增加间隔区序列比对中的错配数目会显著降低细菌宿主预测的准确性。

除了上述的进展和挑战,目前的研究对病毒进行分类仅仅是揭开肠道病毒奥秘的开始。类似于研究肠道细菌组与人类健康之间因果关系的策略,未来应开展一系列全病毒关联研究。鉴于病毒基因组表现出独特的特征,并且噬菌体系统发育的局限性,现有的微生物组分析工具可能不适用于病毒范围内的关联分析。因此,应广泛努力开发专门用于病毒组研究的分析工具包,如高效的病毒组图谱分析和噬菌体-宿主动态相互作用分析。


参考文献

Advances and challenges in cataloging the human gut virome

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49453.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能辅助药物发现(1)肿瘤靶点识别

目录 基于AI的靶点识别概述肿瘤建模肿瘤转录组转录组异质性单细胞转录组数据分析 单细胞表观肿瘤模型肿瘤中的表观遗传模型基于甲基化测序技术的肿瘤表观遗传模型基于染色质可及性的肿瘤表观遗传模型 多模态肿瘤建模 靶点识别基于单细胞RNA的靶点发现基于表观的靶点发现基于多组…

Commun. Biol. | 人工智能加速抗生素发现

今天给大家介绍宾夕法尼亚大学佩雷尔曼医学院Cesar de la Fuente-Nunez团队发表在Nature communications biology上的文章。该文章主要介绍表示学习,性质预测和生成模型等人工智能方法在小分子抗生素和抗菌肽发现中的应用。此外,作者还分析了该领域当前的…

麻省理工研究人员使用AI发现一种新抗生素

麻省理工学院的一组研究人员使用AI来发现一种受欢迎的新抗生素,以帮助抵抗耐药性的增加。 使用机器学习算法,麻省理工学院的研究人员能够发现一种新的抗生素化合物,该化合物在对小鼠进行30天的治疗期间没有产生任何抗药性。 使用大约2500个分…

MIT的这个AI,专治抗生素滥用,二次抗生素直降67%

郑集杨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 随着抗生素的滥用,抗生素耐药性已经成为日趋严重的问题。 据《病理学》一书的统计,全球每年感染病死亡数从上世界60年代约700万人上升到了本世纪的2000万。 科学家们正在努力缓解这个趋势,目…

idea无法搜索下载插件问题解决

文章目录 IDEA无法搜索插件我的解决办法 IDEA无法搜索插件 最近重装了系统,需要配置好多环境,但当我在idea中搜索插件的时候,发现idea Plugins居然搜索不到插件,百度了下,都是些是设置idea勾选的设置,不过…

开发者在行动!中国防疫开源项目登上GitHub TOP榜

整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 【导读】用开发者们的方式支援这场没有硝烟的战争! 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例&#xf…

mac笔记本当做服务器记录

持续更新中~ 三更:放弃了mac,转战树莓派4b 二更:使用dp 创建虚拟机ubuntu,并设置网卡桥接,使用正常 已废弃:因为docker的权限问题各种坑 大致画了一下家庭布局图 目录 持续更新中~基础环境准备1&#xff1…

GitHub 新品发布会摘要:云端编程、提问论坛、代码扫描

晓查 发自 凹非寺 转载自 | 量子位 和其他科技公司一样,GitHub 最近也把发布会改成了线上,但这并不妨碍 GitHub 发布重磅产品。 今天,GitHub 在巴黎举办的 Satellite 大会上一口气发布了 4 大产品。 首先是云端 IDE,名叫 Codespac…

mac用自带终端shell连接服务器以及部署项目

mac用自带终端shell连接服务器以及部署项目 一、登录服务器 1、链接服务器,打开shell,点击 新建远程连接 2、点击右侧 ,会出现弹框,输入服务器地址,点击好 3、添加完后右侧的服务器列表会出现刚才添加的内容&#…

Mac操作系统下一些开发经验分享

目录 前言在本地环境中使用Nginx添加信任HTTPS证书查看本地开启的tcp端口测试远程端口是否正常提供服务利用SSH让内网机器调试公网回调查看NetBIOS注册信息加速你的代码编辑速度显示文件的详细修改时间node.js安装npm安装全局包总是失败 使用多个SSH密钥IntelliJ IDEA启动Java时…

Linux 基金会开源教育及人才培养峰会来了

开源技术正在快速发展,在云计算、大数据、人工智能等领域逐步形成技术主流。作为一种新的软件生产方式,开源已经被列入“十四五”规划纲要。纲要提出,支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系&#xff0…

影响 5000 万开发者,GitHub 与 CSDN 掌舵人对话技术社区未来

作者 | 卢鸫翔 责编 | 屠敏 2018年6月伊始,微软宣布将以75亿美元的价格收购热门在线代码分享和协作平台GitHub。如今近5个月的时间过去,我们终于等到了官宣,微软已于上周五正式完成收购GitHub的交易。与此同时,微软企业副总裁Na…

乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码 | 开发者周刊

【CSDN编者按】七月的第一周,科技圈就像盛夏的天气一样,冰火两重天。乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码......最近一周就有哪些开发者新闻呢?就在本期开发者周刊! 整理 | 红月 出…

这可能是史上最强大Mac连接服务器的软件,甚至能媲美Xshell的存在

今天介绍的这款软件叫做Royal TSX 好了,有些同学看到这个名字就跑了,并且留下了一句 别跑,你去下了你也不一定知道怎么用!!!! 我们先看看他的页面: 骚话不说了,直接开…

MacOS利用Github搭建个人博客过程记录

【需要科学上网】 笔者博客​​​​​​​ 一、尝试在Github建立简单页面 如果没有GitHub账户请先创建 ①在GitHub界面,点击New repository 创建新项目 Repository name填“用户名.github.io”,比如我的就应该填写“yang-makabaka.github.io” 下面选择Public ,然…

开发者在行动!中国防疫开源项目登上 GitHub TOP 榜

用开发者们的方式支援这场没有硝烟的战争! 整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例,医护…

Mac当作云服务器,你真的会搞吗

1写作目的 最近淘了个mac,发现mac和linux还挺像的,并且云服务器马上就到期了,可以不可以把mac当做永久的云服务器呢? 2FinalShell(XShell)连接MAC MAC:首先选择系统偏好设置,选择里面的共享 MAC&#x…

【历史上的今天】7 月 22 日:Linux 开发的“二把手”出生;苹果发布 OS 8;MSN 发布

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 7 月 22 日,在 1945 年的今天,美国计算机科学家阿黛尔戈德堡(Adele Goldberg)出生;1970 年代时&…

【历史上的今天】6 月 4 日:微软收购 Github;MacOS Mojave 推出;英特尔发布第四代架构 Haswell

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 6 月 4 日,在 1998 年的今天,我国互联网用户突破一百万。自从中国科学技术网在国内首次实现了与国际互联网络的直接连接,我…

我用ChatGPT干了这18件事!格局一下打开了

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:2T架构师学习资料干货分享 大家好,我是互联网架构师&…