2024.09.04【读书笔记】|如何使用Tombo进行Nanopore Direct RNA-seq（DRS）分析

文章目录

Tombo快速使用介绍
模型介绍
RNA修饰分析步骤
- 特异性替代碱基检测（推荐）
- De novo canonical model comparison
ONT全长转录组分析步骤
疑难解答
- Minimap2在比对nanopore直接RNA-seq数据时的最佳实践和参数设置有哪些？
- featureCounts在进行RNA-seq定量分析时，如何选择最合适的参考基因组注释文件？
- Tombo序列重校正过程中，如何选择最适合的参考基因组以及如何评估重校正结果的准确性？
- 使用Tombo进行RNA测序分析时，有哪些常见的问题和解决方案？
- Tombo与其他RNA测序分析工具（如NanoPreprocess）的比较和兼容性如何？

Tombo快速使用介绍

首先，需要将原始的纳米孔读取数据（FAST5文件）转换为参考序列对齐的信号。这一步是Tombo分析的第一步，称为“重抖动”（re-squiggle），即将原始纳米孔读取转换为参考序列对齐的信号。

可以通过Conda安装Tombo，这是推荐的安装方法。具体命令如下：

   conda install -c bioconda tombo

使用Tombo进行RNA修饰检测的命令如下：

   tombo run --input input FAST5文件路径 --output output 输出文件路径 --model model 模型名称

其中，input参数指定输入的FAST5文件路径，output参数指定输出文件路径，model参数指定使用的模型名称。Tombo支持多种模型，例如用于检测5-甲基胞嘧啶（m5C）的“Alternative Model”。

Tombo不仅提供检测工具，还提供分析和可视化工具。可以使用以下命令进行分析和可视化：

   tombo analyze --input input 输出文件路径 --output output 输出文件路径tombo visualize --input input 输出文件路径 --output output 输出文件路径

这些命令将生成用于进一步分析和可视化的数据。

根据需要，可以使用其他工具进行进一步的分析和处理。例如，可以使用NanoPreprocess工具进行预处理，包括去抖动、去多路复用、过滤、质量控制、映射等步骤。

通过以上步骤，可以使用Tombo进行纳米孔直接RNA测序分析，检测RNA修饰并生成可视化结果。

模型介绍

Tombo在进行DRS分析时支持以下模型及其应用场景：

canonical models：Tombo支持R9.4和R9.5；1D和1D^2；R9.*.1化学反应的默认标准模型。这些模型主要用于DNA或RNA数据的分析，如果未明确指定DNA或RNA样本类型，Tombo将从原始读取文件中自动检测样本类型。
DeepEdit模型：这是一个用于使用Nanopore直接RNA测序进行单分子检测和A-to-I RNA编辑相位分析的神经网络模型。DeepEdit模型特别适用于需要高精度检测RNA编辑和修饰的复杂应用场景。
m5C模型：Tombo还支持m5C（5-甲基胞嘧啶）模型，用于检测RNA中的m5C修饰。该模型在分析拟南芥等植物样本时特别有用，因为这些样本中m5C修饰水平较高。
RNA修饰检测模型：Tombo提供了多种RNA修饰检测模型，包括直接RNA读取的排序和基于信号数据的检测方法。这些模型适用于需要详细分析RNA修饰的复杂样本，如野生型样本与突变型样本之间的比较。

Tombo在直接RNA测序分析中支持多种模型，包括标准的 canonical models、用于单分子检测的 DeepEdit 模型、专门用于检测m5C修饰的m5C模型以及多种RNA修饰检测模型。

RNA修饰分析步骤

使用Tombo进行RNA修饰的详细分析和可视化需要遵循一系列步骤和命令。以下是具体步骤和参数设置的详细说明：

Tombo分析需要一个转录组参考文件，因为不支持剪接映射，转录组是检测修饰RNA碱基的自然环境。

使用tombo resquiggle命令将原始电流信号与转录组参考文件进行匹配，生成重拟合后的信号。命令如下：

   tomboresquiggle --overwrite --basecall-group Basecall_1D_000 <single_fast5_path> <reference.transcript.fa > --processes 40 --fit-global-scale --include-event-stdev

其中：

--overwrite：覆盖已存在的文件。
--basecall-group Basecall_1D_000：指定原始信号文件。
<single_fast5_path>：指定单个fast5文件路径。
<reference.transcript.fa >：指定转录组参考文件。
--processes 40：指定并行处理的进程数。
--fit-global-scale：全局拟合信号。
--include-event-stdev：包括事件的标准差信息。

使用tombo detect_modifications命令检测RNA修饰。Tombo 提供了四种（包括两种类型的样本比较）方法来研究修饰的碱基（在命令组内）。每种方法都有不同的优点和要求。请添加图片描述

特异性替代碱基检测（推荐）

使用 command 运行。tombo detect_modifications alternative_model

此方法可识别信号与特定替代基础预期信号水平匹配优于典型预期信号水平的位点，从而产生类似于对数似然比的统计量。

目前可用于 5-甲基胞嘧啶（5mC）和 N6-甲基腺苷（6mA;目前不适用于 RNA）的全上下文替代 DNA 模型。

更准确的基序特异性模型可用于 dam 和 dcm 甲基化（在大肠杆菌中发现）和 CpG 甲基化（在人类样品中发现）。虽然Tombo更倾向于使用基序模型（CpG、dcm和dam；最准确）以及所有上下文特定的替代碱基模型（5mC和6mA；更准确），但它也允许用户探究其他甚至未知的碱基修饰。

命令如下：

   tombo detect_modifications alternative_model \--fast5-basedirs path/to/control/fast5s/ \--statistics-file-basename novel_de_novo.control \--alternate-bases 5mC--processes 4

De novo canonical model comparison

使用 command 运行。tombo detect_modifications de_novo

此方法可识别信号偏离预期显著信号的位置。虽然这种方法的错误率最高，但它可以有效地用于任何样品，并且对于基序特异性修饰（例如细菌样品）的基序发现特别有用,对于RNA不支持的m6A也可以进行挖掘。

tombo detect_modifications de_novo 
--fast5-basedirs ${fast5dir_s} 
--statistics-file-basename $sample 
--processes 16 
--rna

使用Tombo的命令进行数据可视化。

   tombo plot browser --fast5-basedirs fast5_dir --genome-locations chr1:1000-2000

通过以上步骤和命令，可以使用Tombo进行RNA修饰的5mC和m6A详细分析和可视化。

ONT全长转录组分析步骤

DRS通常需要以下几个步骤，包括数据预处理、比对、定量和可视化。以下是详细的命令示例：

使用NanoPack中的NanoFilt工具对原始数据进行过滤和质量控制。

   NanoFilt -l 500 --headcrop 50 input.fastq > filtered.fastq

使用Minimap2将过滤后的reads比对到参考基因组。

   minimap2 -ax splice -uf -k14 reference.fa filtered.fastq > aligned.sam

使用SAMtools将SAM文件转换为BAM文件，并进行排序和索引。

   samtools view -b aligned.sam > aligned.bamsamtools sort aligned.bam -o sorted.bamsamtools index sorted.bam

使用featureCounts对排序后的BAM文件进行基因级别的read计数。

   featureCounts -a annotation.gtf -o counts.txt sorted.bam

疑难解答

Minimap2在比对nanopore直接RNA-seq数据时的最佳实践和参数设置有哪些？

Minimap2是一款高效的比对工具，用于将序列数据与参考基因组进行比对。在处理纳米孔直接RNA-seq数据时，选择合适的参数和最佳实践至关重要，以确保比对的准确性和效率。

参数设置：
- -x：指定Minimap2的工作模式。对于RNA-seq数据，通常使用“asm2”模式，该模式适用于组装任务。
- –单项：如果只关注正链或负链的比对，可以使用此参数来优化比对速度和准确性。
- -a：输出所有可能的比对结果，包括那些没有完全匹配的部分。
- -f：设置输出格式为SAM格式，便于后续分析处理。
- -c：计算并输出总的比对次数和错误率，有助于评估比对质量。
最佳实践：
- 使用高质量的参考基因组：确保参考基因组的质量高，无重复区域和错误注释，这直接影响比对的准确性。
- 预处理RNA-seq数据：在使用Minimap2之前，应先对RNA-seq数据进行适当的预处理，如去除低质量读段、修剪接头序列等。
- 调整比对参数：根据具体的实验条件和数据特性调整Minimap2的参数。例如，对于长读序列（如纳米孔产生的数据），可能需要增加最大错配数（-N）以提高比对的灵活性。
- 验证比对结果：通过比对已知的转录本或使用其他比对工具（如STAR）来验证Minimap2的比对结果，确保其准确性和可靠性。

featureCounts在进行RNA-seq定量分析时，如何选择最合适的参考基因组注释文件？

在选择最合适的参考基因组注释文件进行RNA-seq定量分析时，需要考虑多个因素以确保分析的准确性和可靠性。以下是基于我搜索到的资料进行的详细分析：

基因表达数据的特性：RNA-seq数据具有高维度和复杂性，这使得特征选择变得尤为重要。因此，在选择参考基因组注释文件时，应优先考虑那些能够有效处理高维度数据并减少假阳性率的方法。
信息理论和特征选择算法：信息理论基础的特征选择算法已被证明可以提高单细胞RNA-seq数据分析的准确性和可重复性。这种方法通过优化聚类分辨率和去除无信息特征来提高标签精度，这对于选择参考基因组注释文件至关重要。
分类算法的应用：使用RNA-seq数据作为输入的分类算法在多种生物应用中被广泛使用。这些算法通常依赖于高质量的基因计数数据，因此选择一个能够提供稳定和可靠基因计数的参考基因组注释文件是至关重要的。
特征选择的重要性：在单细胞RNA-seq数据分析中，特征选择对于细胞类型注释和聚类准确性有显著影响。因此，选择一个包含关键标记基因的参考基因组注释文件对于提高分析性能至关重要。
非负奇异值分解（NSVA）方法：NSVA是一种基于数据驱动的特征选择方法，它通过考虑RNA-seq计数数据的非负性来增强差异表达分析。这种方法的选择可以作为评估参考基因组注释文件质量的一个指标。
类别编码方法（CAEN） ：CAEN方法通过考虑每个基因在每个类别中的序列样本排名来选择特征基因。这种方法的有效性表明，选择一个能够提供高相关系数基因的参考基因组注释文件对于提高分类性能是有益的。

选择最合适的参考基因组注释文件时，应考虑其对高维度数据的处理能力、信息理论基础的特征选择效果、分类算法的需求、关键标记基因的覆盖范围以及特征选择方法的表现。

Tombo序列重校正过程中，如何选择最适合的参考基因组以及如何评估重校正结果的准确性？

在选择最适合的参考基因组以及评估重校正结果的准确性方面，可以采取以下步骤：

选择最适合的参考基因组：
- 首先，需要考虑目标物种的遗传多样性和基因组复杂性。对于具有高度遗传多样性的物种或大基因组物种，如高多样性植物或大型动物，建议使用泛基因组方法来构建参考基因组。这种方法能够整合来自多个个体的数据，提供更全面的遗传信息。
- 对于缺乏完整基因组序列的物种，可以采用基于限制酶的基因分型测序（GBS）技术来构建参考基因组。这种方法通过简化基因组复杂度并避免重复区域，使得在没有完整参考基因组的情况下也能进行有效的基因型分析。
评估重校正结果的准确性：
- 使用统计方法如Bootstrap进行误差估计是评估重校正结果准确性的有效手段。Bootstrap方法通过从原始数据中重复抽样来生成一系列样本，进而分析这些样本的变异程度，从而估计原始数据估计的误差大小。
- 另外，可以通过比较不同重校正方法的结果来进行交叉验证。例如，使用PLINK工具集中的身份由状态（Identity-by-State, IBS）和身份由系谱（Identity-by-Descent, IBDS）信息来检测和校正群体分层效应，这有助于提高重校正结果的准确性。
- 还可以利用GATK等工具进行大规模DNA测序数据的分析，这些工具提供了高效的算法和框架来处理和分析大规模数据集，从而确保重校正过程的准确性和效率。

总结来说，选择最适合的参考基因组应考虑物种的遗传多样性和基因组复杂性，并可能需要采用泛基因组或GBS技术。

使用Tombo进行RNA测序分析时，有哪些常见的问题和解决方案？

在使用Tombo进行RNA测序分析时，可能会遇到一些常见的问题，这些问题及其解决方案如下：

低浓度库构建：
- 问题描述：在RNA测序库构建过程中，可能会遇到低浓度的问题，导致测序数据量不足。
- 解决方案：确保使用高质量的RNA模板，并调整初始DNA量以增加库的浓度。
高rRNA残留：
- 问题描述：在RNA测序过程中，rRNA残留较高，可能会影响测序结果的准确性和可靠性。
- 解决方案：在样本处理过程中，可以使用rRNA去除试剂盒或通过生物信息学方法进行rRNA的去除和校正。
FFPE样本的适用性：
- 问题描述：使用FFPE（石蜡包埋组织）样本进行RNA测序时，可能会遇到样本降解严重的问题。
- 解决方案：在处理FFPE样本时，可以采用特定的RNA提取方法，并进行降解测试以确保样本质量。
磁珠用量不正确导致的插入排序增大：
- 问题描述：在RNA测序库构建过程中，如果磁珠用量不正确，可能会导致插入排序增大，影响测序结果。
- 解决方案：选择合适的磁珠数量，并根据实验需求调整循环次数。
循环次数限制：
- 问题描述：在某些情况下，循环次数的限制可能会导致测序库构建不完全。
- 解决方案：根据实验需求和样本情况，适当增加循环次数以确保库构建的完整性。
Agilent 2100 Bioanalyzer测试中出现双峰：
- 问题描述：在使用Agilent 2100 Bioanalyzer进行RNA测序库质量检测时，可能会出现双峰现象，这可能表明样本中存在污染或降解。
- 解决方案：对RNA样本进行降解测试或重新提取，并确保使用高质量的RNA模板。
过度扩增：
- 问题描述：在高产率库构建过程中，可能会出现过度扩增的问题，导致测序数据质量下降。
- 解决方案：调整PCR循环次数和磁珠用量，以控制扩增程度，并进行适当的生物信息学校正。

Tombo与其他RNA测序分析工具（如NanoPreprocess）的比较和兼容性如何？

Tombo是一款专门用于从纳米孔测序数据中鉴定修饰的核苷酸的工具，它不仅支持DNA和直接RNA的分析，还提供了用于分析和可视化原始纳米孔信号的工具。这表明Tombo具有较高的兼容性和广泛的应用范围，能够处理不同类型的RNA测序数据。

另一方面，NanoPreprocess作为另一款RNA测序分析工具，虽然在我搜索到的资料中没有直接提及，但根据Tombo和NanoPreprocess都是Oxford Nanopore Technologies推出的工具这一背景信息，可以推测两者在处理纳米孔测序数据方面可能存在一定的兼容性和相似性。然而，由于缺乏直接比较Tombo和NanoPreprocess的证据，无法具体说明它们之间的比较和兼容性细节。

Tombo作为一款专门针对RNA修饰检测的工具，具有较高的兼容性和广泛的应用范围。