hisat2安装与使用(v2.2.1)bioinfomatics tools 33

01 背景

概述

HISAT2 是一种快速且灵敏的比对程序,可用于将下一代测序读段(全基因组、转录组和外显子组测序数据)比对到人类基因组群体(也可比对到单一参考基因组)。基于对图的 BWT 扩展[1],我们设计并实现了图 FM 索引(GFM),这是一种原创方法,并据我们所知首次实现。除了使用一个代表总体的全局 GFM 索引外,HISAT2 还使用了一大组覆盖整个基因组的小 GFM 索引(每个索引代表一个 56 Kbp 的基因组区域,共需 55,000 个索引来覆盖人类群体)。这些小索引(称为局部索引)结合多种比对策略,可以有效地进行测序读段的比对。这种新的索引方案被称为分层图 FM 索引(HGFM)。我们基于 HISAT [2] 和 Bowtie 2 [3] 的实现开发了 HISAT2。更多信息请参见 HISAT2 网站。

同样的软件

minimap2安装与使用(v 2.28)生物信息学工具26

LASTZ v1.04.22安装与使用-Bioinformatics工具-028

bwa安装及使用(生物信息学工具-018)

Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)

Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

02 参考
https://daehwankimlab.github.io/hisat2/download/    #官网 #version-hisat2-221https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download   #win直接下载
03 安装
git clone https://github.com/DaehwanKimLab/hisat2.git
cd hisat2
makewget -c https://github.com/DaehwanKimLab/hisat2/archive/refs/tags/v2.2.1.tar.gz
#conda install bioconda::hisat2
04 使用
HISAT2 版本 2.2.1 由 Daehwan Kim 开发 (infphilo@gmail.com, www.ccb.jhu.edu/people/infphilo)****使用方法:**  hisat2 [选项]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA 访问编号>} [-S <sam>]- `<ht2-idx>`: 索引文件名前缀(不包括 .X.ht2 后缀)。
- `<m1>`: 与 `<m2>` 中文件配对的 #1 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<m2>`: 与 `<m1>` 中文件配对的 #2 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<r>`: 未配对的读段文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<SRA accession number>`: SRA 访问编号的逗号分隔列表,例如 `--sra-acc SRR353653,SRR353654`。
- `<sam>`: SAM 输出文件(默认:标准输出)。`<m1>`、`<m2>`、`<r>` 可以是无空格的逗号分隔列表,且可以多次指定,例如 `-U file1.fq,file2.fq -U file3.fq`。**选项(默认值在括号中):****输入:**
- `-q`                输入文件为 FASTQ 格式 .fq/.fastq(默认)
- `--qseq`            输入文件为 Illumina 的 qseq 格式
- `-f`                输入文件为(多重)FASTA 格式 .fa/.mfa
- `-r`                输入文件为原始单序列每行的格式
- `-c`                `<m1>`、`<m2>`、`<r>` 为序列本身,而不是文件
- `-s/--skip <int>`   跳过输入中的前 `<int>` 个读段/配对(无)
- `-u/--upto <int>`   处理前 `<int>` 个读段/配对后停止(无上限)
- `-5/--trim5 <int>`  从读段的 5'/左端修剪 `<int>` 个碱基(0)
- `-3/--trim3 <int>`  从读段的 3'/右端修剪 `<int>` 个碱基(0)
- `--phred33`         质量值为 Phred+33(默认)
- `--phred64`         质量值为 Phred+64
- `--int-quals`       质量值为空格分隔的整数
- `--sra-acc`         SRA 访问 ID**预设:** 与以下选项相同:
- `--fast`            `--no-repeat-index`
- `--sensitive`       `--bowtie2-dp 1 -k 30 --score-min L,0,-0.5`
- `--very-sensitive`  `--bowtie2-dp 2 -k 50 --score-min L,0,-1`**比对:**
- `--bowtie2-dp <int>` 使用 Bowtie2 的动态规划比对算法 (0) - 0: 无动态规划, 1: 有条件动态规划, 2: 无条件动态规划(最慢)
- `--n-ceil <func>`    函数用于限制比对中允许的非 A/C/G/T 数量 (L,0,0.15)
- `--ignore-quals`     将所有质量值视为 Phred 量表上的 30(关闭)
- `--nofw`             不比对读段的正向(原始)版本(关闭)
- `--norc`             不比对读段的反向互补版本(关闭)
- `--no-repeat-index`  不使用重复索引**拼接比对:**
- `--pen-cansplice <int>`              规范剪接位点的惩罚 (0)
- `--pen-noncansplice <int>`           非规范剪接位点的惩罚 (12)
- `--pen-canintronlen <func>`          对具有规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--pen-noncanintronlen <func>`       对具有非规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--min-intronlen <int>`              最小内含子长度 (20)
- `--max-intronlen <int>`              最大内含子长度 (500000)
- `--known-splicesite-infile <path>`   提供已知剪接位点列表
- `--novel-splicesite-outfile <path>`  报告剪接位点列表
- `--novel-splicesite-infile <path>`   提供新发现的剪接位点列表
- `--no-temp-splicesite`               禁用发现的剪接位点
- `--no-spliced-alignment`             禁用拼接比对
- `--rna-strandness <string>`          指定链特异性信息(无特异性)
- `--tmo`                              仅报告已知转录组内的比对
- `--dta`                              报告适合转录组装配程序的比对
- `--dta-cufflinks`                    报告特别适合 cufflinks 的比对
- `--avoid-pseudogene`                 尝试避免将读段比对到假基因(实验选项)
- `--no-templatelen-adjustment`        禁用 RNA-seq 读段的模板长度调整**得分:**
- `--mp <int>,<int>`   错配的最大和最小惩罚;质量越低,惩罚越低 <6,2>
- `--sp <int>,<int>`   软剪切的最大和最小惩罚;质量越低,惩罚越低 <2,1>
- `--no-softclip`      禁用软剪切
- `--np <int>`         读段/参考中的非 A/C/G/T 惩罚 (1)
- `--rdg <int>,<int>`  读段间隙的开启和延伸惩罚 (5,3)
- `--rfg <int>,<int>`  参考间隙的开启和延伸惩罚 (5,3)
- `--score-min <func>` 最小可接受的比对得分与读段长度有关 (L,0.0,-0.2)**报告:**
- `-k <int>`            搜索每个读段的最多 `<int>` 个不同的主要比对。主要比对指得分等于或高于其他比对的比对。
- `--max-seeds <int>`   控制将延伸的最大种子数量。
- `-a/--all`            报告所有可以找到的比对。
- `--repeat`            直接报告与重复序列的比对。**双端:**
- `-I/--minins <int>`   最小片段长度 (0),仅在 `--no-spliced-alignment` 时有效
- `-X/--maxins <int>`   最大片段长度 (500),仅在 `--no-spliced-alignment` 时有效
- `--fr/--rf/--ff`      -1, -2 mates 分别比对于正/反,反/正,正/正(默认 `--fr`)
- `--no-mixed`          抑制成对读段的非配对比对
- `--no-discordant`     抑制成对读段的不同步比对**输出:**
- `-t/--time`            打印搜索阶段所花费的时间
- `--un <path>`          将未比对的单端读段写入 `<path>`
- `--al <path>`          将至少比对一次的单端读段写入 `<path>`
- `--un-conc <path>`     将未协调比对的双端读段写入 `<path>`
- `--al-conc <path>`     将至少协调比对一次的双端读段写入 `<path>`
- `--summary-file <path>` 打印比对总结到该文件。
- `--quiet`              除严重错误外,不打印任何内容到 stderr
- `--new-summary`        以新格式打印比对总结,格式更易于机器读取。**性能:**
- `-o/--offrate <int>`  覆盖索引的 offrate,必须 >= 索引的 offrate
- `-p/--threads <int>`  启动的比对线程数量 (1)
- `--reorder`           强制 SAM 输出顺序与输入读段顺序匹配
- `--mm`                为索引使用内存映射 I/O,多次 'hisat2' 可共享**其他:**
- `--qc-filter`        过滤掉根据 QSEQ 过滤器为不良的读段
- `--seed <int>`       随机数生成器的种子 (0)
- `--non-deterministic` 任意种子随机生成器,而不是使用读段属性
- `--remove-chrname`   在比对中删除参考名称中的 'chr'
- `--add-chrname`      在比对中将 'chr' 添加到参考名称中
- `--version`          打印版本信息并退出
- `-h/--help`          打印此使用说明

他遇到fq.gz文件会报错,解压即可

解压zip、tar、gz文件--linux003

05 常用命令行
构建索引`hisat2-build` 用于从一组 DNA 序列中构建 HISAT2 索引。`hisat2-build` 会输出一组具有后缀 `.1.ht2`、`.2.ht2`、`.3.ht2`、`.4.ht2`、`.5.ht2`、`.6.ht2`、`.7.ht2` 和 `.8.ht2` 的文件。在大索引的情况下,这些后缀会以 `ht2l` 结尾。这些文件共同构成索引,是将读段比对到参考序列所需的全部内容。一旦索引建立,HISAT2 不再使用原始的序列 FASTA 文件。ISAT2 索引构建示例:hisat2-build genome.fa genome使用 HISAT2 进行比对HISAT2 比对的示例:1. **单端 FASTA 读段 DNA 比对:**```bashhisat2 -f -x genome -U reads.fa -S output.sam --no-spliced-alignment```2. **双端 FASTQ 读段比对:**```bashhisat2 -x genome -1 reads_1.fq -2 reads_2.fq -S output.sam```
06 参考文献

[1] Sirén J, Välimäki N, Mäkinen V (2014) Indexing graphs for path queries with applications in genome research. IEEE/ACM Transactions on Computational Biology and Bioinformatics 11: 375–388. doi: 10.1109/tcbb.2013.2297101

[2] Kim D, Langmead B, and Salzberg SL HISAT: a fast spliced aligner with low memory requirements, Nature methods, 2015

[3] Langmead B, Salzberg SL: Fast gapped-read alignment with Bowtie 2. Nat Methods 2012, 9:357-359

Kim, D., Paggi, J.M., Park, C. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37, 907–915 (2019). Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype | Nature Biotechnology

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/429135.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python基础学习(3)

目录 一&#xff0c;函数 1&#xff0c;函数的定义 2&#xff0c;函数的参数 1&#xff0c;默认值 2&#xff0c;传参 3&#xff0c;返回值 4&#xff0c;变量的作用域 5&#xff0c;函数的调用 二&#xff0c;常用数据结构 1&#xff0c;列表 列表的定义 列表的特性…

【Geoserver使用】REST API调用(工作空间部分)

文章目录 前言一、Geoserver REST API(GeoServer Workspace)二、GeoServer Workspace接口使用1.GET请求 /workspaces2.POST请求 /workspaces3.GET请求 /workspaces/{workspaceName}4.PUT /workspaces/{workspaceName}5.DELETE /workspaces/{workspaceName} 总结 前言 根据Geos…

C++ | Leetcode C++题解之第423题从英文中重建数字

题目&#xff1a; 题解&#xff1a; class Solution { public:string originalDigits(string s) {unordered_map<char, int> c;for (char ch: s) {c[ch];}vector<int> cnt(10);cnt[0] c[z];cnt[2] c[w];cnt[4] c[u];cnt[6] c[x];cnt[8] c[g];cnt[3] c[h] - …

YOLOv10 简介

YOLOv10&#xff0c;由清华大学的研究人员基于 Ultralytics Python 包构建&#xff0c;引入了一种全新的实时目标检测方法&#xff0c;该方法解决了以往 YOLO 版本中后处理和模型架构方面的不足。通过消除非极大值抑制&#xff08;NMS&#xff09;并优化各种模型组件&#xff0…

【解决】chrome 谷歌浏览器,鼠标点击任何区域都是 Input 输入框的状态,能看到输入的光标

chrome 谷歌浏览器&#xff0c;鼠标点击任何区域都是 Input 输入框的状态&#xff0c;能看到输入的光标 今天打开电脑的时候&#xff0c;网页中任何文本的地方&#xff0c;只要鼠标点击&#xff0c;就会出现一个输入的光标&#xff0c;无论在哪个站点哪个页面都是如此。 我知道…

十四、运算放大电路

运算放大电路 1、理想运算放大器的概念。运放的输入端虚拟短路、虚拟断路之间的区别; 2、反相输入方式的运放电路的主要用途&#xff0c;以及输入电压与输出电压信号的相位 3、同相输入方式下的增益表达式(输入阻抗、输出阻抗)

Redis-01 入门和十大数据类型

Redis支持两种持久化方式&#xff1a;RDB持久化和AOF持久化。 1.RDB持久化是将Redis的数据以快照的形式保存在磁盘上&#xff0c;可以手动触发或通过配置文件设置定时触发。RDB保存的是Redis在某个时间点上的数据快照&#xff0c;可以通过恢复RDB文件来恢复数据。 2.AOF持久化…

55. QTableWidget的基本使用

1. 说明 在软件界面开发中,基本上离不开数据的展示以供客户查看一些比较关注的信息,比如公司做一个员工个人信息管理系统,需要一个界面能够展示员工个人基本信息,实现这种效果可以采用多种形式,其中比较简单的一种是使用QT提供的QTableWidget控件,这个控件已经封装了一些…

LeetCode 面试经典150题 190.颠倒二进制位

复习知识&#xff1a;正数的原码、反码、补码相同&#xff0c;负数的反码在其原码的基础上, 符号位不变&#xff0c;其余各个位取反&#xff0c;负数的补码是在其原码的基础上, 符号位不变, 其余各位取反, 最后1 (即在反码的基础上1)。 题目&#xff1a;颠倒给定的 32 位无符号…

Springboot3 + MyBatis-Plus + MySql + Uniapp 商品加入购物车功能实现(最新教程附源码)

Springboot3 MyBatis-Plus MySql Uniapp 商品加入购物车功能实现&#xff08;针对上一篇sku&#xff09; 1、效果展示2、后端代码2.1 model2.2 mapper server serverImpl 参照上一篇自动生成2.3 controller 3、前端代码3.1 index.js3.2 shop-info.vue3.3 ShopBottomButton.v…

计算机毕业设计hadoop+spark+hive新能源汽车销售数据分析系统 二手车销量分析 新能源汽车推荐系统 可视化大屏 汽车爬虫 机器学习

《HadoopSparkHive新能源汽车销售数据分析系统》开题报告 一、选题背景与意义 1.1 选题背景 随着全球对环境保护意识的增强和能源结构的转型&#xff0c;新能源汽车市场迅速崛起。新能源汽车的销售数据不仅反映了市场趋势和消费者偏好&#xff0c;还为企业决策、政府监管和政…

【玉米田】

题目 代码 #include <bits/stdc.h> using namespace std; typedef long long LL;const int mod 1e8; const int M 1 << 12; LL f[13][M]; int g[13]; vector<int> state; vector<int> p[M]; int n, m; bool check(int x) {return !(x & x <&…

“一屏显江山”,激光显示重构「屏中世界」

【潮汐商业评论/原创】 2024年国庆期间&#xff0c;曾感动过无数国人的舞蹈诗剧《只此青绿》改编的同名电影即将上映&#xff0c;而这一次观众们不必走进电影院&#xff0c;在家里打开官方合作的海信激光电视也能享受到同等的视听效果&#xff0c;这是激光电视在观影场景领域的…

java 获取集合a比集合b多出来的对象元素

public class OrderListEntity {/*** deprecated 对象集合的处理* param aData 集合a* param bData 集合b* return 返回集合a比集合b多出来的部分, 通过id判断*/public static List<OrderListEntity> AHasMoreThanBData(List<OrderListEntity> aData, List<Ord…

Stable Diffusion 使用详解(11)--- 场景ICON制作

目录 背景 controlNet 整体描述 Canny Lineart Depth 实际使用 AI绘制需求 绘制过程 PS打底 场景模型选择 设置提示词及绘制参数 controlnet 设置 canny 边缘 depth 深度 lineart 线稿 效果 背景 这段时间不知道为啥小伙伴似乎喜欢制作很符合自己场景的ICON。…

鸿蒙开发(HarmonyOS)组件化浅谈

众所周知&#xff0c;现在组件化在移动开发中是很常见的&#xff0c;那么组件化有哪些好处&#xff1a; 1. 提高代码复用性&#xff1a;组件化允许将应用程序的不同功能模块化&#xff0c;使得这些模块可以在不同的项目中重复使用&#xff0c;从而提高开发效率并减少重复工作。…

LabVIEW编程能力如何能突飞猛进

要想让LabVIEW编程能力实现突飞猛进&#xff0c;需要采取系统化的学习方法&#xff0c;并结合实际项目进行不断的实践。以下是一些提高LabVIEW编程能力的关键策略&#xff1a; 1. 扎实掌握基础 LabVIEW的编程本质与其他编程语言不同&#xff0c;它是基于图形化的编程方式&…

行业人工智能研究-Python自监督方式学习图像表示算法

学术界人工智能研究落后于工业界 摘要 行业或工业界在人工智能研究上超出学术界&#xff0c;并占据着大量的计算力&#xff0c;数据集和人才诱人的薪水和明朗的预期吸引大量人才离开学术界&#xff0c;涌入行业或工业界即使&#xff0c;比如Meta开源其人工智能模型&#xff0…

小程序地图展示poi帖子点击可跳转

小程序地图展示poi帖子点击可跳转 是类似于小红书地图功能的需求 缺点 一个帖子只能有一个点击事件&#xff0c;不适合太复杂的功能&#xff0c;因为一个markers只有一个回调回调中只有markerId可以使用。 需求介绍 页面有地图入口&#xff0c;点开可打开地图界面地图上展…

python:编写一个函数查找字符串中的最长公共前缀

最近在csdn网站上刷到一个题目&#xff0c;题目要求编写一个函数查找字符串中的最长公共前缀&#xff0c;题目如下&#xff1a; 给出的答案如下&#xff1a; from typing import List def longestCommonPrefix(strs:List[str]) -> str:if len(strs) 0:return i 0 #代…