snpEff变异注释的一点感想

snpEff变异注释整成人生思考

    • 1.介绍
    • 2.安装过程以及构建物种参考数据库
    • 3.坑货来了
    • 4.结果文件判读
    • 5.小tips

1.介绍

&nbsp SnpEff(Snp Effect)是一个用于预测基因组变异(例如单核苷酸变异、插入、缺失等)对基因功能的影响的生物信息学工具。它可以帮助研究人员和生物信息学家分析基因组变异并预测这些变异可能对基因产生的影响。

2.安装过程以及构建物种参考数据库

其实这些我感觉大佬谢大飞的博客就写的挺全面的
大佬的博客@谢大飞:SnpEff安装使用及报错解决
主要就是一个多看snpeff官网文档确实有收获比如:
data文件目录结构吧它就是创建物种名称文件夹下面:
在这里插入图片描述
这就够了。

3.坑货来了

特别是NCBI的数据上传之前不管是序列格式还是.gff上传之前一定检查完整性,要么直接

gunzip xxxx.fna.gz
gunzip xxxx.gff.gz

千万别在NCBI的ftp服务器中直接一步到自己的结果上,没有数据完整性就会报错:
我忘了。。。。
FATAL ERROR: Most Exons do not have sequences!
遇见这个报错头都不用回,很多人做大一点的基因组都遇见了,是因为坑货NCBI的ftp不稳定下载的压缩包不完整导致的,这个时候就考虑你的参考基因组数据的问题。
最后其他报错都在大佬的博客里体现过了,这儿我自己踩了一坑做个记录吧。

4.结果文件判读

SnpEff生成的结果文件(通常是VCF格式)的每一列都包含了不同的信息,用于描述和注释基因组变异。下面是VCF格式中常见的列及其含义:

CHROM:表示变异所在的染色体名称或编号。

POS:表示变异在染色体上的位置(1-based,即从1开始计数)。

ID:变异的唯一标识符,可以是rs号(如果变异已被记录在数据库中)或其他独特的标识符。

REF:表示参考基因组上的碱基。

ALT:表示变异的碱基替代(可能有多个,以逗号分隔)。

QUAL:表示变异的质量分数,用于衡量变异的可信度。

FILTER:表示变异是否通过了质量过滤(例如,PASS表示通过,其他值表示未通过)。

INFO:这是一个关键的列,包含了许多关于变异的附加信息,通常以键值对的形式存在。在SnpEff的结果中,常见的INFO字段可能包括:

EFF:变异效应预测结果,描述变异对基因功能的影响。
ANN:类似于EFF字段,提供变异效应预测结果,但使用不同的分隔符。
LOF_INFO:提供低功能性变异的注释信息。
其他自定义的注释字段,可以根据SnpEff的设置和用户需求添加。
FORMAT:如果VCF文件包含了多个样本的变异信息,这一列描述了每个样本的数据格式。

样本列:每一列代表一个样本,包含了该样本中每个变异的基因型信息。这些信息可以包括参考基因型、替代基因型以及可能的基因型质量等。

5.小tips

今天本想着走捷径,数据获取的途径走快速方法,结果偷鸡不成反倒蚀把米。或许人生亦是如此,有些时候真就聪明反被聪明误。结果一天时间都搭进去了,想想真是不值,不知道在内地怎么样,反正在新疆NCBI的ftp下载文件那是断了又断直接不给你活路,直到我点开了
这个小猫咪,我的问题才得以解决。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/97096.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

aardio简单网站css或js下载练习

import win.ui; /*DSG{{*/ var winform win.form(text"下载网站css或js";right664;bottom290;maxfalse) winform.add( buttonClose{cls"button";text"退出";left348;top204;right498;bottom262;color14120960;fontLOGFONT(h-14);note" &qu…

如何使用Redis实现附近商家查询

导读 在日常生活中,我们经常能看见查询附近商家的功能。 常见的场景有,比如你在点外卖的时候,就可能需要按照距离查询附近几百米或者几公里的商家。 本文将介绍如何使用Redis实现按照距离查询附近商户的功能,并以SpringBoot项目…

时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测

时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测 目录 时序预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测预测效果基本介绍模型描述程序设计学习总结参考资料 预测效果 基本介绍 时序预测 | MATLAB实现WOA-…

IDEA开发项目时一直出现http404错误的解决方法

系列文章目录 安装cv2库时出现错误的一般解决方法_cv2库安装失败 SQL> conn sys/root as sysdbaERROR:ORA-12560: TNS: 协议适配器错误的解决方案 虚拟机启动时出现“已启用侧通道缓解”的解决方法 Hypervisor launch failed; Processor does not pr…

git压缩/合并多次commit提交为1次commit提交

git压缩/合并N次commit提交为1次commit提交 假设有最近3次提交: commit_id1 commit_id2 commit_id3目标是把以上3次commit合并成1个commit,注意,最新的commit提交在最上面。 在git bash里面的操作步骤: (1&#xff0…

Hyperledger Fabric的使用及开发

Hyperledger Fabric是Linux基金会发起的一种跨行业的区块链技术,目前在多家大型公司有着应用,这里就不多做HF本身的介绍了,有兴趣可关注其官网。 1. 准备工作: 开始前需要一定的准备工作,安装各类中间件:…

Python学习笔记_基础篇(五)_数据类型之字典

一.基本数据类型 整数:int 字符串:str(注:\t等于一个tab键) 布尔值: bool 列表:list 列表用[] 元祖:tuple 元祖用() 字典:dict 注:所有的数据类型都存在想对…

【自创】关于前端js的“嵌套地狱”的遍历算法

欢迎大家关注我的CSDN账号 欢迎大家关注我的哔哩哔哩账号:卢淼儿的个人空间-卢淼儿个人主页-哔哩哔哩视频 此saas系统我会在9月2号之前,在csdn及哔哩哔哩上发布成套系列教学视频。敬请期待!!! 首先看图 这是我们要解…

使用nrm快速切换npm源以及解决Method Not Implemented

文章目录 什么是nrm如何使用nrm查看本机目前使用的npm 源安装nrm查看可选源查看当前使用源切换源添加源删除源测试源的响应时间 如果你遇到这个报错,就可以采用这种方案解决哦解决方案:1. 切换为官方源2. 查看漏洞3. 修复漏洞4. 下面命令慎重使用&#x…

Jmeter 分布式性能测试避坑指南

在做后端服务器性能测试中,我们会经常听到分布式。那你,是否了解分布式呢?今天,我们就来给大家讲讲,在企业实战中,如何使用分布式进行性能测试,实战过程中,又有哪些地方要特别注意&a…

Docker 练习2 安装MySQL

一、实验要求 1、使用mysql:5.6和 owncloud 镜像,构建一个个人网盘。 2、安装搭建私有仓库 Harbor 3、编写Dockerfile制作Web应用系统nginx镜像,生成镜像nginx:v1.1,并推送其到私有仓库。具体要求如下: (1&#xff09…

ES的索引结构与算法解析

提到ES,大多数爱好者想到的都是搜索引擎,但是明确一点,ES不等同于搜索引擎。不管是谷歌、百度、必应、搜狗为代表的自然语言处理(NLP)、爬虫、网页处理、大数据处理的全文搜索引擎,还是有明确搜索目的的搜索行为,如各大…

SpringBoot + Vue 微人事(十二)

职位批量删除实现 编写后端接口 PositionController DeleteMapping("/")public RespBean deletePositionByIds(Integer[] ids){if(positionsService.deletePositionsByIds(ids)ids.length){return RespBean.ok("删除成功");}return RespBean.err("删…

数据结构 - 算法的时间效率和空间效率

一、时间效率 程序在计算机上执行所消耗的时间。 两种估算方式: 事后统计事前分析 算法运行时间 一个简单操作所需的时间X简单操作次数 算法运行总时间 Σ每条语句执行次数(即:每条语句频度)X该语句执行一次所需的时间 每条语…

[国产MCU]-W801开发实例-开发环境搭建

W801开发环境搭建 文章目录 W801开发环境搭建1、W801芯片介绍2、W801芯片特性3、W801芯片结构4、开发环境搭建1、W801芯片介绍 W801芯片是联盛德微电子推出的一款高性价比物联网芯片。 W801 芯片是一款安全 IoT Wi-Fi/蓝牙 双模 SoC芯片。芯片提供丰富的数字功能接口。支持2.…

域名解析和代理

购买域名 这里使用腾讯云进行购买。 对域名进行解析 通过添加记录接口对域名进行解析。 此时我们的服务器地址就被解析到域名上了。 我们可以通过以下格式进行访问: [域名]:[对应的项目端口] 效果为下: 通过nginx进行代理 如果我们使用上述的方式进行访问还是…

city walk结合VR全景,打造新时代下的智慧城市

近期爆火的city walk是什么梗?它其实是近年来备受追捧的城市漫步方式,一种全新的城市探索方式,与传统的旅游观光不同,城市漫步更注重与城市的亲密接触,一步步地感受城市的脉动。其实也是一种自由、休闲的方式&#xff…

aardio开发语言Excel数据表读取修改保存实例练习

import win.ui; /*DSG{{*/ var winform win.form(text"aardio form";right759;bottom479) winform.add( buttonEnd{cls"button";text"末页";left572;top442;right643;bottom473;z6}; buttonExcelRead{cls"button";text"读取Exce…

adb devices存在连接emulator-5554怎么办

执行adb kill-server 发现还是有5554这条数据,可以采用window杀死端口号的方法。 netstat -ano | findstr 5554 ,去查看pid是什么 得到pid,杀死这个pid taskkill /f /pid xxx

C语言笔试训练【第12天】

文章目录 1、请阅读以下程序,其运行结果是( )2、假设编译器规定 int 和 short 类型长度分别为32位和16位,若有下列C语言语句,则 y 的机器数为( )3、下列程序的输出结果是什么( &…