转录组学习第四弹-数据质控

数据质控

将SRR转为fastq之后,我们需要对fastq进行质量检查,排除质量不好的数据
1.质量检查,生成报告文件

ls *fastq.gz|while read id;do fastqc $id;done

并行处理

ls *fastq.gz|xargs fastqc -t 10

在这里插入图片描述
2.生成 html 报告文件和对应的 zip 压缩文件,并通过 scp 命令传输到本地后用浏览器打开查看。

#传文件
scp -i username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc#传文件夹
scp -r username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc
#如果默认端口22关闭,使用-P指定端口

多个报告文件合成一个总的报告文件方便查看,不用一个个打开检查

mkdir QC_results 
mv *zip *html QC_results 
cd QC_results
multiqc ./

3.结果说明
FastQC 结果由11个模块组成,对于结果报告各个模块的说明参考FastQC 文档
1)综合统计(General Statistics)
重复reads的比例(%Dups)、GC含量占总碱基的比例、总测序量(M Seqs,单位:millions)
在这里插入图片描述
2)序列的计数(sequence counts)
可以看到reads的数量和重复reads的百分比
在这里插入图片描述
3)每个read各位置碱基的平均测序质量
横坐标——碱基的位置
纵坐标——质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。
由此可知,32个样本在60个碱基前的测序质量平均线都在绿色区域内,质量很好。

在这里插入图片描述
4)具有平均质量分数的reads的数量
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。由此可知,32个样本大部分都在绿色区域内,质量很好。
在这里插入图片描述
5)每个read各位置碱基ATCG的比列
reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。由下图可知32个样本的ATCG的含量比例是比较均匀的,测序质量是可以的。

在这里插入图片描述
6)reads的平均GC含量
正常的样本的GC含量曲线会趋近于正态分布曲线。由下图可知GC含量曲线符合正态分布曲线,测序质量可以。
在这里插入图片描述
7)每条reads各位置N碱基含量比例
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。正常情况下,N值非常小。由下图可知有样本出现N碱基,其中SRR1039511_2出现的最多。
在这里插入图片描述
8)序列长度的分布

所有样本的序列都是单一长度(63bp)
在这里插入图片描述
9)每个序列的相对重复水平
横坐标:每个序列的相对重复水平
纵坐标:在文库中的比例
由下图可知每个样本序列的相对重复水平都较高,测序质量不好。
在这里插入图片描述
10)文库中过表达序列的比例
横坐标——过表达序列的比例
一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。
在这里插入图片描述
11)接头含量
32个样本的接头含量基本都低于1%
在这里插入图片描述

4.原始数据修剪
使用trim_galore对原始数据进行去接头和质控


nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq &##批量处理
for fq in `ls |grep fastq$`; do nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq ; done &

参数说明:

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

–length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃

–stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

–fastqc # 修剪完数据之后运行fastqc

长腿猴子请来的救兵
写于2023年11月21日 上英语课摸鱼写的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/200466.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

electron使用electron-builder macOS windows 打包 签名 更新 上架

0. 前言 0.1 项目工程 看清目录结构,以便您阅读后续内容 0.2 参考资料 (1)macOS开发 证书等配置/打包后导出及上架 https://www.jianshu.com/p/c9c71f2f6eac首先需要为Mac App创建App ID: 填写信息如下—Description为"P…

(02)vite环境变量配置

文章目录 将开发环境和生产环境区分开环境变量vite处理环境变量loadEnv 业务代码需要使用环境变量.env.env.development.env.test修改VITE_前缀 将开发环境和生产环境区分开 分别创建三个vite 的配置文件,并将它们引入vite.config.js vite.base.config.js import…

Kubernetes Gateway API 攻略:解锁集群流量服务新维度!

Kubernetes Gateway API 刚刚 GA,旨在改进将集群服务暴露给外部的过程。这其中包括一套更标准、更强大的 API资源,用于管理已暴露的服务。在这篇文章中,我将介绍 Gateway API 资源,并以 Istio 为例来展示这些资源是如何关联的。通…

C语言scanf_s函数的使用

因为scanf函数存在缓冲区溢出的可能性;提供了scanf_s函数;增加一个参数; scanf_s最后一个参数是缓冲区的大小,表示最多读取n-1个字符; 下图代码; 读取整型数可以不指定长度;读取char&#xf…

VMware安装kali(详细版)

如果不详细,你就留言骂我! 文章目录 前言一、安装VMware二、安装KALI安装KALI配置网络总结 前言 今天更VMware安装kali 一、安装VMware VMware网址 安装之前,建议先退出360、电脑管家等杀毒软件,Win10操作系统好像还需要检查一…

HTML5生成二维码

H5生成二维码 前言二维码实现过程页面实现关键点全部源码 前言 本文主要讲解如何通过原生HTML、CSS、Js中的qrcodejs二维码生成库,实现一个输入URL按下回车后输出URL。文章底部有全部源码,需要可以自取。 实现效果图: 上述实现效果为&#…

TensorFlow实战教程(十八)-Keras搭建卷积神经网络及CNN原理详解

从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章详细讲解了Keras实现分类学习,以MNIST数字图片为例进行讲解。本篇文章详细讲解了卷积神经网络CNN原理,并通过Keras编写CNN实现了MNIST分类学习案例。基础性文章,希望对您有所帮助! 一…

[Linux] 进程入门

💻文章目录 📄前言计算机的结构体系与概念冯诺依曼体系结构操作系统概念目的与定位 进程概念描述进程-PCBtask_struct检查进程利用fork创建子进程 进程状态进程状态查看僵尸进程孤儿进程 📓总结 📄前言 作为一名程序员&#xff0c…

同为科技(TOWE)桌面PDU插排:一款可以DIY定制的“超级插座”

当今社会,各种电子产品和家用电器已成为人们日常生活中不可或缺的一部分,在带给人们便利的同时,也使得电力使用变得更加频繁和重要。然而,当前市面上很多普通插座由于功能单一、材质粗劣、插口数量受限、充电速度过慢、插头间互相…

【shell】 1、bash语法超详细介绍

文章目录 修改前缀路径dirname set常用函数参数变量local 返回值正则打印第 n 行获取行号核对数据库各表数量jq查询检查日志 sshpassexpect数组xargs bash manual 修改前缀 参考 export PS1"bash> "路径 dirname strip last component from file name dir$(…

CMap数据库筛选化学药物

数据库clue.io 文献链接:连接图谱:使用基因表达特征连接小分子、基因和疾病 |科学 (science.org) 基本模式:利用CMap将差异基因列表与数据库参考数据集比对;根据差异表达基因在参考基因表达谱富集情况得到一个相关性分数&#…

新加坡服务器托管-金融企业的选择

新加坡作为一个亚洲金融中心,其优越的地理位置和先进的信息通信技术基础设施,使得其成为了众多金融机构企业选择服务器机房托管的理想地点。金融行业对于服务器的安全性和可靠性要求很高,而将服务器托管在新加坡有许多好处。 首先&#xff0c…

复杂类型,查询--学习笔记

1&#xff0c;复杂类型 解决问题&#xff1a;一些不容易获取到的数据&#xff0c;例如数组类型&#xff0c;集合类型等&#xff0c;获取他们的数据 -- 1.创建表 create table tb_array_person(name string,city_array array<string> )row format delimited fields term…

HarmonyOS ArkTSTabs组件的使用(六)

Tabs组件的使用 ArkUI开发框架提供了一种页签容器组件Tabs&#xff0c;开发者通过Tabs组件可以很容易的实现内容视图的切换。页签容器Tabs的形式多种多样&#xff0c;不同的页面设计页签不一样&#xff0c;可以把页签设置在底部、顶部或者侧边。 Tabs组件的简单使用 Tabs组件…

网络参考模型与标准协议(二)-TCP/IP对等模型详细介绍

应用层 应用层为应用软件提供接口&#xff0c;使应用程序能够使用网络服务。应用层协议会指定使用相应的传输层协议&#xff0c;以及传输层所使用的端口等。TCP/IP每一层都让数据得以通过网络进行传输&#xff0c;这些层之间使用PDU ( Paket Data Unit,协议数据单元)彼此交换信…

局域网文件共享神器:Landrop

文章目录 前言解决方案Landrop软件界面手机打开效果 软件操作 前言 平常为了方便传文件&#xff0c;我们都是使用微信或者QQ等聊天软件&#xff0c;互传文件。这样传输有两个问题&#xff1a; 必须登录微信或者QQ聊天软件。手机传电脑还有网页版微信&#xff0c;电脑传手机比…

gitlab 实战

一.安装依赖 yum install -y curl policycoreutils-python openssh-server perl 二.安装gitlab yum install gitlab-jh-16.0.3-jh.0.el7.x86_64.rpm 三.修改下面的 vim /etc/gitlab/gitlab.rbexternal_url http://192.168.249.156 四.初始化 gitlab-ctl reconfigure 五.查看状…

OpenStack-train版安装之环境准备

环境准备 环境介绍VMware配置WMware虚拟机最低配置WMware添加网卡WMware添加硬盘 基础环境安装修改各节点的主机名修改各节点的hosts文件修改各节点的内核参数关闭各节点的防火墙和selinux安装NPT&#xff08;时间同步&#xff09;安装OpenStack基础服务包 CentOS升级内核 环境…

C++ Qt 学习(九):模型视图代理

1. Qt 模型视图代理 Qt 模型视图代理&#xff0c;也可以称为 MVD 模式 模型(model)、视图(view)、代理(delegate)主要用来显示编辑数据 1.1 模型 模型 (Model) 是视图与原始数据之间的接口 原始数据可以是&#xff1a;数据库的一个数据表、内存中的一个 StringList&#xff…

集合的自反关系和对称关系

集合的自反关系和对称关系 一&#xff1a;集合的自反关系1&#xff1a;原理&#xff1a;2&#xff1a;代码实现 二&#xff1a;对称关系1&#xff1a;原理&#xff1a;2&#xff1a;代码实现 三&#xff1a;总结 一&#xff1a;集合的自反关系 1&#xff1a;原理&#xff1a; …