多态性核SSR的鉴定

多态性核SSR的鉴定

文章目录

  • 多态性核SSR的鉴定
    • 前言
    • 一、使用bwa对测序数据进行mapping
    • 二、使用SOAPdenovo2对核序列进行从头组装成scaffolds
    • 三、使用CandiSSR寻找多态性核SSR
      • 3.1. 安装CandiSSR软件的准备
      • 3.2. 运行CandiSSR时的准备
      • 3.3. 整理得到的结果文件
    • 四、统计Contig的数量和N50值
    • 五、使用OmicStudio进行数据可视化
    • 六、总结


多态性核SSR的鉴定

所属目录:紫菜作者:星云<XingYun>创建时间:2024/10/28更新时间:2024/11/6URL:

前言

本文主要记录了本人如何使用bwa对测序数据进行mapping,再使用SOAPdenovo2对核序列进行从头组装成scaffolds,再使用CandiSSR寻找多态性核SSR。最后整理成一个文件。

参考文献:Intraspecific phylogeny and genomic resources development for an important medical plant Dioscorea nipponica, based on low-coverage whole genome sequencing data

根据文献中的所用方法步骤来完成:
在这里插入图片描述

整理形成的文件表格:

在这里插入图片描述

最后所整理的文件(下载Table S4文件查看类似的表格):

在这里插入图片描述

一、使用bwa对测序数据进行mapping

主要是使用bwa软件将测序数据mapping到参考基因组上,以排除线粒体和叶绿体reads,得到核序列。
参考文章:
【比对软件】BWA使用
BWA使用详解

使用示例:

# 假设参考基因组文件为yezoensis.genome.fa,cleaned reads文件为ST1-3_clean_R1.fq.gz和ST1-3_clean_R2.fq.gzref=yezoensis.genome.fa
reads1=ST1-3_clean_R1.fq.gz
reads2=ST1-3_clean_R2.fq.gz# 建立BWA索引
bwa index -a bwtsw $ref# 对clean_R1.fq.gz和clean_R2.fq.gz进行单端序列的mates拼接
bwa mem -t 4 $ref $reads1 $reads2 > ST1-3_aligned.sam # 将SAM格式的文件转换为BAM格式的文件
samtools sort -o ST1-3_aligned.bam ST1-3_aligned.sam# 使用samtools对BAM文件进行索引
samtools index ST1-3_aligned.bam

二、使用SOAPdenovo2对核序列进行从头组装成scaffolds

进行完上一步mapping后,得到了bam文件。之后就是使用SOAPdenovo2软件对核序列进行从头组装成scaffolds。
参考文章:基因组组装—SOAPdenovo2的使用

SOAPdenovo2软件包:
链接:https://pan.baidu.com/s/1IK02W2UEa8v9wGI0BEhsWw
提取码:8uvl

首先进入SOAPdenovo2软件包的目录,再使用命令

SOAPdenovo2的使用需要自己构建配置文件,可以根据软件目录中的示例配置文件"example.config"进行构建
以上面得到的一个bam文件:ZD-1_aligned.bam为例,在当前目录下创建一个config_file文件:ZD-1.config

vim ZD-1.config

添加以下内容(仅供示例,请结合软件使用手册根据自己序列的具体情况进行修改)

max_rd_len=150
[LIB]
avg_ins=350
reverse_seq=0
asm_flags=3
rd_len_cutoff=150
rank=1
pair_num_cutoff=3
map_len=32
b=../ZD-1_aligned.bam

然后直接一站式运行

./SOAPdenovo-63mer all -s ZD-1.config -K 63 -R -o ZD-1

在这里插入图片描述

运行的结果文件中,其中有下面两个主要的组装结果文件

*.contig  # contig序列文件
*.scafSeq # scaffold序列文件

我这里要的是scaffold序列文件,可以把它们移动到新的文件夹中,方便查看和使用

mkdir scafSeq
mv *.scafSeq scafSeq

至于contig序列文件,我们也可以把它们移动到新的文件夹中。

mkdir contig
mv *.contig contig

三、使用CandiSSR寻找多态性核SSR

CandiSSR的项目地址:CandiSSR
在这里插入图片描述

3.1. 安装CandiSSR软件的准备

根据项目的readme文档,在安装此软件前,需要先保证环境的配置,也就是安装所要的依赖软件(也可以先安装此CandiSSR项目,再使用项目中提供的软件去进行配置)
在这里插入图片描述

安装完所要的依赖软件后,就可以启动setup.sh,将所依赖的软件路径配置好后,形成CandiSSR.pl脚本。
在这里插入图片描述

CandiSSR.pl脚本文件内容(我们需要做的就是将软件的可执行路径添加进去,一般perl软件在实验室服务器中都有安装,也就不必要额外再安装了):
在这里插入图片描述

补充,在我安装Primer3软件时,使用项目自带的软件编译时报错,无法形成执行文件primer3_core。所以我就从github上下载了primer3软件,能正常使用。
在这里插入图片描述

GIThub上的Primer3下载地址

在这里插入图片描述

注意:如果在后面运行时有报错或者没有形成最后的文件。可以检查一下CandiSSR.pl脚本中是不是正确配置好了所需软件路径。总之就是结合报错信息来对脚本内容进行修改。

3.2. 运行CandiSSR时的准备

形成正确的CandiSSR.pl文件后,就可以使用命令来运行了,按照软件的项目文档介绍来运行
在这里插入图片描述

先形成一个配置文件 .ctl,(第一行为参考序列,其余行为要分析鉴定的序列)
在这里插入图片描述

待分析鉴定的序列为上一步形成的scaffold序列文件,又因为按照示例的配置文件中,序列文件都都是以fasta为后缀,所以我们可以将scaffold序列文件转换为fasta格式(改一下后缀名就行,也许可以不改,因为原来的格式就是fasta格式,只是后缀不一样)
在这里插入图片描述

运行示例(使用默认参数)

perl CandiSSR.pl -i ref_haitanensis.ctl -o haitanensis -p haitanensis 2>&1 | tee haitanensis_output.log

运行完后,一般会得到三个文件
在这里插入图片描述
在这里插入图片描述

3.3. 整理得到的结果文件

也就是将_PolySSRs.txt和_Designed_Primers.txt文件合并在一个表格中
在这里插入图片描述

四、统计Contig的数量和N50值

前面第二步:使用SOAPdenovo2对核序列进行从头组装成scaffolds。得到了contig序列文件。而现在这一步则是使用前面得到的contig序列文件,统计得到contig的数量和N50值。

参考文章:20220518_基因组contig与scaffold的N50大小统计

直接使用python程序来计算:

def calculate_n50(contig_lengths):total_length = sum(contig_lengths)contig_lengths.sort(reverse=True)n50 = 0for length in contig_lengths:n50 += lengthif n50 >= total_length / 2:return lengthdef parse_fasta(file_path):contig_lengths = []with open(file_path, 'r') as file:current_length = 0for line in file:if line.startswith('>'):if current_length > 0:contig_lengths.append(current_length)current_length = 0else:current_length += len(line.strip())if current_length > 0:contig_lengths.append(current_length)return contig_lengths# 使用方法
file_path = r''  # 替换为你的FASTA文件路径
contig_lengths = parse_fasta(file_path)
n50 = calculate_n50(contig_lengths)
num_contigs = len(contig_lengths)print(f'Contig数量: {num_contigs}')
print(f'N50长度: {n50}')

或者可以直接使用一个python库:assembly_stats来统计contig文件的相关信息(如果要统计scaffold的相关信息则要换scaffold文件)

#先安装python库
pip install assembly_stats#在终端运行
assembly_stats 序列文件路径

在这里插入图片描述

五、使用OmicStudio进行数据可视化

暂无(因为主要是对多态性核SSR进行鉴定,得到文件就行,对于可视化也没有要求,有空再看看)

六、总结

本文主要学会的是如何对测序数据进行多态性核SSR的鉴定。
从第一步的使用bwa软件将测序数据映射到参考序列中,获得仅包含核reads的bam数据;
到第二步的使用SOAPdenovo2程序将bam数据进行从头组装成scaffolds;
再到最后的使用CandiSSR软件使用默认参数来识别候选多态性SSRs,这一步涉及了许多依赖软件的安装,比较麻烦。

另外,也学会统计了contig的数量和N50值。

2024/11/6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467344.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AIGC探索】AI实现PPT生产全流程

AI实现PPT生产流程 简单概括流程就是&#xff1a; 选择用百度文库AI生成PPT&#xff0c;使用WPS和islide辅助美化&#xff0c;使用文字大模型生成大纲&#xff0c;使用宏指令快速规范细节。 理由如下&#xff1a; 大多数PPT工具生成大纲会有文字篇幅限制&#xff0c;通过大模型…

鸿蒙ArkTS中的获取网络数据

一、通过web组件加载网页 在C/S应用程序中&#xff0c;都有网络组件用于加载网页&#xff0c;鸿蒙ArkTS中也有类似的组件。   web组件&#xff0c;用于加载指定的网页&#xff0c;里面有很多的方法可以调用&#xff0c;虽然现在用得比较少&#xff0c;了解还是必须的。   演…

数学建模(基于Python实现)--灰色关联分析法讲解,含案例

前言 这是去年底学数学建模老哥的建模课程笔记&#xff1b; 未来本人将陆陆续续的更新数学建模相关的一些基础算法&#xff0c;大家可以持续关注一下&#xff0c;主要在于运用&#xff1b; 提示&#xff1a;数学建模只有实战才能提升&#x1f525;​&#x1f525;​&#x1f…

【go从零单排】error错误处理及封装

&#x1f308;Don’t worry , just coding! 内耗与overthinking只会削弱你的精力&#xff0c;虚度你的光阴&#xff0c;每天迈出一小步&#xff0c;回头时发现已经走了很远。 &#x1f4d7;概念 在 Go 语言中&#xff0c;error 是一个内置的接口类型&#xff0c;用于表示错误情…

论文阅读笔记:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

论文阅读笔记&#xff1a;Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 1 背景1.1 动机1.2 提出的方法 2 创新点3 方法4 模块4.1 训练目标4.2 课程训练 4.3 边缘评价指标4.4 焦距估计 5 效果5.1 和SOTA方法的对比 论文&#xff1a;https://arxiv.org/abs/24…

flutter 项目初建碰到的控制台报错无法启动问题

在第一次运行flutter时&#xff0c;会碰见一直卡在Runing Gradle task assembleDebug的问题。其实出现这个问题的原因有两个。 一&#xff1a;如果你flutter -doctor 检测都很ok&#xff0c;而且环境配置都很正确&#xff0c;那么大概率就是需要多等一会&#xff0c;少则几十分…

跨子网的WinCC客户机/服务器如何实现通讯?

为了更有效地利用有限的IP地址&#xff0c;为了减少广播对网络带宽的占用从而提高带宽&#xff0c;为了实现在不同子网中应用不同的安全策略从而提高网络安全性&#xff0c;现场通常要求划分子网&#xff0c;将安全等级要求不同的计算机安置在不同的子网中&#xff0c;分开管理…

SpringClud一站式学习之Eureka服务治理(二)

SpringClud一站式学习之Eureka服务治理 引言1. 搭建Eureka Server1.1. 添加Eureka Server依赖1.2. 添加 Eureka Server注解1.3. 配置Eureka Server1.4. 运行Eureka Server 2. 搭建Eureka Client 服务提供者2.1. 添加依赖2.2. 添加注解2.3. 配置Eureka Client2.4. 启动服务 3. 搭…

实战攻略 | ClickHouse优化之FINAL查询加速

【本文作者&#xff1a;擎创科技资深研发 禹鼎侯】 查询时为什么要加FINAL 我们在使用ClickHouse存储数据时&#xff0c;通常会有一些去重的需求&#xff0c;这时候我们可以使用ReplacingMergeTree引擎。这个引擎允许你存储重复数据&#xff0c;但是在merge的时候会根据order …

加入GitHub Spark需要申请

目录 加入GitHub Spark需要申请 GitHub Spark 一、产品定位与特点 二、核心组件与功能 三、支持的AI模型 四、应用场景与示例 五、未来展望 六、申请体验 加入GitHub Spark需要申请 GitHub Spark 是微软旗下GitHub在2024年10月30日的GitHub Universe大会上推出的一款革…

鸿蒙与团结引擎c#与ts简单交互

目录 团结中调用ts代码 鸿蒙中调用团结代码 首先在团结创建代码&#xff0c;需要将代码添加到场景物体中 devecoStudio端编写ts代码 在index页面添加一个测试按钮 团结中调用ts代码 团结引擎 - 手册: Call TypeScript plug-in code from C# scripts 注册函数要跟文件名一致 在u…

Qt QCustomplot 在采集信号领域的应用

文章目录 一、常用的几种开源库:1、QCustomPlot:2、QChart:3、Qwt:QCustomplot 在采集信号领域的应用1、应用实例时域分析频谱分析2.数据筛选和处理其他参考自然界中的物理过程、传感器和传感器网络、电路和电子设备、通信系统等都是模拟信号的来源。通过可视化模拟信号,可以…

世优科技携手人民中科打造AI数字人智能体助力智慧校园

近日&#xff0c;世优科技与人民中科携手&#xff0c;为中国劳动关系学院开发了一款AI数字人助手&#xff0c;不仅在校园内部承担日常问询、交互工作&#xff0c;还在学校的展厅中担任讲解员的角色&#xff0c;为师生们提供生动详尽的导览服务。 中国劳动关系学院作为中华全国总…

7.2、实验二:被动接口和单播更新

源文件链接&#xff1a; 7.2、实验二&#xff1a;被动接口和单播更新: https://url02.ctfile.com/d/61945102-63671890-6af6ec?p2707 (访问密码: 2707) 一、被动接口 1.介绍 定义: 在路由协议的配置中&#xff0c;一个被动接口指的是一个接口不发送路由更新包的配置方式&a…

达梦8-达梦数据实时同步软件(DMHS)配置-Oracle-DM8

1、安装环境 源端目的端IP地址192.168.6.111192.168.6.110系统版本Red Hat 6.4Kylin v10数据库版本Oracle11g达梦 v8系统用户Oracledmdba字符集MERICAN_AMERICA.AL32UTF8UTF-8端口15215236实例名PRODDMSERVER数据库软件目录/u01/app/oracle/opt/dmdbmsDMHS安装目录/u01/dmhs/o…

多个NVR同时管理EasyNVR多品牌NVR管理工具/设备:IP常见问题解决方案

随着视频监控技术的不断发展&#xff0c;NVR&#xff08;网络视频录像机&#xff09;已经成为现代安防系统的重要组成部分。而为了更高效地管理多个品牌的NVR设备&#xff0c;EasyNVR这一多品牌NVR管理工具应运而生。然而&#xff0c;在实际使用过程中&#xff0c;尤其是在多个…

新160个crackme - 094-TheBigMan-crackme6

运行分析 需破解Name和Serial PE分析 LCC win32程序&#xff0c;32位&#xff0c;无壳 静态分析&动态调试 ida搜索字符串&#xff0c;进入关键函数 ida动调&#xff0c;发现关键判断函数func_1 进入后&#xff0c;发现Name长度需满足一定要求&#xff0c;且func_2返回值不能…

软考系统分析师知识点三七:今日考试

前言 今年报考了11月份的软考高级&#xff1a;系统分析师。 考试时间&#xff1a;11月9日。 今日考试。 今日考试 上午&#xff1a;选择题、案例题&#xff0c;注意记一下选择题和案例题中出现的知识点。 中午&#xff1a;再次整理强记一下论文框架、论文知识点 下午&…

u8g2操作流程和相关问题总结

1、下载官方源码实例 GitHub - olikraus/u8g2: U8glib library for monochrome displays, version 2 2、将目录中的csrc拷贝到工程文件夹里 3、裁剪代码 将u8x8_d_XXX.c 的文件,是自己硬件的保留,其他的都可以删掉。 4、裁剪文件的代码

Github 2024-11-05 Python开源项目日报Top10

根据Github Trendings的统计,今日(2024-11-05统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10HTML项目1TypeScript项目1系统设计指南 创建周期:2507 天开发语言:Python协议类型:OtherStar数量:241693 个Fork数量:42010 次…