教程 | 规模化物种同源基因分析 - orthofinder [上篇]

写在前面

基因组测序项目已然是几乎所有课题组都可以负担的水平。相比于几年前火爆的通过转录组测序挖掘生物学问题策略,通过基因组,尤其是比较基因组分析,往往可以给我们带来更多确定性结果,如相比于近源物种A为何物种B的果皮更红?这完全有可能是特定家族成员扩张导致。这些问题,转录组常常无法告诉我们,而基因组可以。接下来推出两份教程,来自课题组成员的投稿。我个人感觉还不错。与大伙一起学习。

同源基因分析介绍

开展生物信息数据分析的关键,并不在于软件使用,而在于了解自己在做什么。我们先厘清一些概念。
Q:什么是同源基因?

A:同源基因(homologs)主要分为直系同源(orthologs)和旁系同源(paralogs)。在远古时候,祖先物种只带有一个珠蛋白基因(early globin genes),经过N年的环境选择,现存的物种都具有两个珠蛋白基因,分别为α-链和β-链的类型。青蛙-人类-鼠的α-链球蛋白基因,三个并称为直系同源基因,而蛙的α链和β链球蛋白基因则称作旁系同源基因。
Q: 同源基因分析可以做什么?
A: 较短时间下,获得同源基因集合(Orthogroups)和 有根物种树(基于Orthogroups内基因推断的)的信息。具有这些信息,后续可以物种分歧时间预测基因家族收缩扩张WGD事件预测等。

分析的软件与策略

直系同源基因分析常见两个软件:OrthofinderOrthoMCL,本系列教程使用Orthofinder-(嘿,主要是这个软件安装和运行的十分简单)。

Orthofinder工作原理:
从Orthofinder发表的工作流程(上图),我们可以理解为进行了五个主要步骤:

  • (a)推断同源基因集合(Orthogroup),主要是通过序列比对和调用MCL聚类实现同源分类;
  • (b)基于每个同源基因集合进行构建基因的进化树;
  • (c/d)基于所有的同源基因的进化树的情况,推断物种的有根树。基于STAG(Species Tree Inference from All Genes)算法从无根基因树上构建无根物种树,再使用STRIDE(Species Tree Root Inference from Gene Duplication Events)算法构建有根物种树;
  • (e)通过有根物种树的情况,重新对基因的树定根;
  • (f-h)对有根物种树基因的复制-丢失-整合分析(duplication-loss-coalescence, DLC),识别同源基因集合或者基因复制事件。

软件安装

软件安装是相对比较简单。

  • 超级方便(“无脑”)conda 安装
conda install -c bioconda -y orthofinder
  • 自行编译安装
    环境已经安装了python,并具有numpy和scipy库,下载OrthoFinder_source.tar.gz
    如果没有,则下载 OrthoFinder.tar.gz
#安装了git
git clone https://github.com/davidemms/OrthoFinder.git
##直接wget下载安装包
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.2/OrthoFinder_source.tar.gz
tar -xzf OrthoFinder_source.tar.gz
cd OrthoFinder_source/
#进入目录,运行orthofinder.py,尝试能否弹出帮助信息。
python orthofinder.py

orthofinder 也可以在windows下进行安装和运行,不过需要借助Docker(一般不推荐…)。
安装完成后,建议添加到环境变量。比如导进路径

export PATH=$PATH:目录到OrthoFinder_source
#若是常用软件,可以写进.bashrc

写在最后

篇幅有限,今天先介绍到这里。在下一篇,我们将分享如何运行这个软件,并进行结果解读。

Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol. 2019 Nov 14;20(1):238.
https://github.com/davidemms/OrthoFinder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29937.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

部分植物基因组数据库汇总

牛年大吉 植物基因组数据库:1、NCBI中的genome,直接下载NCBI上的基因组文件 ftp://ftp.ncbi.nlm.nih.gov/genomes/ 2、植物基因组数据库(包含约30个左右的植物,具体查看:) 30个左右植物基因组对应列表下载 http://www.…

【4】RagTag-基于近缘/同物种的基因组同源组装

RagTag简介 RagTag可以进行错误组装校正、scaffold组装和修补、scaffold合并等,一共分四步:correct,scaffold,patch,merge。之后,可以用Liftoff进行基因注释。 RagTag的conda安装 conda install -c bioco…

iMeta | 兰大张东等使用PhyloSuite进行分子系统发育及系统发育树的统计分析

点击蓝字 关注我们 使用PhyloSuite进行分子系统发育及系统发育树的统计分析 iMeta主页:http://www.imeta.science 方 法 ● 原文链接DOI: https://doi.org/10.1002/imt2.87 ● 2023年2月16日,兰州大学张东团队在 iMeta 在线发表了题为“Using PhyloSuit…

易基因|植物育种:ChIP-seq(组蛋白)揭示H3K36me修饰影响温度诱导的植物可变剪接和开花

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 2017年,荷兰瓦格宁根大学分子实验室RGH Immink团队以“Histone H3 lysine 36 methylation affects temperature-induced alternative splicing and flowering in plants”在《…

Kaggle图像识别竞赛 Plant Seedlings Classification(植物幼苗分类)具体实现

目录 0. 前言1. 总体设计2. import部分3. 具体实现步骤一、数据预处理(一)均衡化(二)提取图片中叶子(绿色)的部分 二、提取特征(一)SIFT提取关键点(二)BOW(Ba…

易基因:禾本科植物群落的病毒组丰度/组成与人为管理/植物多样性变化的相关性 | 宏病毒组

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 现代农业通过简化生态系统、引入新宿主物种和减少作物遗传多样性来影响植物病毒的出现。因此,更好理解农业生态中种植和未种植群落中的病毒分布,以及它们之间的病…

植物激素基因高级分析来啦~

很多植物转录组学文章中,都有整合激素相关基因和表达数据的pathway图,直观地展示通路及其中重要基因的位置和功能。 植物激素(Phytohormone)亦称植物天然激素或植物内源激素,是指植物体内产生的一些微量而能调节&…

⁡⁡‍⁤⁡⁣⁢‍⁢​​‌​⁡⁡ ​​‍⁡⁢⁤⁡​⁤‍​⁣​⁤‌‍⁤⁢​⁤ ​ ⁢ ​⁡⁣GPT/AIGC/LLM/NLP/ChatGPT学习资料汇总(互联网活菩萨)

一些群友写的文档,干货很多 有关 ⁡⁡‍⁤⁡⁣⁢‍⁢​​‌​⁡⁡​​‍⁡⁢⁤⁡​⁤‍​⁣​⁤‌‍⁤⁢​⁤​⁢​⁡⁣GPT/AIGC/LLM/NLP/ChatGPT ,干货很多,原幕布的产品负责。 https://go…

大学生问AI

大学生问AI 写在最前面2,描述你在学习工作中碰到的最高级的 AI 是什么?1,你人生中第一次接触到 “人工智能” 的概念和产品是什么? 让你觉得 “人类做得东西的确有智能”?3,你听说过最近的 GPT,…

#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世 、今生)

#41 AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世、今生) 目录 目录0、 前言1、什么是GPT2、GPT之技术演进时间线3、GPT之T-Transformer(2017) 3.1、重点在好,还是重点在人?3.2、对不起,你是个好人3.3、回归正题&am…

渗透测试part(二):Vulnhub配置(以EMPIRE: BREAKOUT为例)

注:哈尔滨工程大学-渗透测试-2020065122 -0.21 在part(一)中,简要介绍了渗透测试的基本概念,并在第七部分提及了Vulnhub靶场。本文主要针对Vulnhub靶场的配置以及攻击机Kali的配置进行说明,希望能够帮助大…

腾讯云发布5G远程驾驶云;中国电信发布通用视觉大模型2.0;Meta推新语言模型Toolformer丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 腾讯云联合中国联通宁夏、福建分公司发布5G远程驾驶云 4月28日,在第六届数字中国建设峰会上,腾讯云携手中国联通宁夏、福建两省区分公司,首次对外发布了“基于闽宁云的5G远程…

互联网晚报 | 一季度全国居民人均可支配收入10870元;郑渊洁称维权艰难将不再发表作品;苹果版余额宝上线,年利率4.15%...

国家统计局:一季度全国居民人均可支配收入10870元,比上年同期名义增长5.1% 据国家统计局官网,一季度,全国居民人均可支配收入10870元,比上年同期名义增长5.1%,扣除价格因素,实际增长3.8%。分城乡…

世界上首条主要为互联网服务的海底光缆开通 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 7 日,在 1765 年的今天,法国发明家约瑟夫涅普斯(Joseph Niepce)出生。涅普斯是拍摄了现存最早照片的人&…

​阿里辟谣在新加坡建全球总部;​马斯克盛赞中国竞争对手:最努力最聪明;​GitHub 官宣用户破亿|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

2023年6月第4周大模型荟萃

2023年6月第4周大模型荟萃 2023.6.30版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 1、腾讯云首次公布大模型进展 6月19日,腾讯云召开行业大模型及智能应用技术峰会,首次公布腾讯云行业大模型研发进展&#xff0…

chatgpt赋能python:如何把python代码翻译成中文

如何把python代码翻译成中文 为什么需要将Python代码翻译成中文? Python编程语言是一种非常流行的高级编程语言,但是,它的官方文档是用英语编写的。如果你的母语不是英语,可能会遇到困难,需要更多时间用于理解文档。…

测试在 4090 上运行 vicuna-33b 进行推理

测试在 4090 上运行 vicuna-33b 进行推理 今天尝试在 4090 上运行 vicuna-33b 进行推理,使用的是 8bit 量化。 运行命令如下, python3 -m fastchat.serve.cli --model-path lmsys/vicuna-33b-v1.3 --load-8bit结论,使用 8bit 量化在 4090 上…

【VSCode】VSCode把英文版设置为中文

在你安装Visual Stdio Code时没有注意选择中英文版本,那就看这里呀 打开界面,看这里 点击红框框------扩展搜索Chinese点击(中文简体)安装即可。

chatgpt赋能python:如何下载Python中文插件?

如何下载Python中文插件? Python是一种高级编程语言,它非常受欢迎。由于其易学性和开放源码的特性,许多人都正在学习或使用这个语言。然而,有时候,如果您使用Python编写的程序需要支持中文,您可能会发现需…