写在前面:非常感谢CJ开发出如此强大的TBtools工具。作者(CJchen-0410)在B站上有新手教程,大家可以给大神点个关注。
本文以《Genome-wide identification and phylogenetic analysis of rice FTIP gene
family》为例,介绍TBtools基因家族分析的流程。
本文内容
1、从结构域出发鉴定基因家族成员
2、顺式作用元件分析
3、保守结构域分析
4、多物种共线性分析
准备工作
本文主要介绍TBtools的用法,复现文章中作者用到TBtools的地方。
1、工具
(1) TBtools 1.09852 (下载地址:https://github.com/CJ-Chen/TBtools/releases)
(2) MEGA
(3) Pfam
(4) PlantCARE
2、数据集下载
(1) EnsemblPlants
1、从结构域出发鉴定基因家族成员
(1) 从 Pfam下载所有的结构域的hmm格式文件
Pfam-A 是 人工标注的结构域,Pfam-B 是预测的结构域
(2)EnsemblPlants 下载水稻的所有蛋白序列(pep),基因序列(fa),全基因组序列(fa),全基因组注释(gff3) ( 我用的是MSU的水稻数据,MSU 和 NCBI 的基因注释差别不大)
其他物种的相关序列也可以在这下载。
(3)文献作者是利用C2结构域和PRT-C结构域查找OsFTIPs基因家族成员,在Pfam上找到两个相关结构域的登录号PF00168,PF08372。新建个文本
(4) 利用TBtools的hmm search 工具 查找
这里其实是做了个 hmmer 软件的接口 。往常要用hmmer来找结构域需要在Pfam 上 下载 结构域的模型 ,而且hmmer 这个软件 win版本不太友好,这里是给出了个优化方案,TBtools内置了部分 hmmer 使其直接调用。
(4)输出结果
每个结构域都会有两部分 分数 ,分别是序列得分和结构域得分,可以通过结果太多可以用E-value 筛选。我用excel筛选了下,找个交集,共找到13个,和文献中一致。
(5) 得到目标基因的蛋白序列、基因序列、启动子序列、注释文件
利用TBtools的 Fasta Extract 工具提取蛋白序列、基因序列
要注意蛋白和mRNA序列的ID是有版本号的,如 LOC_Os06g41090.1 的.1。 提取蛋白序列需要标版本号,提取DNA序列则需要把版本号去掉。总之就是输入的目标ID要和fasta文件中的ID对应。
利用GXF Selector 筛选目标基因的注释文件
利用Gtf/Gff3 Sequences Extract 提取启动子
输入上步目标基因的注释文件和基因组序列文件,选择参数。输入注释文件后需要按下初始化,不然start是灰的。如果需要 基因组所有基因 的启动子 可以输入 全基因组的注释文件。
(6) 可视化
TBtools 画的是矢量图,可以改颜色 样式 ,比较方便。具体操作如下,结果就不一一展示了。
同时,TBtools也支持NCBI、MEME的预测结果
当然还有更加酷炫的进化树、基因结构、motif分析的三合一图,请出门向左(https://my.oschina.net/u/4579431/blog/4834581)。
2、顺式作用元件预测
文献中作者是用PlantCARE进行预测的。拿出提取到的启动子序列扔上去等邮件就好了,一般在半个小时左右。
邮件中的tab文件是所有结果的汇总。得到的启动子序列往往比较多,需要手动筛选下,主要保留响应元件。需要整理成TBtools能识别的格式和一个序列长度的文件。
3、保守结构域分析
TBtools上可以直接运行MEME。
可视化 用到输出的 xml 文件
作者还写过一个更全的版本,出门右转(https://www.jianshu.com/p/b8ffd0fd1cbf)
4、多物种共线性分析
(1)需要两个物种的基因组序列(fa)和基因组注释文件(gff3) 这里用水稻和拟南芥为例。原理就是blast。这一步运行时长主要还是和基因组大小和电脑线程数有关,条件允许的情况下可以多开几个线程。
(2)运行过程中可能会弹出警告,但没事儿。这主要是注释文件的问题
(3)可视化 主要用到结果中的gff文件、ctl文件、collinearity文件
灰色的是基因组比对上的地方,红色的是比对上的目标基因(没比对上就没有。还可以放多个物种的比对结果。也可以物种内共线性比对,查看是否发生基因复制事件(https://www.meiwen.com.cn/subject/ljltbctx.html),思路和方法也是差不多的
TBtools 不止能做基因家族分析,随着TBtools这个社区的壮大,已经有了很多教程,也有很多作者贡献了十分有用的插件,小的方面可以完成批量重命名、热图、维恩图、火山图、Logo、气泡图,大的方面能够完成转录组分析和注释,WGCNA等工作。同时也感谢这些作者降低了生信分析的门槛,更好的帮助科研工作~~(凑结果)~~ 。作者也写了很多的教程 可以关注公众号:生信药丸。
参考文献:
Genome-wide identification and phylogenetic analysis of rice FTIP gene family
愚见 | 解读文稿 BMC Plant Biology 本氏烟类成束蛋白阿拉伯半乳聚糖基因家族分析
TBtools: An Integrative Toolkit Developed for Interactive Analyses of Big Biological Data