基因家族鉴定---pfam保守结构域的查找
- hmmer的安装
- Pfam_scan的使用
Pfam是一个蛋白家族数据库,其中Pfam-A是手工确定的高质量的蛋白家族,Pfam-B是自动注释的,是对A的补充。目前已更新到34.0,下载地址为ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/,任选一版本即可,需要两个文件, Pfam-A.hmm.gz和 Pfam-A.hmm.dat.gz。
hmmer的安装
由于Pfam-A需要进行二进制的转换,方便运算,所以需要用到hmmer软件。
安装过程如下:
$ wget http://eddylab.org/software/hmmer/hmmer.tar.gz
$ tar zxvf hmmer.tar.gz
$ cd hmmer-3.3
$ ./configure --prefix=`pwd`
$ make
$ make install
安装完成后,最好把hmmer的bin目录添加到PATH中去,方便pfam_scan.pl的调用。
- Pfam文件的转化:
$ hmmpress Pfam-A.hmm
- hmmer也可以直接鉴定pfam
$ hmmscan -o out.txt --tblout out.tbl -E 1e-5 Pfam-A.hmm query.fa
Pfam_scan的使用
- Pfam_scan.pl的安装特别简单,直接下载解压即可。
$ wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz
$ gunzip PfamScan.tar.gz
-
安装完成后PfamScan目录下主要有三个文件ChangeLog, pfam_scan.pl,README以及一个文件夹Bio(主要存放需要的模块),可以直接使用pfam_scan.pl脚本即可运行(其需要调用hmmer的hmmscan),其参数如下:
一般情况下,我们只需要用到三个参数:
-fasta
需要检索的蛋白序列的fasta文件;
-dir
存放Pfam-A数据库的目录;
-outfile
需要输出的文件名字。 -
命令如下:
$ perl pfam_scan.pl -fasta query.fa -dir ~/pfam-A -outfile out.pfam
在最终的输出结果里面,我们一般可以通过两种方式去检索自己所需要的基因:
- 已知蛋白的PF编号,如红框1;
- 已知蛋白的名字,如红框2.