1. SNP概念
SNP 是指基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性,在群体中的发生频率不小于1 %,包括单个碱基的转换、颠换、插入和缺失等。每核苷酸发生突变的概率大约为10 -9 , 由于压力选择,SNP在单个基因和基因组以及动物不同种群间分布是不均匀的,在非编码区区SNP数量要多于编码区。
1.1 转换
转换是指同类型碱基之间的转换,如嘌呤与嘌呤( G2A) 、嘧啶与嘧啶( T2C) 间的替换。
1.2 颠换
颠换是指发生在嘌呤与嘧啶(A2T、A2C、C2G、G2T) 之间的替换。
通过排列组合,SNP 一共可以有6种替换情况,即A2G、A2T、A2C、C2G、C2T 和G2T ,但实际上转换的发生频率占较高,而且是C2T(胞嘧啶转换为胸腺嘧啶) 转换为主,其原因是CpG的C 是甲基化的,容易自发脱氨基形成胸腺嘧啶T ,CpG 因此变为突变热点。
2. RefSeq数据库
RefSeq数据库存储了公开可用的核酸序列(DNA、RNA)及其蛋白产物数据,包含基因组、 转录本和蛋白质的参考序列。
RefSeq命名采用2个英文字母+下划线_+数字gi