核酸序列分析教程_生物软件圈_商圈

原理

针对核酸序列的分析就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；选用预测程序时要注意程序的物种特异性；要弄清程序适用的是基因组序列还是cDNA序列；很多程序对序列长度也有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。

1. 重复序列分析

对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。

2. 数据库搜索

把未知核酸序列作为查询序列，在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是，由相似性分析作出的结论可能导致错误的流传；有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言，序列搜索将是非常有效的预测手段。

3. 编码区统计特性分析

统计获得的经验说明，DNA中密码子的使用频率不是平均分布的，某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性，即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括：双密码子计数(统计连续两个密码子的出现频率)；核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律)；均一/复杂性分析(长同聚物的统计计数)；开放可读框架分析等。

4. 启动子分析

启动子是基因表达所必需的重要序列信号，识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征，并依次作为启动子预测的依据，但实际的效果并不十分理想，遗漏和假阳性都比较严重。总的来说，启动子仍是值得继续研究探索的难题。

5. 内含子 / 外显子剪接位点

剪接位点一般具有较明显的序列特征，但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整，因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。

6. 翻译起始位点

对于真核生物，如果已知转录起始点，并且没有内含子打断5'非翻译区的话，“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程，但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在，启动子定位不象在真核生物中起关键作用。对于原核生物，关键是核糖体结合点的定位，可以由多个程序提供解决方案。

7. 翻译终止信号

PolyA和翻译终止信号不象起始信号那么重要，但也可以辅助划分基因的范围。

8. 其它综合基因预测工具

除了上面提到的程序之外，还有许多用于基因预测的工具，它们大多把各个方面的分析综合起来，对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性，但也有一些局限：物种适用范围的局限；对多基因或部分基因，有的预测出的基因结构不可靠；预测的精度对许多新发现基因比较低；对序列中的错误很敏感；对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。

9. tRNA 基因识别

tRNA基因识别比编码蛋白质的基因识别简单，目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序，通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程，据称能识别99%的真tRNA基因。

分析内容

1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5’调控区 (promoter) 等核酸序列，连接提取该序列内容，阅读序列格式的解释，理解其含义；
2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析，并从BioEdit软件的“help”栏了解该软件的其它功能；
3、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析；
4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析；
5、使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析。

分析步骤

1、调用Internet浏览器，并在其地址栏输入Entrez网址：http://www.ncbi.nlm.nih.gov/Entrez；
2、在Search后的选择栏中选择nucleotide；
3、在输入栏输入homo sapiens leptin;
4、点击go后显示序列接受号及序列名称等;
5、查找人leptin (obesity homolog, mouse) mRNA序列（提示：NM_000230），点击序列接受号后显示序列详细信息；
6、将序列转为FASTA格式保存
7、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA (Contig) 的序列接受号及序列识别号，点击序列接受号显示序列详细信息；
8、在输入栏输入homo sapiens leptin exon查找人瘦素外显子序列；
9、在输入栏输入homo sapiens leptin promoter查找人瘦素5’调控区序列;
10、按上述步骤用SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5’调控区 (promoter) 等核酸序列；
11、将上述核酸序列输入BioEdit和DNAClub软件进行序列基本分析；
12、打开BioEdit软件，点击“help”栏，阅读“contents”；
13、将人瘦素 (leptin) 的mRNA序列输入BioEdit软件进行可读框架分析：打开BioEdit软件→将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择nucleic acid→点击find next ORF→查看起始密码位置和编码区范围（57→557）；
14、参照教材使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析；
15、人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析：调用Internet浏览器并在其地址栏输入Blast2网址(http://www.ncbi.nlm.nih.gov/Entrezgorf/bl2/html) →将人瘦素 (leptin) mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素 (leptin) mRNA和基因组序列的GI版本号输入sequence2和sequence1的GI版本号框→点击Align后显示两序列比对的详细信息→查找mRNA序列上各外显子的位置。