mRNA测序及分析服务
背景和实验介绍
蛋白质是细胞行使功能的主要表现者,而基因(狭义上指mRNA)是蛋白翻译的前体,详细了解细胞中基因的表达水平以及变化是分子生物学研究的重点,这推动了转录组学的发展。以前的mRNA表达谱、可变剪切(alternative-splicing)、SNP检测等研究所采用的方法主要是基于检测杂交信号强度的基因芯片技术,现在由于测序技术的发展和测序价格的不断降低,越来越多的研究都采用测序技术作为此类课题的研究方法。
数据分析项目:
一.测序质量分析
对测序的原始数据进行初步分析,包括可以mapping的序列的百分比、各个不同样本以及重复样本之间的相关性、各个测序平台之间的实验重复性好坏等等,并制作散点图、直方图、文氏图等。
二.Mapping序列定位基因组
基于不同的参考文库(reference sequences),我们可以将测序结果定位到不同的注释中,比如基因组、refseq数据库、EST数据库、Ensemble数据库、Exon junction文库等等。然后给出测序结果在注释中的分配情况。
三.基因表达量定量
对于mapping之后的结果,我们采取多数文章经常采用的RPKM(Reads Per Kilobase of exon per Million mapped sequence reads)进行基因表达定量。
四.表达水平整体分析
对于多样本转录组,我们对实验进行总体分析,包括主成分分析和聚类分析等,并制作PCA图、聚类分析图、热图等。
五.基因差异表达筛选
由于测序技术有更大的通量,并且可以获得新的转录本的信息,所以在做样本间不同表达基因的筛选的时候优势很大。对于不同的样本信息,我们采取不同的统计手段,比如student-t test, F-test等得到不同样本间特异表达的基因或基因集团。
六.基因本体分析(Gene Ontology Analysis)
对于得到的特定基因分类,我们采取DAVID、EasyGO等基因本体分析工具对所得结果进行功能分析,并得到可能的富集功能,绘制相关图和表格。
七.Pathway analysis
基于KEGG等数据库,我们采取超几何分布检验等统计手段,得到显著富集的生物信号通路或者代谢通路。
八.新转录本发掘
对于那些没有定位到已知基因位置的序列,有以下的几种可能:
1。这些序列属于背景转录。
2。这些序列来自一些非编码RNA的片断。
3。这些序列来自一些已知基因的延伸片断或邻近区域。
4。这些序列来自一些未知的比较微量表达的基因。
通过对比这些序列和已知基因的碱基组成和表达量情况,我们可以进行新基因的预测。
九.新选择性剪切发掘
基于那些可能mapping在exon-exon junction上的序列,我们可以得到新的选择性剪切的信息。TopHat,WASP等软件可以进行类似的分析。
参考文献
B Wang, et al. (2010) Survey of the transcriptome of Aspergillus oryzae via massively parallel mRNA sequencing. Nucleic Acids Res. 38(15):5075-87.
VM Bruno, et al. (2010) Comprehensive annotation of the transcriptome of the human fungal pathogen Candida albicans using RNA-seq. Genome Res. 20:1451-1458.
G Zhang, et al. (2010) Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res. 20:646-654.
T Watanabe, et al. (2007) Gene Expression Signature and the Prediction of Ulcerative Colitis–Associated Colorectal Cancer by DNA Microarray. Clin Cancer Res. 15:415-420.
S Volinia,et al. (2010) Reprogramming of miRNA networks in cancer and leukemia. Genome Res. 20:589-599.