外显子组测序数据分析Exome Sequencing Data Analysis
外显子是人类基因的一部分,包含着合成蛋白质所需要的信息。全部外显子,称为“外显子组”(Exome),只占人类基因组的百分之一。外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序只需针对外显子区域的DNA即可,因此远比进行全基因组序列测序更简便、经济、高效。它可用于寻找复杂疾病如癌症的致病基因和易感基因等的研究。同时,基于大量的公共数据库提供的外显子数据,科学家们能够结合现有资源更好地解释研究结果。
罗氏公司的NimbleGen Exome 2.1M( NimbleGen Sequence Capture Human Exome 2.1M Array )芯片可以检测到大部分人类基因组中的功能片段,包括组***类18,673个基因的180,000外显子和占到34Mb大小的550个miRNA,其覆盖率和特异性都很高。这一芯片是研究人类一些疾病中DNA突变情况的理想选择。这一Capture Array+Seqencing技术相对于全基因组测序检测突变体来说,需要的时间成本和资金成本更低,目标位置的覆盖率更高,是研究目标基因库序列信息的常用手段。
实验流程图
Fig 1, 以Roche SeqCap microarray 和454 测序为例 Fig 2, 以Agilent Sureselect 和Solexa为例
数据分析流程图
数据分析项目:
1> 测序结果定位到基因组(分析)
使用相应的mapping软件(如MAQ等)将测序结果定位到人类基因组上(hg19),MAQ通过贝叶斯方法计算mapping quality,从而推算出一些不同于reference genome的变异体,包括SNP和短的缺失片段。将那些没有定位在目标区域(Exon之外)的序列摒弃,计算测序的深度或者覆盖率,统计可以定位到基因组上的reads的百分比、定位到exome上的百分比等等。但是由于MAQ不允许gap alignment,我们使用BWA方法检测缺失片段。
2> 得到candidate variant(分析)
MAQ和BWA可以得到可能的变异体,使用SAMtools得到SAM格式的数据,这个数据存储着测序序列和reference genome比对的情况,任何和reference genome不同的碱基都被当作可能的变异体(SNVs, single nucleotide variants)进行后续分析。
3> 筛选variant(分析)
a) 使用Phred,得到每个碱基的quality score,去掉那些quality score小于45的candidate variant。
b) heterozygous variant应该具有10倍以上的覆盖率,并且相应的序列应该具有不同的起始端和终止端,不满足这个条件的需要筛掉。
c) 人类基因组中存在正常的SNPs,基于dbSNP数据库,筛掉这一部分候选。
4> variant分类(分析)
基于这些variant所在的位置,以及可能产生的后果可以将其分成不同的类别。包括synonymous variant, non-synonymous variant, premature termination, splicing site, indels等等。统计这些变异体的数目和基本信息。
5> 实验验证(实验)
对于得到的candidate variant,使用Sanger sequencing方法测序,验证以上方法得到的变异体是否为真,统计实验的可靠性。
6> 基因功能关联分析(分析)
如果得到较少的和所研究表型相关的基因变异,进行文献查阅,得到可能相关的基因功能,以支持实验结果。如果得到比较多的相关基因,选择GO Analysis,验证是否变异的基因富集了和特定表型相关的功能。
7> 个性化定制分析
针对项目的特殊需求,制定多种方案供选择并开发相应的分析软件,满足客户的特定需求。
Reference
SB Ng , et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461:272-276.
M Choi, et al (2010) Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. PNAS. 106: 19096-19101.