这一步主要是对上面所得到的最终vcf中的结果进行一些初步的分析,比如计算这些变异位点在dbsnp中的比例、Ti/Tv的比例、每个样本中的snp数量……。此外,还可以对变异位点的同义/非同义突变进行统计,识别是否为CpG位点以及氨基酸的简并信息等。这一步主要是利用GATK中的VariantEval来完成。
需要注意的是,有些计算内容不能同时进行,例如AlleleCount和VariantSummary或者Sample和VariantSummary。如果选择了这样的组合方式,程序就会报错。但是GATK并没有告诉我们到底哪些不能同时运行,所以当选择计算内容的时候可以先做一下测试。
e.g.
java -jar GenomeAnalysisTK.jar
-R hg19.fa
-T VariantEval
--eval hg19.snp.filter.t97.Q10_13.both.vcf
-D dbsnp_137.hg19.vcf
-o hg19.PASS.Eval_15_Final.gatkreport
主要参数解释:
--eval 输入要进行summary的文件,也就是hg19.snp.filter.t97.Q10_13.both.vcf。
-EV 选择模块计算相应的分析内容,。
--list 列出可供选择的计算模块。
-noEV 不是用默认的模块,只计算用-EV选定的模块。
更多其他参数请参考:
http://www.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_sting_gatk_walkers_varianteval_VariantEval.html
本文来自:http://blog.sina.com.cn/s/blog_12d5e3d3c0101qu6t.html