楼主 | 收藏 | 举报 2018-04-12 00:00   浏览:53   回复:0

使用DEXSeq分析NGS数据中的exon表达差异

对于RNA-seq,除了gene水平的差异分析外,还可以进行exon水平的差异分析。这时可以使用Bioconductor的DEXSeq软件包。

使用DEXSeq软件包,其输入为Count table。要生成这个Count table,与DESeq, edgeR类似的,都需要使用到htseq。DEXSeq提供了两个python角本,来调用htseq生成计数文件。

关于HTSeq的安装,请参考http://www-huber.embl.de/users/anders/HTSeq/doc/install.html

对于DEXSeq的安装,直接使用source(“http://bioconductor.org/biocLite.R”);biocLite(“DEXSeq”)就可以了。

第一步:计数

安装结束以后,使用system.file(“python_scripts”, package=”DEXSeq”)来找到DEXSeq提供的python角本的路径。

这里需要注意的是,gtf文件必须与mapping的基因组一致,尤其是染色体的名字要一致,比如说如果mapping时有chr,gtf文件中的染色体一定也需要有chr。这里运行python是在terminal中,而不是R中。

而后使用dexseq_count.py来计数。

在这里,参数-p指出mapping文件是否是pair end文件。参数-s表示是否是stranded,默认为yes。-f指输入文件的格式,默认为sam。

在运行计数结束之后,需要检查一下最后四行,看看empty的多不多,如果超过20%,可能需要检查一下mapping的结果,当然也可能是计数文件准备错误,比如mapping结果没有index等等。如果以上都不是,那可能是polyA太多了。

第二步:读入数据

在R中读入计数数据,需要准备好计数文件,实验设计,以及前面用到的gff文件。在这里,我们使用Bioconductor中已有的pasilla数据来示例。

第三步:获得差异表达数据

只需要一步

但是,我们似乎并不太明白它在背后做了些什么。于是我们一步一步的来查看它是如何做的。

同DESeq一样,它分为三个步骤:normalization, Dispersion estimation 以及 testing for differential exon usage。

在第二步中,我们可以重新设计formula以符合实验要求,当然第三步也要随之改变。

对于结果dxr,可以直接视为data.frame来操作。也可以使用as.data.frame来转换它。结合使用plotDEXSeq就可以查看自己感兴趣的目标基因中的exon的表达情况。

原文来自:http://pgfe.umassmed.edu/ou/archives/3690

打赏
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报
 
免责声明:本站有部分内容来自互联网,如无意中侵犯了某个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理。