楼主 | 收藏 | 举报 2018-08-13 00:00   浏览:180   回复:3

根据已知的参考基因组和GTF创建适合自己分析的基因组和GTF

###############################################################

######################## Genome build #########################

###############################################################

###删除染色体号后面的内容(包括空格)

###写了一个perl程序,可以切除匹配项之后的信息,得到匹配上的项。

###Perl 名 :cut_space.pl,以下就是程序内的语句:(不同文件需要修改染色体号)

###有些时候染色体号前需要加上chr,可以用perl程序:

###程序名:fa_add_chr.pl:

###############################################################

######################## Ref GTF build ########################

###############################################################

###两种方法:一种是直接通过perl实现:

###一、perl程序:两步;

###1、删除没用的染色体:gtf_del_useless_chr.pl

###2、在染色体号前加chr:gtf_add_chr.pl

###二、Linux shell实现:

###1、导出每个染色体的GTF

###2、在染色体号前加chr:gtf_add_chr.pl,同perl的方法相同。(略)

打赏
沙发 | 回复 | 举报 2014-09-10 16:26
也不是说没用,只是有很多我们不常研究的染色体(如我们研究的主要是常染色体和性染色体以及线粒体,其他的染色体是在染色体间区存在的碱基汇总为一类染色体)会夹杂在我们下载的基因组和基因注释上,将这些不常研究的删除也能减少我们的运算量。你的tophat报错具体报错是怎样的?把整条错误贴过来看下,一般你设置好了参数,把该有的注释和index给tophat是不会报错的,也把你跑的命令发过来给我看下,看下哪里有错。
藤椅 | 回复 | 举报 2014-09-11 10:33
我的参考基因组名称为,indica_dna_ref,我首先使用bowtie2-build建立index。我的命令是 tophat -p 4 -G indica_ref.gff -o DGDZ_OUT indica_ref diguduizhao_1.fq diguduizhao_2.fq.tophat结果的log中的g2f.err的说明是:GFF Error:duplicate/invalid ‘transcrip’ feature ID=transcript:BGIOSGA002656-TA. 另外,我已经把基因组和GFF文件格式整理成第一列为Chr*的格式了。[img]http://[/img]
板凳 | 回复 | 举报 2015-08-20 22:10
你是怎么解决的啊,我也遇到这个问题
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报
 
免责声明:本站有部分内容来自互联网,如无意中侵犯了某个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理。