RepeatMasker是一款专门用于基因组重复序列识别的软件,几乎用于所有物种。是做基因组、非编码RNA的必备软件。很多ncRNA与Repeat区有高度相关性。
安装在Ubuntu 12.04上,时间为2013-4-7,所有相关软件和数据库全为最新版。
1. RMBlast序列搜索引擎
下载源RMBlast源码包: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-src.tar.gz
1 2 3 4 5 6 | sudo apt-get install g++ #安装g++编译器 tar zxvf ncbi-rmblastn-2.2.28-src.tar.gz #解压 cd ncbi-rmblastn-2.2.28-src.tar.gz/c++/ ./configure --with-mt --prefix=/usr/local/rmblast --without-debug make #编译,需要半小时 sudo make install |
2. TRF(Tandem Repeat Finder)搜寻串联重复序列
http://tandem.bu.edu/trf/trf407b.linux.download.html
1 | sudo mv trf407b.linux /usr/local/bin/trf #将程序移到可执行目录并改名 |
3. RepeatMasker程序
http://www.repeatmasker.org/RMDownload.html 2/21/2013: RepeatMasker-open-4-0-1.tar.gz
1 | tar xvzf RepeatMasker-open-4-0-1.tar.gz |
数据库http://www.girinst.org/server/RepBase/index.php, 需要注册才能下载,人工审批,可能要等两天
repeatmaskerlibraries-20120418.tar.gz (26.76 MB)
也可以在我的百度网盘下载,http://pan.baidu.com/share/link?shareid=417337&uk=1946176681
1 2 3 4 | cp repeatmaskerlibraries-20120418.tar.gz RepeatMasker/ sudo tar xvzf repeatmaskerlibraries-20120418.tar.gz #解压并覆盖原目录 ./configure #主要是输入RMBlast安装目录,/安装目录/ncbi-rmblastn-2.2.28-src/c++/GCC460-ReleaseMT/bin sudo ln -s /安装目录/RepeatMasker/RepeatMasker /usr/local/bin/RepeatMasker #设置环境变量 |
以拟南芥基因组为例
1 | ~/Documents/Data/genome_ath10$ RepeatMasker -species arabidopsis TAIR10_chr_all.fas |