简介
Consed 是一款非常强大的图形化 finish 软件,由 David Gordon 等人于 1998 年发布, 目前已更新至 15.0 版本。
现在 consed 已经成为基因组 finish 的标准工具,它为组装正确性的验证提供了一个直观 的界面,能够方便的进行组装的各项统计并绘图,对结果进行比对分析,并能实现对组装结果进 行拆分、重组等等功能。同时还可以通过峰图的比较来查找或者验证 SNP。
该软件需要在支持图形界面的 X-win32 环境下操作,软件的使用需要获得作者的授权。
下载
Consed 软件需要到 phrap 网站 申请, 申请 成功后 下载 相应操 作系 统的版 本, 如
consed_linux.tar.z。 申请地址:http://bozeman.mbt.washington.edu/consed/consed.html
安装
1. 将软件包上传到大型机上
2. 解压缩 zcat consed_linux.tar.Z | tar -xvf -
3. 环境变量配置
1)默认 CONSE_HOME 为/usr/local/genome,如果不使用这个目录,请建立相关链接, 并修改环境变量设置(.cshrc 或其他 shell 的配置文件):setenv CONSED_HOME xxx,xxx 为 consed 安装的目录。
2 )建 立 $CONSED_HOME/bin 和 $CONSED_HOME/lib 目录,可 执行 文件全 部放 到
$CONSED_HOME/bin 目录下
Consed 需要使用其他的一些软件,如:phred, phrap, crossmatch,这些文件需放到
/usr/local/genome/bin 目录下,或$CONSED_HOME/bin。
对于软件 phred,联系:bge@u.washington.edu (Brent Ewing)
对于软件 phrap 和 crossmatch, 联系:phg@u.washington.edu (Phil Green)
3) 编译 phd2fasta:
到 misc/phd2fasta 目录,键入命令'make'编译 phd2fasta,然后将 phd2fasta 可执行文件移到目录 /usr/local/genome/bin 或 $CONSED_HOME/bin)
4) 编译 mktrace:
到 misc/mktrace 目录,键入命令'make'编译 mktrace,然后将 mktrace 可执行文件 移到目录 /usr/local/genome/bin 或 $CONSED_HOME/bin)
5) 将所有的 perl 程序 ( scripts目录和contributions目录下)移到目录
/usr/local/genome/bin或 $CONSED_HOME/bin),并修改权限为可执行(chmod a+x *)
6 )如果系 统 perl 不是安装在 /usr/bin/ 下,需将每 个 perl 程序的开头 位置
#!/usr/bin/perl -w 改成相应的路径。
7) 建立子目录 /usr/local/genome/lib/screenLibs 或$CONSED_HOME/lib/screenLibs,将目录 misc 下的文件 primerCloneScreen.seq 和primerSubcloneScreen.seq 拷到此目录下。
8)建立载体序列文件(FASTA 格式):
/usr/local/genome/lib/screenLibs/vector.seq (或$CONSED_HOME/lib/screenLibs/vector.seq。此文件包含所有载体序列。
9)建立重复序列文件(FASTA 格式):
/usr/local/genome/lib/screenLibs/repeats.fasta,(或 $CONSED_HOME/lib/screenLibs/repeats.fasta)。如果不想标注任何重复序 列,将 phredPhrap 相关的行屏蔽掉即可(行前加#号),即:
!system( "$tagRepeats $szAceFileToBeProduced" )
|| die "some problem running $tagRepeats";
改为:
#!system( "$tagRepeats $szAceFileToBeProduced" )
# || die "some problem running $tagRepeats";
输入
Consed 的输入文件是 phrap 组装生成的*.ace 文件和组装用到的 reads 的 phd、峰图文件。这些文件必须以如下方式存放: 一个存放峰图文件的目录,目录名必须是 chromat_dir;
一个存放 phred 读取峰图输出的文件——phd 文件的目录,目录名必须是 phd_dir; 一个供 consed 编辑的工作目录,目录名任意(通常命名为 edit_dir),里面存放 ace 文件。
三个目录必须同级放置。如:
[liudy@119 bash /disk2/team06/liudy/test/test_consed]$ls -lFt total 72
drwxr-xr-x 2 liudy prj0327 4096 Sep 22 02:01 edit_dir/
drwxr-xr-x 2 liudy prj0327 20480 Sep 18 03:21 phd_dir/
drwxr-xr-x 2 liudy prj0327 16384 Sep 18 03:21 chromat_dir/
使用
满足上述输入条件以后,在目录“edit_dir”下直接键入"consed"即可运行程序,程序 打开以后会弹出一个选择输入的 ace 文件的窗口:
图 2-5 consed 的输入选择界面
如果 phd_dir 目录缺失却需要强行打开 consed,必须加"-nophd"参数运行才能打开consed 界面,否则会报错退出。而在"-nophd"参数下,consed 的很多功能都无法实现,包 括查看每个 read 的质量、调整组装结果等等。而如果 chromat_dir 缺失,则不能查看 reads 的原始峰图。通常运行 consed 的时候都要求至少绝大多数 reads 的 phd 文件都存在。
以下的所有功能的实现都是在 consed 目录结构完整,reads 路径对应正确,并且参数配 备无误的情况进行的。
1.主界面布局:
主界面"Consed Main Window" read 列表。
从上到下依次排列了菜单区、功能键、contig列表和Contig 列表中的所有 contigs 按照包含 reads 从少到多的顺序排列。窗口中显示了contig 名称、拼成 contig 的 reads 数和 contig 的总长度等信息。
Read 列表中显示了每一个 read 在拼接结果中属于哪一个 contig、read 长度和在 contig上的拼接位置。
Contig 列表和 read 列表的下方分别有一个搜索区,可以输入 contig 或者 read 的名称 进行模糊,搜索区支持模糊搜索的功能。
图 2-6 就是 consed 的主界面:
2.检查 contig 的组装质量:
在 contig 列表中双击一个 contig的名字,会弹出这个 contig 的窗口。窗口中以图形的方式显示了此 contig 的 组 装 情 况 。 最 上 面 一 行 的 碱 基 表 示 组 装 完 成 的 contig 序列(consensus),下面的每一行表示组成 contig 的每一条 read,在窗口的左端显示了每一条 read 的名字,名字后面的箭头代表 read 的测序方向。拼接质量是由碱基的背景色表示的,背 景色浅表示质量好,反之表示质量差。通过拖动滚动条,可以查看到整个 contig 的拼接情况。 如果需要查看某一个 read 的峰图,只需选中这个 read 上的碱基点击鼠标中键,就会弹出峰图(双键鼠标可以通过同时点击左右键来实现中键功能)。如图 2-7:
图 2-7 contig 窗口和 reads 峰图
对于比较大的 contig,手动检查的效率是很低的,所以 consed 提供了一系列统计以辅助 检查 contig 的拼接:
第一是提供了 contig 的平均单碱基错误率统计,以衡量 contig 的整体质量。这个信息显 示在 contig 窗口按键区"Err/10kb"的右边。如上图显示就是万分之 3.38 的错误率。
第二是提供了查找 contig 上组装有问题区域的功能。点击"navigate"按钮,下拉菜单中有很多查找选项,其中第一个选项 "Low Cons/High Qual Descrep/Single Stranded/Single Subclone/Unaligned High"选项,即查找全部有问题的组装区域。相比于这种 一网打尽的找法,分类寻 找往往更有针对性,所以最常用的是如下选项: "Low consensus quality"、"Region covered by only 1 subclone"和"High quality discrepancies/>5bp from unaligned region",即低质量、单覆盖和高质量错配。
以查找低质量区为例,依次点击"navigate"->"Low consensus quality",会弹出一 个窗口显示所有低于指定质量值(默认为 25)的区域,双击其中的任意一个结果,contig 窗口 就会显示这个位置附近的组装情况。点击"save"按键,弹出窗口显示的统计结果可以保存。如 图 2-8:
图 2-8 寻找 contig 的低质量区
3.提取组成 contig 的所有 reads 的位置信息:
在 contig窗口上点击"Info"按钮,选择"Show Contig Information",就会弹出"Contig Information"窗口,显示所有 reads 在这个 contig 上的位置和方向。可以点击"Save"输出这些信息。如图 2-9
图 2-9 查看 contig 上 reads 的位置
4.查看 contig 之间的关系和正反向 reads 的覆盖情况:
在主窗口上点击按钮"Assembly View"会弹出一个窗口显示 contig 之间的正反向 reads关系,并将关系足够多的正反向连成 scaffold。在 contig 的上方会出现两条起伏的线,较高 的一条是浅绿色,表示亚克隆的覆盖度曲线;较低的一条是深绿色,表示组装的 reads 覆盖度曲线。这两条曲线突然降低的位置往往是组装结果中连接较弱的位置,甚至是错拼。因此这两条曲线能够用来粗略的检验序列组装的可靠性。如图 2-10:
图 2-10 Assembly View
如果想仔细观察正反向的覆盖情况,可以点击"Assembly view"窗口的"What to Show", 在菜单中选择"Fwd/Rev Pairs",选中正反像选项中的"Show each consistent fwd/rev pair within contigs"和"Show legs on squares for consistent fwd/rev pairs" 并点击"Apply",就会在显示 contigs 之间的关系的同时也显示 contigs 内部的正反向关系, 能够比较方便的找到正反向覆盖异常的区域。
5.寻找组装结果中的重复区:
在"Assembly View"窗口点击"Sequence Matches",会弹出 cross_match 比对的参数选项窗口。点击"run crossmatch",程序会在所有的 contigs 之间进行比对,并把比对结 果绘制在"Assembly View"窗口里面的 contig 上,其中橙色线条代表正向比对的结果,黑色 代表反向比对。如图 2-11:
图 2-11 Assembly View 的比对功能
6.在 consed 中搜索序列:
打开"Search for String"窗口,从一个 contig 中选中一段序列(consed 设置为选中复制),用鼠标中键粘贴在"Query String"内(也可以键盘输入),然后点击"OK",程序就 会找出这一段序列在所有结果中出现的位置。如图 2-12:
图 2-12 搜索序列
7.连接 contigs:
对于有重复区域的两个 contigs,我们可以把鼠标的焦点定在两个 contig 重复区域的同一个碱基上,在两个 contig 窗口里分别点击"Compare Cont"弹出比对窗口。点击窗口中间的 "Align"比对。查验比对结果没有问题可以接受以后,点击比对窗口右下角的 "join Contigs",两个 contigs 就连起来了,如图 2-13 和 2-14。需要注意的是,如果两个 contigs是反向比对,则必须用按钮“Compl Cont”把其中一个 contig 变成互补序列,才能进行连接。
图 2-13 连接 contigs
图 2-14 连接以后的 contig
8.拆分 contig:
在 contig窗口里选中选一个位置按右键,选择"Tear contig at this consensus position",就会弹出一个窗口以供选择跨过这一碱基的每一个 reads 应该划分到上游还是下 游。选定之后点击"Do Tear",原来的 contig 就拆成了 2 个。如果 2-15 和 2-16
图 2-15 拆分 contig
图 2-16 拆分后的 contigs
9.把一个 read 从 contig 中分离出来:
在 contig 窗口中选中需要分出来的 read,点鼠标右键,选择"Put read *** into its own contig",即可把这条 read 从中分离出来。如图 2-17 和 2-18:
图 2-17 从 contig 中分离 reads
图 2-18 分离出来的 read 单独成为一个 contig
以上是一些常用的基本功能,其他的扩展功能读者可以慢慢摸索。需要注意的是,以上的功 能都是在参数配备完整的情况下实现的。如果 consed 实现某一功能的调用程序路径不对,会弹 出类似于这样的错误窗口:
图 2-19 错误 1
图 2-20 错误 2
遇到这种情况的需要重新配置 consed 的参数调用列表,方法如图 2-21,在主界面上点击 "Options",选择"Edit Consed/Autofinish Parameters",把报错的调用程序路径修 改为当前系统内的有效路径即可。使用 consed 时多数配置问题可以通过这种方法解决。
图 2-21 调整 consed 参数
输出
1.保存 ace 文件:
点击主窗口的“File”按钮,在菜单中选择"Save assembly"选项,可以用来保存修改后的 ace 文件。见图 2-22
图 2-22 保存 ace 文件
2.输出 contigs 序列:
点击主界面的“File”,选择"Write all contigs to fasta file"可以输出所有contigs。如果需要单独输出某一个 contig,可以在相应的 contig 窗口内点击"File",选 择 "Export consensus sequence" 或 者 "Export consensus sequence (with options)"来指定输出完整 contig 还是部分序列、输出起止位点、是否输出质量、输出格式 是 fasta 还是 phd 等等。如图 2-23:
图 2-23 输出 contig 序列
常见问题
1.运行 consed 时报下列错误:
no ~/.consedrc file so no user resources will be used--that's ok no ./.consedrc file so no project-specific resources--that's ok couldn't open readOrder.txt--that's ok
Error: Can't open display:
这种情况通常是使用的远程登陆工具不支持图形界面。使用 X-win32 登陆即可解决。
2.运行 consed 时报下列错误:
no ~/.consedrc file so no user resources will be used--that's ok no ./.consedrc file so no project-specific resources--that's ok couldn't open readOrder.txt--that's ok
Fatal: The parent directory must contain phd_dir and chromat_dir, but it doesn't. A typical directory structure is a directory named after the project, with subdirectories named edit_dir (containing the ace files), phd_dir (containg the phd files), and chromat_dir (containing the chromatogram files). Consed would then be run from within edit_dir.
Version 14.00 (040827)
这是由于上级目录没有“phd_dir”。