(首先推荐public Library of Bioinformatics的《SAM格式》和《Bowtie2使用方法与参数详细介绍》两篇文章,有不足处希望大家提出)
1,简介:
文件后缀名:.sam
Bowtie2是现下最流行的短序列比对软件,SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
2,行、列、注释说明:
注释:以@开头的行
行:除注释外,每一行是一个read
列:
第一列:read name,read的名字通常包括测序平台等信息
eg.ILLUMINA-379DBF:1:1:3445:946#0/1
第二列:sum of flags,为flag的总和(整数),flag取值见备注(3)
eg.16
第三列:RNAM,reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*
eg.chr1
第四列:position,read比对到参考序列上,第一个碱基所在的位置。若是无法比对,则是0
eg.36576599
第五列:Mapping quality,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一。
eg.42
第六列:CIGAR值,碱基匹配上的碱基数。match/mismatch、insertion、deletion 对应字母 M、I、D
eg.36M 表示36个碱基在比对时完全匹配
注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义。
第七列:MRNM(chr),mate的reference sequence name,实际上就是mate比对到的染色体号,若是没有mate,则是*
eg.*
第八列:mate position,mate比对到参考序列上的第一个碱基位置,若无mate,则为0
eg.0
第九列:ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0
eg.0
第十列:Sequence,就是read的碱基序列,如果是比对到互补链上则对read进行了reverse completed
eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
第十一列:ASCII,read质量的ASCII编码。
eg.PY[[YY_______________QQQQbILKIGEFGKB
第十二列之后:Optional fields,以tab建分割。详见备注(2)
eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
扩展:
3,应用举例:
SAM文件可以作为很多后续分析的源文件,也可以从其中提取感兴趣的信息。
4,备注:
(1)mate,在Illuminated中有两种测序技术:paired end sequencing,mate pair sequencing。这两种测序都是测的一个片段的两端,这两端产生的reads被称为mate1,mate2,单末端测序则无mate。
(2)Optional fields:
(3)flag取值
0:比对到参考序列的正链上(待求证)
1:是paired-end或mate pair中的一条
2:双末端比对的一条
4:没有比对到参考序列上
8:是paired-end或mate pair中的一条,且无法比对到参考序列上
16:比对到参考序列的负链上
32:双末端reads的另一条(mate)比对到参考序列的负链上
64:这条read是mate 1
128:这条read是mate 2
5,参考文献