码迷,mamicode.com
首页 > 其他好文 > 详细

SAM (Sequence Aliginment/Map Format )

时间:2014-06-10 16:44:04      阅读:238      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   ext   com   width   

用比对软件,如bwa, bowtie, 进行比对后产生的结果,一般为sam 或 bam 格式。bam是sam的二进制文件。下面用实例介绍一下sam文件格式:

sam 分为header section (@开头)和 alignment section(一般分为11列), 下图为一个sam文件的前半部分:

bubuko.com,布布扣

header 部分以@开头,格式为‘TAG:VALUE’,  TAG是两个字符:

@HD The header line. The first line if present

        VN Format version

        SO Sorting order of alignments.如unknown, unsorted, queryname, coordinate

@SQ Reference sequence dictionary.

        SN  Reference sequence name

        LN  Reference sequence length

@RG read group

        ID Read group identifier, each @RG line must have a unique ID.

        LB library

        PL Platform/technology used to produce the reads

        PU platform unit

        SM sample

@PG  Program

       ID Program record indetifier

       PN  program name

       VN program version

关于read group 的解释请参考我写的博文

下面介绍alignment section.

上图只展示了六列,我们先解释前六列:

1, QNAME  Query template NAME, 就是read的名字

2,FLAG    bitwise flag #稍微有点复杂,一共有12个bit, 分别代表不同的含义,如果这个alignment 满足其中几个,就将这几个相加得到该值。详细见官方文档。

3,RNAME  参考序列的名字。

4,POS  比对到的最左端的位置

5,MAPQ 比对的质量得分

6,CIGAR 将比对的结果用CIGAR表示,如M 表示match, I 表示对于ref 来说的 insertion, D 表示deletion。

下图显示的是第7,8,9,10列

bubuko.com,布布扣

7, RNEXT Ref. name of the mate/next read.

8,   PNEXT Position of the mate/next read

9,   TLEN observed Template length.

10, SEQ 就是你的read碱基。

下图是11, 12 , 13列。

bubuko.com,布布扣

11,QUAL 是你碱基的质量。每个字符代表一个得分。

11列之后是optional fields, 我们在这里不做介绍。

其实我不太明白那个TLEN的含义。

 

by freemao

FAFU.

free_mao@qq.com

SAM (Sequence Aliginment/Map Format ),布布扣,bubuko.com

SAM (Sequence Aliginment/Map Format )

标签:style   blog   http   ext   com   width   

原文地址:http://www.cnblogs.com/freemao/p/3779720.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!