码迷,mamicode.com
首页 > 其他好文 > 详细

vcf格式简介

时间:2018-08-20 12:24:31      阅读:324      评论:0      收藏:0      [点我收藏+]

标签:list   produce   fence   详细   app   read   数据   idt   forum   

1)背景

伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而我们需要记录的仅仅是不同基因组之间变异的地方,因此这些格式会显得格外冗余。这就迫切需要一种新的格式来记录高效的记录这些变异信息。VCF(Variant Call Format)就是这样一种用来贮存基因序列变异信息的文本文件(通常是压缩格式)。

2)VCF格式简介

VCF 格式文件包含有3部分:元信息(meta-information),以‘##’为前缀,通常包含fileformat、fileDate、reference等信息;头行信息( header line ),以‘#’为前缀;数据行(data lines),该部分为主题部分,记录了每个样品每个位点处的基因分型信息。

 技术分享图片

 主题部分每列的含义:

技术分享图片
1)CHROM - chromosome:参考基因组标识。
2)POS - position:变异位点相对于参考基因组所在的位置(1-based)。在每个染色体内,按照数字位置升序排列。
3)ID - identi?er: 如果是dbSNP variant则需要给出相应的rs 号,若不是,则默认使用‘.’
4)REF - reference base(s): 参考序列碱基,必须是 A,C,G,T,N其中的一种。
5) ALT - alternate base(s): 表示variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
6)QUAL - quality:表示 Phred质量值,用来表示 ALT的可靠性
7)FILTER - ?lter status:表示是否通过过滤。PASS表示该位点通过过滤,否则表示没有通过。例如,q10表示质量值低于10
8)INFO - additional information:表示的是变异描述信息。包括18种,都是以<key>=[,data]格式,并使用分号分隔的形式,其中很多的注释信息在VCF文件的头部注释中给出。

AA :ancestral allele    
AC :allele count in genotypes, for each ALT allele, in the same order as listed
AF :allele frequency for each ALT allele in the same order as listed: use this when estimated from primary data, not called genotypes
AN :total number of alleles in called genotypes
BQ :RMS base quality at this position
CIGAR :cigar string describing how to align an alternate allele to the reference allele
DB :dbSNP membership
DP :combined depth across samples, e.g. DP=154
END :end position of the variant described in this record
H2 :membership in hapmap2
H3 :membership in hapmap3
MQ :RMS mapping quality, e.g. MQ=52
MQ0 :Number of MAPQ == 0 reads covering this record
NS :Number of samples with data
SB :strand bias at this position
SOMATIC :indicates that the record is a somatic mutation, for cancer genomics
VALIDATED :validated by follow-up experiment
1000G :membership in 1000 Genomes

9)FORMAT:可选的扩展,例如GT:AD:DP:GQ:PL。该部分是主体部分,表示基因型信息的多个标签,这些标签之间以冒号分割,其对应的值位于第10列,同样以冒号分割,表示第一个样品的基因型结果
10)SAMPLES:表示样本信息,各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。

3)vcftools

 

3)习题

 

4)参考资源

The Variant Call Format Speci?cation,VCFv4.3 and BCFv2.2
https://en.wikipedia.org/wiki/Variant_Call_Format
http://www.cnblogs.com/emanlee/p/4562064.html
https://gatkforums.broadinstitute.org/gatk/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk

 

vcf格式简介

标签:list   produce   fence   详细   app   read   数据   idt   forum   

原文地址:https://www.cnblogs.com/djx571/p/9504787.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!