码迷,mamicode.com
首页 > 数据库 > 详细

人类基因组在三大基因数据库中的不同版本

时间:2016-02-14 18:19:30      阅读:1783      评论:0      收藏:0      [点我收藏+]

标签:

在数据分析中,经常需要下载物种的参考基因组序列,这时有很多数据库可以选择,比如NCBI, Ensembl, UCSC这三个通用的数据库,或者该物种特有的数据库,

比如模式生物拟南芥等有专门的数据库。

在NCBI, Ensembl 和 UCSC中对于同一个物种,编号不统一,在这里整理一下它们之间的关系,以人类基因组为例:

在NCBI中,对于不同的拼装版本,以NCBI Build Number 进行区分,而相同的版本之间又有微小的区别,以Version 表示不同的小版本,

在下面的连接中可以看到人类基因组之前的版本,

技术分享

比如BUILD.36.1, NCBI Build Number 为36, Version 为1, 从BUILD 37.1 开始,又有了新的命名方式,GRCh37

有个CRC的组织(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),该组织是由EBI,NCBI等组织联合起来的学术团体,对基因组的不同拼装版本进行简短而统一的命名,h表示人类,37

表示版本号,对于同一个版本,会有小的修改,此时用p加上编号进行标识,比如Build 37.3 又命名为GRCh37.p5 ,p代表patch, 补丁;

目前比较常用的版本有GRCh37 和CRCh38 两个版本;

在Ensembl 中,有不同的release ,比如

人类基因组从release-76到release-83对应 GRCh38, 从release-55到release-75对应GRCh37

这个从命名方式可以看出来,以release-83为例:

技术分享

人类基因组第一条染色体命名为 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼装的版本

 

在UCSC中,

hg38对应GRCh38

技术分享

hg19对应GRCh37

技术分享

还有一点需要注意的是, Ensembl下载下来的fasta序列, 其标识符中不包含chr,

比如人类基因组1号染色体,在UCSC和NCBI中下载下来的标识符为>chr1,而Ensembl 中为>1

 

人类基因组在三大基因数据库中的不同版本

标签:

原文地址:http://www.cnblogs.com/xudongliang/p/5189400.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!