码迷,mamicode.com
首页 > 其他好文 > 详细

【annotation】非人类物种基因组注释(MSU为例)

时间:2019-01-13 11:42:50      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:ast   margin   开始   总结   没有   tab   转换   mat   variant   

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己。

首先我们需要明确我们需要的数据和软件:

数据包括:

all.gff3 #MSU的v7.0版本组装的注释文件
all.con #基因组序列

这样就是所有的输入文件了,现在我们列举一下需要用到的软件:

gffread  #gff3 to gtf
gtfToGenePred  #gtf to genePred (建库需要的文件)
annovar  #注释主程序,只能通过发邮件获取

有了这些我们就可开始做注释了、

一、建库

如果是给人类的基因组注释,网上有非常多的教程,我在这里就不赘述了,请大家自行百度,我要介绍的主要是水稻及其他非人类的生物注释。

首先我们需要在获得ANNOVAR之后在目录下解压,在软件主目录下新建文件夹:

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ ls -l
总用量 508
-rwxr-xr-x 1 genomics genomics 221481 4月  17  2018 annotate_variation.pl
-rwxr-xr-x 1 genomics genomics  27582 4月  17  2018 coding_change.pl
-rwxr-xr-x 1 genomics genomics 170158 4月  17  2018 convert2annovar.pl
drwxr-xr-x 2 genomics genomics   4096 4月  17  2018 example
drwxr-xr-x 3 genomics genomics   4096 4月  17  2018 humandb
-rwxr-xr-x 1 genomics genomics  19407 4月  17  2018 retrieve_seq_from_fasta.pl
-rwxr-xr-x 1 genomics genomics  39223 4月  17  2018 table_annovar.pl
-rwxr-xr-x 1 genomics genomics  21774 4月  17  2018 variants_reduction.pl


genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb

ricedb就是我们需要建库的文件夹了,和同目录下的humandb是一样的,在这个文件夹中需要有两个文件

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l
总用量 529324
-rw-rw-r-- 1 genomics genomics 380710511 10月 31  2011 AsianRice_MSU.fasta
-rw-rw-r-- 1 genomics genomics  81498659 2月   7  2012 AsianRiice_MSU.gff3

gff文件会报错所以第一步要转换成gtf文件

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf

gtf文件转换成GenePred文件,利用GtfToGenePred工具,这里注意“-genePredExt”这个参数一定要加上

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt

结合基因组数据获得另外一个重要数据,通过上边获得的GenePred文件:

perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa  Os_refGene.txt --out Os_refGeneMrna.fa

这样我们建库工作就完成了,下次再对相同物种数据进行注释的时候就不用进行这些操作了,库的两个文件组成如下:

genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l
-rw-rw-r-- 1 genomics genomics 127436949 1月  12 12:24 Os_refGeneMrna.fa
-rw-rw-r-- 1 genomics genomics  12334559 1月  12 12:23 Os_refGene.txt

二、非人类物种注释

  相比与人类的注释,其他物种的注释如果完成了建库的步骤剩下的就很相似。区别在于其他物种并没有人类那么多相关的注释库,一般我们就进行基于基因的注释就可以获得我们想要的数据:

perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g

  剩下的事情交给马克思和处理器就好了!

  输出格式以及后续的处理在随后的博文中会有详细的介绍。

【annotation】非人类物种基因组注释(MSU为例)

标签:ast   margin   开始   总结   没有   tab   转换   mat   variant   

原文地址:https://www.cnblogs.com/muuyouzhi/p/10260963.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!