码迷,mamicode.com
首页 > 其他好文 > 详细

读取gff/gtf文件的内容

时间:2017-07-26 23:46:52      阅读:293      评论:0      收藏:0      [点我收藏+]

标签:.com   sort   coding   练习   读取   mat   文件的   类型   blog   

题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html

 

gff文件来自gencode的genode.v26.annotation.gft.gz

目的:熟悉gff文件内容,练习提取数据操作

 

1.统计每一条染色体的基因数目:

zcat gencode*|awk ‘$3=="gene"{print $1}‘|sort|uniq-c #$3是feature type,$1是reference sequence name。

2.统计每一条染色体的protein_coding 基因数目:

zcat gencode*|awk ‘$3=="gene"{print $0}‘|grep "protein_coding"|cut -f 1|sort|uniq -c

3.统计各个类型的基因

zcat gencode*|awk ‘$3=="gene"{print $0}‘|awk ‘match($0,/(gene_type).+(".+?");.*gene_name,a){print a[2]}‘|sort|uniq -c

  

 

读取gff/gtf文件的内容

标签:.com   sort   coding   练习   读取   mat   文件的   类型   blog   

原文地址:http://www.cnblogs.com/timeisbiggestboss/p/7241571.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!