标签:.com sort coding 练习 读取 mat 文件的 类型 blog
题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html
gff文件来自gencode的genode.v26.annotation.gft.gz
目的:熟悉gff文件内容,练习提取数据操作
1.统计每一条染色体的基因数目:
zcat gencode*|awk ‘$3=="gene"{print $1}‘|sort|uniq-c #$3是feature type,$1是reference sequence name。
2.统计每一条染色体的protein_coding 基因数目:
zcat gencode*|awk ‘$3=="gene"{print $0}‘|grep "protein_coding"|cut -f 1|sort|uniq -c
3.统计各个类型的基因
zcat gencode*|awk ‘$3=="gene"{print $0}‘|awk ‘match($0,/(gene_type).+(".+?");.*gene_name,a){print a[2]}‘|sort|uniq -c
标签:.com sort coding 练习 读取 mat 文件的 类型 blog
原文地址:http://www.cnblogs.com/timeisbiggestboss/p/7241571.html