标签:压缩 NPU 序列 smi .gz int ast input enc
# 通过搜索>的数量
grep -c '^>' myFasta.fasta
1397492
#seqkit统计提取,速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4
Total sequence length 5,759,798,599
Total ungapped length 5,759,798,599
Number of contigs 1,397,492
Contig N50 9,587
Contig L50 174,483
Total number of chromosomes and plasmids 0
Number of component sequences (WGS or clone) 1,397,492
压缩格式解压,统计行数除以4
# 通常以fastq.gz格式压缩
zcat input.fastq.gz | awk 'NR%4==2{c++} END{print c}'
# 推荐下面的方法 pigz 会比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'
# 如果不是压缩格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'
标签:压缩 NPU 序列 smi .gz int ast input enc
原文地址:https://www.cnblogs.com/huangyinger/p/10420774.html