码迷,mamicode.com
首页 > 其他好文 > 详细

FASTA/Q序列处理神器---seqkit

时间:2020-03-17 22:31:58      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:输出   方便   nbsp   upper   bsp   统计   格式   文件   自己   

该软件对于处理FASTA/Q十分方便,省去自己编写脚本

  • 安装

1 conda install seqkit
  • 使用

 

  • 序列操作(seq)

 1 ## 取方向序列
 2 seqkit   seq  test.fa   -r  >  test_re.fa
 3 
 4 ## 取互补序列
 5 seqkit   seq   test.fa  -p  >  test_com.fa
 6 
 7 ## 取方向互补序列
 8 seqkit   seq   test.fa  -r  -p  > test_re_com.fa
 9 
10 ## RNA---> DNA序列
11 seqkit   seq  test.fa   rna2dna     >    test_dna.fa
12 
13 ## 小写字母输出
14 seqkit  seq  test.fa  -l  >  test_lower.fa
15 
16 ## 大写字母输出
17 seqkit   seq   test.fa  -u >  test_upper.fa
18 
19 ## 指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)
20 seqkit  seq  test.fa  -w  10  >  test_10.fa  (指定序列的长度为10)
21 
22 ## 将多行序列转换为一行序列
23 seqkit   seq  test.fa   -w   0   >  test_w.fa
24 
25 ## 只输出序列
26 seqkit   seq  test.fa  -s  -w 0 > test_seq.fa
27 
28 ## 将只输出的序列的,指定每行输出的碱基数
29 seqkit   seq  test_seq.fa  -s  -w 40 > test_seq40.fa

 

  • Fasta/q之间以及与tab格式互换 

1 ## 将fataq文件转化为fasta格式.
2 seqkit fq2fa   test.fq   -o   test.fa
3 
4 ## 将fasta格式转化为tab格式
5 seqkit  fx2tab  test.fa >  test_tab.fa (没有seq参数)

 

 

  • 序列信息统计

1 ## 序列碱基含量
2 seqkit  fx2tab  -l  -g  -n  -i  -H  test.fa
3 
4 ## 序列长度的整体分布统计
5 seqkit  stat  test.fa

 

 

  •  提取序列(grep) 

1 ## 给定基因名字,gene.txt; 从基因所对应的fasta文件提取序列
2 seqkit grep -f gene test.fa >gene.fa

 

FASTA/Q序列处理神器---seqkit

标签:输出   方便   nbsp   upper   bsp   统计   格式   文件   自己   

原文地址:https://www.cnblogs.com/zhanmaomao/p/12513975.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!