标签:-- for font 使用 转换 序列 ping assign 表头
# 进入工作目录 cd example_PE250
# 结果按门、纲、目、科、属五个级别进行分类汇总,对应结果的L2-L6 summarize_taxa.py -i result/otu_table4.biom -o result/sum_taxa # summary each level percentage # 修改一下文本表头,适合R读取的表格格式 sed -i ‘/# Const/d;s/#OTU ID.//g‘ result/sum_taxa/* # format for R read # 以门为例查看结果 less -S result/sum_taxa/otu_table4_L2.tx
# 选择OTU表中丰度大于0.1%的OTU filter_otus_from_otu_table.py --min_count_fraction 0.001 -i result/otu_table4.biom -o temp/otu_table_k1.biom # 获得对应的fasta序列 filter_fasta.py -f result/rep_seqs.fa -o temp/tax_rep_seqs.fa -b temp/otu_table_k1.biom # 统计序列数量,104条,一般100条左右即有大数据的B格,又能读懂和更清规律和细节 grep -c ‘>‘ temp/tax_rep_seqs.fa # 104 # 多序列比对 clustalo -i temp/tax_rep_seqs.fa -o temp/tax_rep_seqs_clus.fa --seqtype=DNA --full --force --threads=30 # 建树 make_phylogeny.py -i temp/tax_rep_seqs_clus.fa -o temp/tax_rep_seqs.tree # 格式转换为R ggtree可用的树 sed "s/‘//g" temp/tax_rep_seqs.tree > result/tax_rep_seqs.tree # remove ‘ # 获得序列ID grep ‘>‘ temp/tax_rep_seqs_clus.fa|sed ‘s/>//g‘ > temp/tax_rep_seqs_clus.id # 获得这些序列的物种注释,用于树上着色显示不同分类信息 awk ‘BEGIN{OFS="\t";FS="\t"} NR==FNR {a[$1]=$0} NR>FNR {print a[$1]}‘ result/rep_seqs_tax_assignments.txt temp/tax_rep_seqs_clus.id|sed ‘s/; /\t/g‘|cut -f 1-5 |sed ‘s/p__//g;s/c__//g;s/o__//g‘ > result/tax_rep_seqs.tax
# 将mappingfile转换为R可读的实验设计 sed ‘s/#//‘ mappingfile.txt > result/design.txt # 转换文本otu_table格式为R可读 sed ‘/# Const/d;s/#OTU //g;s/ID.//g‘ result/otu_table4.txt > result/otu_table.txt # 转换物种注释信息为制表符分隔,方便R读取 sed ‘s/;/\t/g;s/ //g‘ result/rep_seqs_tax_assignments.txt > result/rep_seqs_tax.txt
标签:-- for font 使用 转换 序列 ping assign 表头
原文地址:http://www.cnblogs.com/freescience/p/7420376.html