标签:线程 例子 fast 插入 bow ioi 最大的 class 发表
1. GapFiller简介
组装出来的基因组草图的scaffold需要进一步进行gaps的close。进行这样功能的软件有:SOAPdenovo GapCloser v1.12r6; IMAGE; GapFiller.
GapFiller文章发表在Genome Biology上:Boetzer M,Pirovano W. 2012. Toward almost closed genomes with GapFiller. Genome Biol.13:R56。从文章可以完全明白该软件closing gap的原理。
GapFiller需要输入scaffold序列(FASTA)和NGS paired-read数据(FASTA or FASTAQ),输出FASTA格式文件。该软件的获得需要填写一些邮箱和单位信息。商业license需要花钱;学术性需要引用其文章。
2. GapFiller安装
下载GapFiller的安装包,解压缩后,里面包含bowtie、bwa和example共3个文件,其最重要的是GapFiller.pl文件,为主程序。还有2个PDF格式的manual文件。
3. GapFiller的使用
直接运行主程序,会给出软件的参数说明,如下:
-l library文件
-s scaffold序列的fasta文件
-m default:29 和gap边缘重叠的最小碱基数,该数值最好设置比reads的长度小一点点的数。比如36bp长度的reads,设置该值为30~35.
-o default:2 在补洞时,延伸一个碱基最小需要的reads数.
-r default:0.7 在补洞时,至少有该比例reads的碱基一致,才能对该碱基位点进行延伸。
-d default:50 gap部分序列的允许的最大差异。填补gap后,若值“填补上的序列长度 - gap长度”大于该阈值,则停止补洞;若小于该阈值,则不进行融合。
-n default:10 在一个scaffold中对邻近的两个contigs进行融合所需要最小重叠的碱基数。
-t default:10 由于gap边缘的碱基大部分是低质量碱基,补洞时需要先将gap边缘该数目的碱基trim掉,作为N处理。
-i default:10 迭代的最大次数。
-g default:1 使用bowtie进行比对的时候允许的最大的gap数,和bowtie中的-v参数一致
-T default:1 运行时使用的线程数
-S 跳过重新读取输入文件
-b 输出文件的basename。
-l 参数所指向的library文件需要先行编辑好。该文件包含7列,每一列之间以空格(space)隔开.其例子和格式如下:
Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR
Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR
Lib2 bowtie file3.1.fastq file3.2.fastq 4000 0.5 RF
第1列:library名称
第2列:使用的序列比对方法,如果reads长度<50,则使用bowtie;若长度>50并<150,则使用bwa;若长度很大,比如454的reads,则使用bwa。BWA和BWA-sw运行在默认模式下。
第3,4列:双末端测序的fastq文件或fasta文件。
第5,6列:插入片段的长度,以及承认的长度。比如上例子中插入片段长度为400bp,成对的reads的片段长度只有在[400-400*0.25,400+400*0.25]范围内才被承认。
第7列:双端测序reads的方向,有FF,FR,RF和RR几种。
4. 例子
编辑一个libraries.txt文件,内容如下:
Illumina_160bp bwa fragment.reads1.fastq fragment.reads2.fastq 156 0.25 FR
Illumina_6000bp bwa jumping.reads1.fastq jumping.reads2.fastq 6170 0.25 FR
运行GapFiller程序,如下:
来源:https://www.plob.org/article/6182.html
标签:线程 例子 fast 插入 bow ioi 最大的 class 发表
原文地址:https://www.cnblogs.com/bio-mary/p/12356400.html