最近Tanger师兄让我看一个大豆基因组重测序的文章,里面call snp使用的是SOAP2等相关的软件,于是想自己摸索,写个call snp的流程出来,也算是一次尝试吧,写的不好不要见笑
soap是华大开发的一个系列软件,全称是Short Oligonucleotide Analysis Package,我理解的中文意思是短寡聚核苷酸序列分析包,soap有很多功能,我也在慢慢摸索学习,先说下我用到的两个软件SOAPsnp和SOAPaligner,分别用来call snp和mapping的,安装很简单,根据系统的版本在官网下载最新版本的软件,解压后即可使用,建议加入环境变量,不然用起来麻烦。接下来说下使用,SOAP2和GATK不同地方之一是:soap很多功能都是分开的,估计开发者是为了提高它的稳定性和准确性,最先需要对参考基因组建立索引,这需要用到SOAPaligner里面的一个工具2bwt-builder,专门用来对参考序列索引的。
2bwt-builder ref.fasta
运行完了之后会生成许多文件
不晓得为啥这个方法建立索引需要好久,可能是大豆基因组比较大吧。
由于我的数据是从ncbi上下载的,格式都是sra格式,现在需要用工具将其变成fastq格式,这需要安装ncbi上的一个sratoolkit来处理,解压即可使用,无需安装,有一个问题是,我在window系统下下载的然后再上传到服务器上,这样导致名字没sra后缀,这样这个工具会报错,所以需要先写个脚本或者直接用正则将名字全部更改,再用sratoolkit里面的fastq-dump处理,