码迷,mamicode.com
首页 > 其他好文 > 详细

基因家族分析之同源基因的寻找

时间:2020-03-06 11:02:20      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:match   cab   prot   value   比较   integer   inf   int   start   

Blast进行同源基因的寻找

参考博客:

基于蛋白的比对结果,寻找某一个蛋白家族的同源基因,使用如下的参数

  • identity >30%;
  • e-value <1e-10;
  • score>200
  • overlap >60%

首先对感兴趣的基因家族蛋白序列建立索引

makeblastdb -in test.fsa -parse_seqids -dbtype prot -out test_db

然后使用blastp比对到建立好索引的数据库

-outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs"

blastp -query Bju.chr.modified_id.pep.fa -db MAGL_pep -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs" -max_hsps 1  -num_alignments 1 -evalue 1e-10 -num_threads 30  -out Bju.MAGL.v2.txt

如果需要blast比对返回一个最优的比对结果,需要控制-max_target_seqs , -num_alignments 和 -max_hsps 选项:

-max_target_seqs <Integer, >=1>Maximum number of aligned sequences to keepNot applicable for outfmt <= 4* Incompatible with: num_descriptions, num_alignments 
-num_alignments <Integer, >=0>Number of database sequences to show alignments for* Incompatible with: max_target_seqs

分割NR子库

NCB blast-2.8版本可支持用NCBI自带代码分割的NR子库的索引作为比对的库,使用比较方便

NR库也要重新下载了ftp://ftp.ncbi.nlm.nih.gov/blast/db/v5/

如果只想比对到单一物种人9606

blastp –db nr –query query.fasta –taxids 9606 –outfmt 6 –out blast.outfm6

比对NR子库哺乳动物的话,需要先建个哺乳动物子库tax_id索引

get_species_taxids.sh -t 40674 > 40674.txids

将序列比对至NR哺乳动物子库

blastp –db nr –query query.fasta –taxidlist 40674.txids –outfmt 6 –out blast.outfm6

基因家族分析之同源基因的寻找

标签:match   cab   prot   value   比较   integer   inf   int   start   

原文地址:https://www.cnblogs.com/raisok/p/12425008.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!