您的位置:首页 > 其它

blastall的使用方法,以及输出文件的格式记录

2013-01-07 17:29 671 查看

用blastall进行序列比对  

  blastall是最常用的blast程序之一,其功能非常强大,其下面有非常多的参数,但是一般使用的参数如:-p、-i、-d、-o、-e等几个。-p: 执行的程序名称-d: 搜索的数据库名称-i : 要查询的序列文件名(Query File)-e:(数学)期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。-o :查询结果输出文件名-m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。-I :在描述行中显示gi号[T/F],缺省值F-v :单行描述(one-line description)的最大数目,缺省值500-b :显示的比对结果的最大数目,缺省值250-F :对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。所谓“低复杂度区域”是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替。-a:运行BLAST程序所使用的处理器的数目,缺省值1-S:在数据库中搜索时所使用的核酸链(strand),只对blastn、blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3-T: 产生HTML格式的输出[T/F],缺省值F-n: 使用MegaBlast搜索[T/F],缺省值F-G: 打开一个gap的罚分(0表示使用缺省设置值),默认0-E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0-q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3-r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1-M: 所使用的打分矩阵,缺省值BLOSUM62

1.1.1.    参数说明

基本参数、比对优化参数、结果输出参数、控制输入参数表:blastall命令的参数说明
参数说明默认值备注
-p使用的程序字符[String] blastnblastpblastxtblastntblastx
-d使用的数据库文件名[File In]nr 
-i搜索用的序列文件名[File In]stdin 
-e期望值数字[Real]10.0 
-m控制比对结果的样式0到11的整数[Integer]00 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities,3 = flat query-anchored, show identities,4 = flat query-anchored, no identities,5 = query-anchored no identities and blunt ends,6 = flat query-anchored, no identities and blunt ends,7 = XML Blast output,8 = tabular,9 tabular with comment lines10 ASN, text11 ASN, binary
-o比对结果存放的文件名文件名[File Out]stdout 
-F过滤询问序列[String]TDUST with blastn, SEG with others
-G打开gap得分[Integer]-1 
-E延伸gap得分[Integer]-1 
-XX dropoff value for gapped alignment (in bits)[Integer]0blastn 30, megablast 20, tblastx 0, all others 15
-I显示gi号Show GI’s in deflines[T/F]F 
-q核酸错配罚分[Integer]-3blastn only
-r核酸匹配得分[Integer]1blastn only
-vNumber of database sequences to show one-line descriptions for (V)[Integer]500 
-bNumber of database sequence to show alignments for (B)[Integer]250 
-fThreshold for extending hits[Integer]0blastp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0
-gPerform gapped alignment[T/F]Tnot available with tblastx
-Q指定询问序列使用的遗传密码[Integer]1 
-D指定数据使用的遗传密码[Integer]1for tblast[nx] only
-a使用CPU的数目[Integer]1 
-OSeqAlign file[File Out] 可选
-JBelieve the query defline[T/F]F 
-M比对使用的矩阵[String]BLOSUM62 
-WWord size[Integer]0blastn 11, megablast 28, all others 3
-z数据库的有效长度Effective length of the databas[Real]0use zero for the real size
-KNumber of best hits from a region to keep[Integer]0off by default, if used a value of 100 is recommended
-P0 for multiple hit, 1 for single hit[Integer]0does not apply to blastn
-YEffective length of the search space[Real]0use zero for the real size
-SQuery strands to search against database[Integer]3for blast[nx], and tblastx, 3 is both, 1 is top, 2 is bottom
-T将结果保存为HTML格式[T/F]F 
-l通过gi号列表,限制搜索范围[String]Optional 
-UUse lower case filtering of FASTA sequence[T/F]Optional 
-yX dropoff value for ungapped extensions in bits[Real]0.00.0 invokes default behavior blastn 20, megablast 10, all others 7
-ZX dropoff value for final gapped alignment in bits[Integer]0blastn/megablast 50, tblastx 0, all others 25
-RPSI-TBLASTN checkpoint file[File In]Optional 
-nMegaBlast search[T/F]F 
-LLocation on query sequenc[String]Optional 
-AMultiple Hits window size[Integer]0default if zero (blastn/megablast 0, all others 40)
-wFrame shift penalty[Integer]0OOF algorithm for blastx
-tLength of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments[Integer]00 invokes default behavior; a negative value disables linking.
-BNumber of concatenated queries[Integer]0for blastn and tblastn
-VForce use of the legacy BLAST en gine[T/F]FOptional
-CUse composition-based statistics for tblastn[String]DD or d: default (equivalent to F)      0 or F or f: no composition-based statistics      1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001      2: Composition-based score adjustment as in Bioinformatics 21:902-911,          2005, conditioned on sequence properties      3: Composition-based score adjustment as in Bioinformatics 21:902-911,          2005, unconditionally      For programs other than tblastn, must either be absent or be D, F or 0.
-sCompute locally optimal Smith-Waterman alignments[T/F]FThis option is only      available for gapped tblastn.

1.1.2.    使用说明与示例

程序使用说明
程序名搜索序列数据库说明备注
blastn核酸核酸用核酸序列搜索核酸数据库 
blastp蛋白质蛋白质用蛋白质(氨基酸)序列搜索蛋白质数据库寻找较高分值的匹配,对较远关系的不太适用
blastx核酸蛋白质用核酸双链序列理论上的六种框架的所有翻译结果搜索蛋白质数据库,用于新的序列和ESTs的分析转译搜索序列
tblastn蛋白质核酸用搜索的蛋白质和数据库中核酸的用于寻找数据库中没有标注的编码区
tblastx核酸核酸  

  比对命令示例

blastall-p blastn-i U00096.ffn -d ecoli-o U00096_Vs_ecoli_blastn.out -F F

blastall-p blastp-i U00096.faa -d nr -o U00096_Vs_NR_blastp.htm -e 0.01 -b 1 -v 1 -T T

blastall-p blastx-i U00096.ffn -d nr -o U00096_Vs_NR_blastx.htm -e 1e-5 -b 1 -v 1
我这里简单的补充一下输出文件的结构和
问询序列名称,再库里的名称,相似度,长度,gap,snp,问询序列的起始终止位置,在库里的起始终止位置
然后附带一个小程序
#!/usr/bin/perl -wuse strict;my @file;$file[0]=glob "*.fas";foreach my $tmp(@file){$tmp=~/(.+)\.fas/;system "formatdb –i $tmp –p F –o F –n $1";system "blastall -p blastn -i Nip_gene.fasta  -d $1 -e 0.1 -o blast_$1.fas -F F -a 2 -m 8 -b 1 -v 1";}
$1,替换成你的输出文件名称,程序里的所有$1都要替换!转自:以下网址,非常全面的总结http://zhangjian995.blog.163.com/blog/static/23116433201011144221233/引自:http://szypanther.blog.hexun.com/42675581_d.html 向他致敬!!!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐