blastall的使用方法,以及输出文件的格式记录
2013-01-07 17:29
671 查看
用blastall进行序列比对
blastall是最常用的blast程序之一,其功能非常强大,其下面有非常多的参数,但是一般使用的参数如:-p、-i、-d、-o、-e等几个。-p: 执行的程序名称-d: 搜索的数据库名称-i : 要查询的序列文件名(Query File)-e:(数学)期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。-o :查询结果输出文件名-m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。-I :在描述行中显示gi号[T/F],缺省值F-v :单行描述(one-line description)的最大数目,缺省值500-b :显示的比对结果的最大数目,缺省值250-F :对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。所谓“低复杂度区域”是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替。-a:运行BLAST程序所使用的处理器的数目,缺省值1-S:在数据库中搜索时所使用的核酸链(strand),只对blastn、blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3-T: 产生HTML格式的输出[T/F],缺省值F-n: 使用MegaBlast搜索[T/F],缺省值F-G: 打开一个gap的罚分(0表示使用缺省设置值),默认0-E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0-q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3-r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1-M: 所使用的打分矩阵,缺省值BLOSUM621.1.1. 参数说明
基本参数、比对优化参数、结果输出参数、控制输入参数表:blastall命令的参数说明参数 | 说明 | 值 | 默认值 | 备注 |
-p | 使用的程序 | 字符[String] | blastnblastpblastxtblastntblastx | |
-d | 使用的数据库 | 文件名[File In] | nr | |
-i | 搜索用的序列 | 文件名[File In] | stdin | |
-e | 期望值 | 数字[Real] | 10.0 | |
-m | 控制比对结果的样式 | 0到11的整数[Integer] | 0 | 0 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities,3 = flat query-anchored, show identities,4 = flat query-anchored, no identities,5 = query-anchored no identities and blunt ends,6 = flat query-anchored, no identities and blunt ends,7 = XML Blast output,8 = tabular,9 tabular with comment lines10 ASN, text11 ASN, binary |
-o | 比对结果存放的文件名 | 文件名[File Out] | stdout | |
-F | 过滤询问序列 | [String] | T | DUST with blastn, SEG with others |
-G | 打开gap得分 | [Integer] | -1 | |
-E | 延伸gap得分 | [Integer] | -1 | |
-X | X dropoff value for gapped alignment (in bits) | [Integer] | 0 | blastn 30, megablast 20, tblastx 0, all others 15 |
-I | 显示gi号Show GI’s in deflines | [T/F] | F | |
-q | 核酸错配罚分 | [Integer] | -3 | blastn only |
-r | 核酸匹配得分 | [Integer] | 1 | blastn only |
-v | Number of database sequences to show one-line descriptions for (V) | [Integer] | 500 | |
-b | Number of database sequence to show alignments for (B) | [Integer] | 250 | |
-f | Threshold for extending hits | [Integer] | 0 | blastp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0 |
-g | Perform gapped alignment | [T/F] | T | not available with tblastx |
-Q | 指定询问序列使用的遗传密码 | [Integer] | 1 | |
-D | 指定数据使用的遗传密码 | [Integer] | 1 | for tblast[nx] only |
-a | 使用CPU的数目 | [Integer] | 1 | |
-O | SeqAlign file | [File Out] | 可选 | |
-J | Believe the query defline | [T/F] | F | |
-M | 比对使用的矩阵 | [String] | BLOSUM62 | |
-W | Word size | [Integer] | 0 | blastn 11, megablast 28, all others 3 |
-z | 数据库的有效长度Effective length of the databas | [Real] | 0 | use zero for the real size |
-K | Number of best hits from a region to keep | [Integer] | 0 | off by default, if used a value of 100 is recommended |
-P | 0 for multiple hit, 1 for single hit | [Integer] | 0 | does not apply to blastn |
-Y | Effective length of the search space | [Real] | 0 | use zero for the real size |
-S | Query strands to search against database | [Integer] | 3 | for blast[nx], and tblastx, 3 is both, 1 is top, 2 is bottom |
-T | 将结果保存为HTML格式 | [T/F] | F | |
-l | 通过gi号列表,限制搜索范围 | [String] | Optional | |
-U | Use lower case filtering of FASTA sequence | [T/F] | Optional | |
-y | X dropoff value for ungapped extensions in bits | [Real] | 0.0 | 0.0 invokes default behavior blastn 20, megablast 10, all others 7 |
-Z | X dropoff value for final gapped alignment in bits | [Integer] | 0 | blastn/megablast 50, tblastx 0, all others 25 |
-R | PSI-TBLASTN checkpoint file | [File In] | Optional | |
-n | MegaBlast search | [T/F] | F | |
-L | Location on query sequenc | [String] | Optional | |
-A | Multiple Hits window size | [Integer] | 0 | default if zero (blastn/megablast 0, all others 40) |
-w | Frame shift penalty | [Integer] | 0 | OOF algorithm for blastx |
-t | Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments | [Integer] | 0 | 0 invokes default behavior; a negative value disables linking. |
-B | Number of concatenated queries | [Integer] | 0 | for blastn and tblastn |
-V | Force use of the legacy BLAST en gine | [T/F] | F | Optional |
-C | Use composition-based statistics for tblastn | [String] | D | D or d: default (equivalent to F) 0 or F or f: no composition-based statistics 1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001 2: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, conditioned on sequence properties 3: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, unconditionally For programs other than tblastn, must either be absent or be D, F or 0. |
-s | Compute locally optimal Smith-Waterman alignments | [T/F] | F | This option is only available for gapped tblastn. |
1.1.2. 使用说明与示例
程序使用说明程序名 | 搜索序列 | 数据库 | 说明 | 备注 |
blastn | 核酸 | 核酸 | 用核酸序列搜索核酸数据库 | |
blastp | 蛋白质 | 蛋白质 | 用蛋白质(氨基酸)序列搜索蛋白质数据库 | 寻找较高分值的匹配,对较远关系的不太适用 |
blastx | 核酸 | 蛋白质 | 用核酸双链序列理论上的六种框架的所有翻译结果搜索蛋白质数据库,用于新的序列和ESTs的分析 | 转译搜索序列 |
tblastn | 蛋白质 | 核酸 | 用搜索的蛋白质和数据库中核酸的 | 用于寻找数据库中没有标注的编码区 |
tblastx | 核酸 | 核酸 |
比对命令示例
blastall-p blastn-i U00096.ffn -d ecoli-o U00096_Vs_ecoli_blastn.out -F F blastall-p blastp-i U00096.faa -d nr -o U00096_Vs_NR_blastp.htm -e 0.01 -b 1 -v 1 -T T blastall-p blastx-i U00096.ffn -d nr -o U00096_Vs_NR_blastx.htm -e 1e-5 -b 1 -v 1
我这里简单的补充一下输出文件的结构和
问询序列名称,再库里的名称,相似度,长度,gap,snp,问询序列的起始终止位置,在库里的起始终止位置
然后附带一个小程序
#!/usr/bin/perl -wuse strict;my @file;$file[0]=glob "*.fas";foreach my $tmp(@file){$tmp=~/(.+)\.fas/;system "formatdb –i $tmp –p F –o F –n $1";system "blastall -p blastn -i Nip_gene.fasta -d $1 -e 0.1 -o blast_$1.fas -F F -a 2 -m 8 -b 1 -v 1";}$1,替换成你的输出文件名称,程序里的所有$1都要替换!转自:以下网址,非常全面的总结http://zhangjian995.blog.163.com/blog/static/23116433201011144221233/引自:http://szypanther.blog.hexun.com/42675581_d.html 向他致敬!!!
相关文章推荐
- Android开发,Android项目打jar包,以及Http请求整合框架的使用(后付文件和使用方法)
- 使用Tessnet2_32.dll报未能加载文件或程序集或它的某一个依赖项。试图加载格式不正确的程序解决方法
- ASP.NET CS文件中输出JavaScript脚本的3种方法以及区别
- Net使用Microsoft.Office.Interop.Excel;创建Excel文件(插入数据、修改格式、生成图表)的方法,以及Excel查看加密
- 使用commons-compress解压GBK格式winzip文件到UTF8,以及错误使用ZipArchiveInputStream读出来数据全是空的解决办法
- tcpdump使用说明以及输出格式
- 【转载】matlab中将数据输出保存为txt格式文件的方法
- hadoop---自定义输出文件格式以及输出到不同目录
- ASP+FSO生成的网页文件默认编码格式以及转换成UTF-8编码方法
- pdf转换成word格式以及pdf文件编辑的方法
- ASP.NET CS文件中输出JavaScript脚本的3种方法以及区别
- php将数组转换成csv格式文件输出的方法
- 在VS.NET2005中使用java代码段以及SOL文件格式的解析
- ubuntu 文件权限命令详解使用格式和方法
- 获取FirefoxProfile配置文件以及使用方法介绍
- 【原创】将数据生成json文件下载以及json中文乱码和优化json文件格式的方法
- NetworkX学习笔记-3-Python中输出Gephi文件格式的方法
- HTML 5 应用程序缓存(Application Cache)cache manifest 文件使用 html5 中创建manifest缓存以及更新方法 一个manifest文件会创建一份缓存,不同的manifest文件其缓存的内容是互不干扰的
- 文件格式配置文件weka频繁模式挖掘使用方法
- [PHP Excel 输出]使用 PHP 输出带格式的 Excel 文件