BLAST+本地化

1、从NCBI下载对应系统的BLAST+程序
NCBI推荐使用BLAST+,老版本的BLAST已经停止更新!BLAST+与BLAST相比,有很多改进和提高。
BLAST+:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
老版本BLAST:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/

2、解压,将程序路径添加到环境变量
我的系统是Ubuntu 14.04 64位,选择的程序是ncbi-blast-2.2.30+-x64-linux.tar.gz。
tar –zxvf ncbi-blast-2.2.30+-x64-linux.tar.gz
vi ~/.bashrc
在末尾添加:
export PATH=/home/biochen/bin/blast/bin:$PATH
这里的路径视具体情况而定。
更新,使配置生效:
source ~/.bashrc

3、从NCBI下载数据库
下载地址:ftp://ftp.ncbi.nih.gov/blast/db/
有关每个文件的含义请阅读README文件。下面摘录几种:
human_genomic.gz 人类基因组序列
nr.gz 来源于GenPept, Swissprot, PIR, PDF, PDB, and RefSeq的非冗余蛋白质序列
nt.gz 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的
htg.gz 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列

4、格式化数据库
BLAST+使用makeblastdb命令格式化数据库。老版本BLAST使用formatdb命令。
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out db_name
参数说明:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-out:数据库名

5、BLAST+运行
BLAST+提供多种比对程序:
blastp: 用蛋白质序列搜索蛋白质序列库
balstn: 用核酸序列搜索核酸库
blastx:核酸序列对蛋白库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
tblastx:核酸序列对核酸库在蛋白质级别的比对,两者都在搜索之前翻译城蛋白质进行比对
核酸序列比对核酸数据库(blastn):
blastn -query seq.fasta -out out.txt -db dbname -evalue 1e-5 -num_threads 8
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-evalue:设置输出结果的e-value值
-num_threads:线程数
其他程序比对跟blastn相似,更多参数可以用-help查询。

6、wwwblast
感兴趣的朋友,还可以通过wwwblast将本地化的blast+制作成像NCBI那样的网页版。
下载地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/
按照官方说明,安装Apache 架设网站和对wwwblast进行简单配置。