Windows下用U盘安装Ubuntu双系统。

很多生物信息学工具必须运行在linux系统下,如果只是想学习linux可以在windows中使用虚拟机安装linux系统,但是虚拟机开机后占用系统资源很多,容易使电脑非常卡。安装双系统后运行速度非常快。
1、使用UltraISO制作Ubuntu启动U盘
下载UltraISO试用版(也可百度一个破解版):
http://www.ezbsys.net/dl2.php?file=uiso9_cn.exe
下载Ubuntu 14.04 镜像文件
http://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/14.04.1/ubuntu-14.04.1-desktop-amd64.iso
使用UltraISO将Ubuntu 14.04 镜像文件写入U盘。
UltraISO1 UltraISO2
 
 
 
 
 
 
 
 
 
 
 
 
2、在windows下面删除最后一个磁盘分区
因为linux分区方式跟windows是不一样的,不会有C盘、D盘什么的。在安装过程中,一些新手安装linux会把windows系统或者数据破坏了。这里我们删除最后一个磁盘分区,用于安装Ubuntu。安装过程中,无需分区和指定安装位置,只需选择“和window是系统共存”,Ubuntu会自动安装到这个分区而不会破坏原有的windows和数据。
delete
 
 
 
 
 
 
3、使用U盘启动,安装Ubuntu
安装过程和在虚拟机中安装Ubuntu基本一致,注意选择“和windows系统共存”!
参看另一篇博文:使用VirtualBox安装Ubuntu 14.04
安装好之后,Ubuntu会自己生成启动菜单,可以选择启动windows或者Ubuntu。
 

BLAST+本地化

1、从NCBI下载对应系统的BLAST+程序
NCBI推荐使用BLAST+,老版本的BLAST已经停止更新!BLAST+与BLAST相比,有很多改进和提高。
BLAST+:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
老版本BLAST:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/

2、解压,将程序路径添加到环境变量
我的系统是Ubuntu 14.04 64位,选择的程序是ncbi-blast-2.2.30+-x64-linux.tar.gz。
tar –zxvf ncbi-blast-2.2.30+-x64-linux.tar.gz
vi ~/.bashrc
在末尾添加:
export PATH=/home/biochen/bin/blast/bin:$PATH
这里的路径视具体情况而定。
更新,使配置生效:
source ~/.bashrc

3、从NCBI下载数据库
下载地址:ftp://ftp.ncbi.nih.gov/blast/db/
有关每个文件的含义请阅读README文件。下面摘录几种:
human_genomic.gz 人类基因组序列
nr.gz 来源于GenPept, Swissprot, PIR, PDF, PDB, and RefSeq的非冗余蛋白质序列
nt.gz 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的
htg.gz 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列

4、格式化数据库
BLAST+使用makeblastdb命令格式化数据库。老版本BLAST使用formatdb命令。
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out db_name
参数说明:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-out:数据库名

5、BLAST+运行
BLAST+提供多种比对程序:
blastp: 用蛋白质序列搜索蛋白质序列库
balstn: 用核酸序列搜索核酸库
blastx:核酸序列对蛋白库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
tblastx:核酸序列对核酸库在蛋白质级别的比对,两者都在搜索之前翻译城蛋白质进行比对
核酸序列比对核酸数据库(blastn):
blastn -query seq.fasta -out out.txt -db dbname -evalue 1e-5 -num_threads 8
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-evalue:设置输出结果的e-value值
-num_threads:线程数
其他程序比对跟blastn相似,更多参数可以用-help查询。

6、wwwblast
感兴趣的朋友,还可以通过wwwblast将本地化的blast+制作成像NCBI那样的网页版。
下载地址:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/
按照官方说明,安装Apache 架设网站和对wwwblast进行简单配置。

使用VirtualBox安装Ubuntu 14.04

生物信息学很多工具都需要在linux下面运行,Ubuntu是一个非常优秀Linux发行版。Virtual Box是一款功能强大且免费的虚拟机软件。利用Virtual Box在windows平台下试用Ubuntu Linux系统是一个非常好的选择。熟悉Linux的安装及使用之后,可以考虑安装Windows+Linux双系统。
从下载最新版本的Virtual Box,并安装。下载Ubuntu 14.04 64位版本。http://download.virtualbox.org/virtualbox/4.3.26/VirtualBox-4.3.26-98988-Win.exe
http://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/14.04.1/ubuntu-14.04.1-desktop-amd64.iso
打开Virtual Box,“新建”虚拟机,选择“Linux” 的Ubuntu(64 bit)版本。
VirtualBox01
 
 
 
 
 
 
配置内存,硬盘,并创建虚拟机。
VirtualBox02
 
 
 
 
 
 
VirtualBox03
 
 
 
 
 
 
 
VirtualBox04
 
 
 
 
 
 
 
VirtualBox05
 
 
 
 
 
 
 
VirtualBox06
 
 
 
 
 
 
 
打开设置,将Ubuntu安装文件添加进虚拟光盘。
VirtualBox07
 
 
 
 
 
启动刚刚创建的虚拟机,按照提示进行Ubuntu的安装。
Ubuntu01 Ubuntu02 Ubuntu03 Ubuntu04 Ubuntu05 Ubuntu06 Ubuntu07 Ubuntu08
 
 

生物信息学常用文件格式

FASTA格式

序列文件的第一行是由大于符号>打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。
>sequence info
GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC

FASTQ格式

FASTQ格式的序列一般都包含有四行,第一行由’@’开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由’+’开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价,字符数跟第二行的序列是相等的。
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65

BED 格式

BED文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有三个必须的列和九个额外可选的列。 每行的数据格式要求一致。
必须包含的三列:
1.chrom,染色体或scafflold 的名字
2.chromStart,序列在染色体或scaffold的起始位置
3.chromEnd,序列在染色体或scaffold的结束位置
九个额外的可选列:
4. name 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。
5. score 0到1000的分值
6. strand 定义链的方向,”+” 或者”-”
7. thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)
8. thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置)
9. itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0, 0), 如果itemRgb设置为’On”, 这个RBG值将决定数据的显示的颜色。
10. blockCount BED行中的block数目,也就是外显子数目。
11. blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目。
12. blockStarts 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应。

(以后再慢慢加!)