illumina提供的打包好的参考序列、注释信息、index文件

Ensembl,NCBI,UCSC三大平台多个物种的全基因组参考序列、基因注释文件,还包括了BWA、Bowtie、Bowtie2的index文件。原网址为:http://support.illumina.com/sequencing/sequencing_software/igenome.html

The iGenomes are a collection of reference sequences and annotation files for commonly analyzed organisms. The files have been downloaded from Ensembl, NCBI, or UCSC, and chromosome names have been changed to be simple and consistent with their download source. Each iGenome is available as a compressed file that contains sequences and annotation files for a single genomic build of an organism.
For more information, see the iGenomes Overview and Change Log.
Species Source Build(s)
Arabidopsis thaliana Ensembl TAIR10 TAIR9
NCBI TAIR10 build9.1
Bacillus_cereus strain ATCC 10987 NCBI 2003-02-13
Bacillus_subtilis strain 168 Ensembl EB2
Bos taurus (Cow) Ensembl UMD3.1 Btau_4.0
NCBI UMD_3.1 Btau_4.6.1 Btau_4.2
UCSC bosTau7 bosTau6 bosTau4
Caenorhabditis elegans Ensembl WBcel235 WBcel215 WS210
NCBI WS195 WS190
UCSC ce10 ce6
Canis familiaris (Dog) Ensembl CanFam3.1 BROADD2
NCBI build3.1 build2.1
UCSC canFam3 canFam2
Danio rerio (Zebrafish) Ensembl Zv9
NCBI Zv9
UCSC danRer7
Drosophila melanogaster Ensembl BDGP5 BDGP5.25
NCBI build5.41 build5.3 build5 build4.1
UCSC dm3
Enterobacteriophage lambda NCBI 1993-04-28
Equus caballus (Horse) Ensembl EquCab2
NCBI EquCab2.0
UCSC equCab2
Escherichia coli strain K12, DH10B Ensembl EB1
NCBI 2008-03-17
Escherichia coli strain K12, MG1655 NCBI 2001-10-15
Gallus gallus (Chicken) Ensembl Galgal4 WASHUC2
NCBI build3.1 build2.1
UCSC galGal4 galGal3
Glycine max Ensembl Gm01
Homo sapiens Ensembl GRCh37
NCBI build37.2 build37.1 build36.3
UCSC hg19 hg18
Macaca mulatta Ensembl Mmul_1
Mus musculus (Mouse) Ensembl GRCm38 NCBIM37
NCBI GRCm38 build37.2 build37.1
UCSC mm10 mm9
Mycobacterium tuberculosis strain H37Rv.EB1 Ensembl H37Rv.EB1
NCBI 2001-09-07
Oryza sativa japonica (Rice) Ensembl IRGSP-1.0 MSU6
Pan troglodytes (Chimpanzee) Ensembl CHIMP2.1.4 CHIMP2.1
NCBI build3.1 build2.1
UCSC panTro4 panTro3 panTro2
PhiX Illumina RTA
NCBI 1993-04-28
Pseudomonas aeruginosa strain PAO1 NCBI 2000-09-13
Rattus norvegicus (Rat) Ensembl Rnor_5.0 RGSC3.4
NCBI Rnor_5.0 RGSC_v3.4
UCSC rn5 rn4
Rhodobacter sphaeroides strain 2.4.1 NCBI 2005-10-07
Saccharomyces cerevisiae (Yeast) Ensembl R64-1-1 EF4 EF3 EF2
NCBI build3.1 build2.1
UCSC sacCer3 sacCer2
Schizosaccharomyces pombe Ensembl EF2 EF1
Sorangium cellulosum strain So_ce_56 NCBI 2007-11-27
Sorghum bicolor Ensembl Sbi1
Staphylococcus aureus strain NCTC 8325 NCBI 2006-02-13
Sus scrofa (Pig) Ensembl Sscrofa10.2 Sscrofa9
NCBI Sscrofa10.2 Sscrofa10 Sscrofa9.2
UCSC susScr3 susScr2
Zea mays (Corn) Ensembl AGPv3 AGPv2

生物实验中的对照(control)

生物实验中,对照(control)是必不可少的。怎么做对照是一个学问,当年上“生命科学研究方法”课程时,老师讲整整3个小时还意犹未尽。这里谈谈我的看法。
在我看来,对照可以分为阳性对照(positive control)和阴性对照(negative control)。
阳性对照,是一定能做出来的,如果做不出来,那说明你的实验体系有问题。在小木虫上,经常有人构建质粒做了很久一直做不出来,发帖求助。构建质粒涉及到PCR、酶切、连接、转化等多个步骤,可能出问题的点很多。你可以随便扩增一段片段,连接到T载体上面,如果能顺利构建出来,PCR、连接、转化等基本上是没有问题的。从多克隆位点处对载体进行线性化,很难判断载体是否完全切开。用试剂盒提取出来的质粒,一般不会出现超螺旋、开环、线性三种构象,而且大载体的这三种构象也不好区分。如果想验证限制性内切酶是否好用,应该从你的质粒库选一个酶切后片段很分明的质粒去做酶切。当做完足够多的阳性对照后,基本上可以排除实验体系的问题了。这时,你的实验还做不出来,可以考虑优化条件了。不建议盲目地重复或者优化失败的实验。一个优秀实验员(应该写得出一手号代码,开个玩笑),不仅拥有丰富的知识、充足的经验、娴熟的技巧,更重要的是必胜的信念。做阳性对照,能大大提升你对实验成功的信心,因为它是很容易也一定能做出来的。
阴性对照,是一定做不出来的,如果做出来了,那说明你的实验结果不可信。当你想通过实验说明某个因果关系时,有人会反驳你这个果未必是这个因引起的,可能还存在“小三”。那你这个时候,做个阴性对照,来control掉这个“小三”。
总结一下,实验结果阴性(就是没做出想要的结果啦),看阳性对照,如果阳性对照阴性,实验体系有问题;实验结果阳性(就是结果很好),看阴性对照,如果阴性对照阳性,实验结果不可信。

使用CPAT分析lncRNA

CPAT(Coding Potential Assessment Tool)可以从RNA-Seq分析得到的转录本中筛选出编码的和非编码的RNA。
文章发表在Nucleic Acids Research:http://nar.oxfordjournals.org/content/41/6/e74.long
代码托管在SourceForge:http://rna-cpat.sourceforge.net/
安装:
安装CPAT前,需要安装gcc、python2.7、numpy、cython、R。我的系统是Ubuntu 14.04 64,gcc和python2.7已经安装好了,其他三个使用如下命令安装:
sudo apt-get install r-base-core
sudo apt-get install cython
sudo apt-get install python-numpy
下载最新版本CPAT1.22,按照说明安装
tar -zxvf CPAT-1.2.2.tar.gz
cd CPAT-1.2.2
sudo python setup.py install
运行CPAT:
cpat.py -r hg19.fa -g Human_test_coding_mRNA_hg19.bed -d ../dat/Human_logitModel.RData -x ../dat/Human_Hexamer.tsv -o output
参数说明:
-r 指定参考基因组
-g 输入的转录本序列。如果是BED格式,必须-r指定参考基因组;如果是FASTA格式,不需要指定参考基因组,即使使用-r参数也会被忽略。
-d 预制好的模型(Prebuilt training model)(CPAT自带人、鼠、果蝇、斑马鱼的模型)
-x 预制好的六聚体频率表(Prebuilt hexamer frequency table)(CPAT自带人、鼠、果蝇、斑马鱼的六聚体频率表)
-o 输出
CPAT优点:速度极快!