使用CPAT分析lncRNA

CPAT(Coding Potential Assessment Tool)可以从RNA-Seq分析得到的转录本中筛选出编码的和非编码的RNA。
文章发表在Nucleic Acids Research:http://nar.oxfordjournals.org/content/41/6/e74.long
代码托管在SourceForge:http://rna-cpat.sourceforge.net/

安装:
安装CPAT前,需要安装gcc、python2.7、numpy、cython、R。我的系统是Ubuntu 14.04 64,gcc和python2.7已经安装好了,其他三个使用如下命令安装:
sudo apt-get install r-base-core
sudo apt-get install cython
sudo apt-get install python-numpy
下载最新版本CPAT1.22,按照说明安装
tar -zxvf CPAT-1.2.2.tar.gz
cd CPAT-1.2.2
sudo python setup.py install

运行CPAT:
cpat.py -r hg19.fa -g Human_test_coding_mRNA_hg19.bed -d ../dat/Human_logitModel.RData -x ../dat/Human_Hexamer.tsv -o output
参数说明:
-r 指定参考基因组
-g 输入的转录本序列。如果是BED格式,必须-r指定参考基因组;如果是FASTA格式,不需要指定参考基因组,即使使用-r参数也会被忽略。
-d 预制好的模型(Prebuilt training model)(CPAT自带人、鼠、果蝇、斑马鱼的模型)
-x 预制好的六聚体频率表(Prebuilt hexamer frequency table)(CPAT自带人、鼠、果蝇、斑马鱼的六聚体频率表)
-o 输出

CPAT优点:速度极快!