使用CNCI分析lncRNA

CNCI是中科院计算所赵屹团队开发的一款从转录组中分析编码RNA和非编码RNA的软件。赵屹团队在非编码RNA领域做了很多出色的工作,建立了目前最权威的非编码RNA数据库NONCODE。
文章发表在Nucleic Acids Research:http://nar.oxfordjournals.org/content/early/2013/08/06/nar.gkt646.long
Github主页:https://github.com/www-bioinfo-org/CNCI
CNCI的安装:
CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。
tar zxvf CNCI_version2.tar.gz
cd CNCI_package
unzip libsvm-3.0.zip
cd libsvm-3.0
make
cd ..
CNCI的运行:
基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m ve -p 4
参数说明:
-f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)
-o 输出结果目录
-m 指定模式,脊椎动物选择ve,植物选择pl
-p 指定CPU核数
更多用法参看帮助文档
小提示:
CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。
fasta文件中的注释,也就是”>”开头的那一行,不要有空格,可能也会报错。如果有空格,考虑将空格替换为下划线。
软件有点小瑕疵吧……

开博两年了

读本科那会儿,写博客、写日志、弄QQ空间的人很多。大学一同学,写了4年博客,我也看了4年。毕业后,他不写了……然后,微博流行起来了,再后来又是微信,进入了移动互联网的时代……大家喜欢阅读短小的文字,喜欢在手机上阅读……不知道曾经我看他博客的那位同学,是否也来看过我写的东西……
2013年6月21日,注册了这个域名,用WordPress搭建了这个博客。那个时候,有一个问题让我疼了,后来借助网友的经验找到了解决办法,于是也想要把自己的一些东西也分享出来。再后来我把这个博客定位为:“学习专业知识,与大家分享”。
我从来就不是一个善于写文章的人,现在的博客才20篇左右。我也不是什么牛人,甚至可以说是一个标准的loser:普通本科毕业,毕业后工作不顺心,然后又回到这个普通的学校成为一名普通的硕士研究生。感谢互联网,让我这样的屌丝也能写点不入流的东西。
某天突然忘记了一个命令的参数,恰好博客上面有写,于是马上打开看看。不知道我的博客是否能够帮助到其他人,但是确实帮助了我自己。为了自己,为了其他像我这样人,我将继续写下去。
期待下一个两年……

2014最新SCI影响因子

影响因子(Impact Factor,IF)是美国ISI(科学信息研究所)的JCR(期刊引证报告)中的一项数据。 即某期刊前两年发表的论文在这两年中被引用总次数除以该期刊在这两年内发表的论文总数。
科研工作者,其工作的好坏主要体现在他发表的论文。然而,一篇论文的好坏,真的很难客观地评价。有了影响因子因子这玩意,事情就好办多了。硕博士毕业要发表多少点的文章,老师发表文章每点奖励多少钱,晋升职称需要要什么级别的文章以及需要多少篇,……,很多学校或者科研院所对此都是有明确规定的。后来,觉得光是有影响因子还不过瘾,中科院又对杂志进行了分区。
既然世道如此,那么我们不可不关注一下各个杂志的影响因子变化,毕竟这个关系到切身利益。2014IF.xlsx

使用CPC分析lncRNA

CPC是最早的从转录组中分析lncRNA的软件,很多lncRNA研究中用的都是它。它基于blast,把未知转录本和已知蛋白库对比,从而筛选出编码和非编码的转录本。CPC可靠性很高,缺点就是太慢太慢了,需要几天时间。CPC可以在网页版上提交任务,运行好了,将结果下载下来。
文章发表在Nucleic Acids Research:http://nar.oxfordjournals.org/content/35/suppl_2/W345.long
主页:http://cpc.cbi.pku.edu.cn/
CPC安装前需要:
CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。
老版本的blast下载地址:http://yunpan.cn/cwGh5BSDbdYIe 访问密码 9df4
需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。
CPC的安装:
下载cpc-0.9-r2.tar.gz
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean && make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean && make
建立本地blast数据库:
cd cpc-0.9-r2/data
formatdb -i (your_fasta_file) -p T -n prot_db
运行CPC:
cd cpc-0.9-r2/
bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)
run_predict.sh好像是远程blast,建议运行run_predict_local.sh,并把这个文件中blast_opts=”$blast_opts -a 2″; # 2CPUs, boost the performance这句话中的2,改成你实际电脑使用的CPU核数。

谈谈精准医疗

美国人早在2011年就提出要搞精准医疗,今年奥巴马政府启动了精准医疗计划,中国于是跟进了。有一些院士力挺,也有一些院士唱衰。这给我们带来了困扰,到底精准医疗要做什么?
最近看了Toward Precision Medicine(http://www.ncbi.nlm.nih.gov/books/NBK91503/),这是老美的路线图。就像当年的人类基因组计划那样,这次老美还是想颠覆整个生物医学。人类基因组计划多大程度上改变了医学我不敢说,但是其对生命科学研究的影响那是翻天覆地的。根据这份文件,精准医疗的重点是,基于分子生物学知识结合临床建立一套新的疾病分类系统。
我们去医院看病,大抵就是医生询问了病情,然后用仪器做一些检查,然后告诉我们得了什么病。根据症状诊断疾病,依据的是现代医学100多年来建立的一套疾病分类系统。这套系统不是不好,而是分类的粒度不够细,也就是不够精准。经常会发现被诊断成“相同”病的病人的疗效差异很大,精准医疗就是要解决这个问题。有人也许会问,我们去医院检测了血糖、血脂、转氨酶等一系列生化指标,这不是分子生物学吗?一般我们所说的分子生物学研究的是生物大分子,主要是DNA、RNA、蛋白质,它们的分子量上万,克里克的中心法则是分子生物学的纲领。未来的看病的标配,常规手段之后,可能就要加上分子生物学水平的检测,比如检测你的基因(DNA)或者蛋白质方面的差异。我想对于大部分搞分子生物学的人来说,应该很容易理解分子生物学水平上检测(尤其是单碱基、单氨基酸水平)带来的精准性。分子生物学知识本身并不能建立这样的一套分类系统,结合临床才有意义,毕竟最后还是要给人看病的嘛。
最近以无创产前检测为代表的基因检测很火,相关公司的股票涨上天了,有人把基因检测等同于精准医疗。搞生物信息的人又说,精准医疗是测序加生物信息分析。这些都应该是精准医疗的一部分,而不是全部。当然精准医疗还在发展之中,最终究竟成什么样子,还不知道呢。以上论述,是我读Toward Precision Medicine的一点感想吧,欢迎大家批评指正,促进我的学习。
上个世纪末,老美主导了人类基因组计划,投了几十亿美元,成果由全人类共享。也许有人会说,老美傻啊。但事实上,今天的整个相关产业都被美国控制,其价值远不止几十亿美元。希望在精准医疗上面,国家、社会、业界能有足够的重视,更多的参与进来。