生物信息学常用文件格式

FASTA格式

序列文件的第一行是由大于符号>打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。

>sequence info
GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC

FASTQ格式

FASTQ格式的序列一般都包含有四行,第一行由’@’开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由’+’开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价,字符数跟第二行的序列是相等的。

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65

BED 格式

BED文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有三个必须的列和九个额外可选的列。 每行的数据格式要求一致。
必须包含的三列:
1.chrom,染色体或scafflold 的名字
2.chromStart,序列在染色体或scaffold的起始位置
3.chromEnd,序列在染色体或scaffold的结束位置

九个额外的可选列:
4. name 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。
5. score 0到1000的分值
6. strand 定义链的方向,”+” 或者”-”
7. thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)
8. thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置)
9. itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0, 0), 如果itemRgb设置为’On”, 这个RBG值将决定数据的显示的颜色。
10. blockCount BED行中的block数目,也就是外显子数目。
11. blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目。
12. blockStarts 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应。

(以后再慢慢加!)