생물정보학/Genomics

FASTA format - Raw Data

케이든 2016. 1. 11. 17:12

FASTA format - Raw Data

 

FASTA format은 FASTA software package에서 유래된 텍스트 파일(.txt)로 같은 파일 안에 서열(base call)과 한 줄의 서열에 대한 설명(header)이 저장되어 있습니다. 이것은 text-processing tools 또는 프로그래밍 언어 (Perl, Python, Ruby 등)들이 서열에 대한 파싱(parsing)을 쉽게 할 수 있도록 해줍니다.

 

FASTA는 flat text file로 뉴클레오타이드 서열(RNA 또는 DNA) 또는 펩타이드 서열(amino acids)를 나타냅니다. 서열 이름과 주석이 서열 앞에 있습니다.

 

Line 1: 한 줄 묘사, ">"로 시작하여 표시

Line 2-n: 서열 데이터 라인 (한줄에 120 문자 이하)

 

예졔:

>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]

MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFL
PDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYM

VYASQETFGF

 

출처: http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_data_file_formats.html#fasta

'생물정보학 > Genomics' 카테고리의 다른 글

FASTQC – Raw Data Quality Control   (0) 2016.01.11
FASTQ format - Raw Data Read  (0) 2016.01.11
BED format  (0) 2016.01.11
BAM format  (0) 2016.01.07
SAM format (Sequence Alignment/MAP format) - Alignments  (0) 2016.01.07