FASTA format - Raw Data
FASTA format은 FASTA software package에서 유래된 텍스트 파일(.txt)로 같은 파일 안에 서열(base call)과 한 줄의 서열에 대한 설명(header)이 저장되어 있습니다. 이것은 text-processing tools 또는 프로그래밍 언어 (Perl, Python, Ruby 등)들이 서열에 대한 파싱(parsing)을 쉽게 할 수 있도록 해줍니다.
FASTA는 flat text file로 뉴클레오타이드 서열(RNA 또는 DNA) 또는 펩타이드 서열(amino acids)를 나타냅니다. 서열 이름과 주석이 서열 앞에 있습니다.
Line 1: 한 줄 묘사, ">"로 시작하여 표시
Line 2-n: 서열 데이터 라인 (한줄에 120 문자 이하)
예졔:
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFL
PDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYM
VYASQETFGF
'생물정보학 > Genomics' 카테고리의 다른 글
FASTQC – Raw Data Quality Control (0) | 2016.01.11 |
---|---|
FASTQ format - Raw Data Read (0) | 2016.01.11 |
BED format (0) | 2016.01.11 |
BAM format (0) | 2016.01.07 |
SAM format (Sequence Alignment/MAP format) - Alignments (0) | 2016.01.07 |