FASTA format - Raw Data

생물정보학/Genomics

FASTA format - Raw Data

케이든 2016. 1. 11. 17:12

FASTA format은 FASTA software package에서 유래된 텍스트 파일(.txt)로 같은 파일 안에 서열(base call)과 한 줄의 서열에 대한 설명(header)이 저장되어 있습니다. 이것은 text-processing tools 또는 프로그래밍 언어 (Perl, Python, Ruby 등)들이 서열에 대한 파싱(parsing)을 쉽게 할 수 있도록 해줍니다.

FASTA는 flat text file로 뉴클레오타이드 서열(RNA 또는 DNA) 또는 펩타이드 서열(amino acids)를 나타냅니다. 서열 이름과 주석이 서열 앞에 있습니다.

Line 1: 한 줄 묘사, ">"로 시작하여 표시

Line 2-n: 서열 데이터 라인 (한줄에 120 문자 이하)

예졔:

>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]

MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFL
PDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYM

VYASQETFGF

출처: http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_data_file_formats.html#fasta

저작자표시 비영리 변경금지 (새창열림)

'생물정보학 > Genomics' 카테고리의 다른 글

FASTQC – Raw Data Quality Control (0)	2016.01.11
FASTQ format - Raw Data Read (0)	2016.01.11
BED format (0)	2016.01.11
BAM format (0)	2016.01.07
SAM format (Sequence Alignment/MAP format) - Alignments (0)	2016.01.07

현재글FASTA format - Raw Data

Khydyn's Plant Pathology Blog

과학, vi, HTML, 음료수, 곰팡이, 진화, 생물정보학, 계통학, 식물병, 식물,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Khydyn's Plant Pathology Blog