생물정보학/Genomics

FASTQ format - Raw Data Read

케이든 2016. 1. 11. 17:27

 

FASTQ format - Raw Data Read

 

FASTQ format은 FASTA format에서 유래된 텍스트 파일(.txt) 입니다. 이 format은 FASTA 서열에 quality score를 합쳐서 Wellcome Trust Sanger Institute에서 개발 하였습니다.

 

FASTQ는 서열 당 4개의 줄로 이루어진 flat txt file로 서열(Base call)과 quality score (아스키 문자)를 같은 파일에 담고 있습니다. Quality score (Q)는 p (해당하는 base call이 틀릴 확률)의 mapping된 정수 입니다.

 

Line 1: @seqName (description - 선택적)

Line 2: Sequence

Line 3: +

Line 4: Quality score (16진수 형태, 아스키 문자)

 

예제:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!’’*((((***+))%%%++)(%%%%).1***-+*’’))**55CCF>>>>>>CCCCCCC65

 

출처: http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_data_file_formats.html#fastq

'생물정보학 > Genomics' 카테고리의 다른 글

GTF/GFF2 to GFF3  (0) 2016.06.08
FASTQC – Raw Data Quality Control   (0) 2016.01.11
FASTA format - Raw Data  (0) 2016.01.11
BED format  (0) 2016.01.11
BAM format  (0) 2016.01.07