FASTQ format - Raw Data Read
FASTQ format은 FASTA format에서 유래된 텍스트 파일(.txt) 입니다. 이 format은 FASTA 서열에 quality score를 합쳐서 Wellcome Trust Sanger Institute에서 개발 하였습니다.
FASTQ는 서열 당 4개의 줄로 이루어진 flat txt file로 서열(Base call)과 quality score (아스키 문자)를 같은 파일에 담고 있습니다. Quality score (Q)는 p (해당하는 base call이 틀릴 확률)의 mapping된 정수 입니다.
Line 1: @seqName (description - 선택적)
Line 2: Sequence
Line 3: +
Line 4: Quality score (16진수 형태, 아스키 문자)
예제:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!’’*((((***+))%%%++)(%%%%).1***-+*’’))**55CCF>>>>>>CCCCCCC65
'생물정보학 > Genomics' 카테고리의 다른 글
GTF/GFF2 to GFF3 (0) | 2016.06.08 |
---|---|
FASTQC – Raw Data Quality Control (0) | 2016.01.11 |
FASTA format - Raw Data (0) | 2016.01.11 |
BED format (0) | 2016.01.11 |
BAM format (0) | 2016.01.07 |