생물정보학/Genomics

SAM format (Sequence Alignment/MAP format) - Alignments

케이든 2016. 1. 7. 13:00

 

SAM format (Sequence Alignment/MAP format) - Alignments

 

SAM은 sequence alignment data를 담고 있는 tab으로 나누어진 텍스트 파일(.txt)로 alignment/mapping 정보를 보고하는 산업 기준 입니다. SAM은 자매 형태인 압축되고, 색인화 되고, binary 형태인 BAM format의 사람이 읽기 가능한 버전입니다. Samtools는 SAM 파일들을 다루는데 필요한 software package 입니다.

 

SAM은 alignment 파일로 일반적으로 reference genome에 FASTQ 파일을 mapping 시킨 결과 입니다. (@로 시작하는) header 부분은 각 chromosome에 mapping된 정보를 가지고 있습니다. Aligned reads는 각 alignment 당 한 줄로 보여집니다.

 

SAM alignment의 컬럼:

+ Read Name

+ SAM flag

+ Chromosome (만약에 align된 read가 없으면 "*"로 표시)

+ Position (1-based index, "read의 왼쪽 끝")

+ MAPQ (mapping quality - alignment의 특이성(uniqueness)을 묘사, 0=특이성 없음, >10 아마도 특이함)

+ CIGAR string (alignment 안의 insertions/deletions/matches의 위치 묘사 및 splice junctions의 부호화)

+ Name of mate (paired-end sequencing의 mate pair 정보, 종종 "=")

+ Position of mate (mate pair 정보)

+ Template length

+ Read Sequence

+ Read Quality

+ Program specific Flags (i.e. HI:i:0, MD:Z:66G6, etc.)

 

예제:

Header 부분

@HD VN:1.0 SO:coordinate
@SQ SN:1 LN:249250621 AS:NCBI37 UR:file:/data/local/ref/GATK/human_g1k_v37.fasta M5:1b22b98cdeb4a9304cb5d48026a85128
@SQ SN:2 LN:243199373 AS:NCBI37 UR:file:/data/local/ref/GATK/human_g1k_v37.fasta M5:a0d9851da00400dec1098a9255ac712e
@SQ SN:3 LN:198022430 AS:NCBI37 UR:file:/data/local/ref/GATK/human_g1k_v37.fasta M5:fdfd811849cc2fadebc929bb925902e5
@RG ID:UM0098:1 PL:ILLUMINA PU:HWUSI-EAS1707-615LHAAXX-L001 LB:80 DT:2010-05-05T20:00:00-0400 SM:SD37743 CN:UMCORE
@RG ID:UM0098:2 PL:ILLUMINA PU:HWUSI-EAS1707-615LHAAXX-L002 LB:80 DT:2010-05-05T20:00:00-0400 SM:SD37743 CN:UMCORE
@PG ID:bwa VN:0.5.4
@PG ID:GATK TableRecalibration VN:1.0.3471 CL:Covariates=[ReadGroupCovariate, QualityScoreCovariate, CycleCovariate, DinucCovariate, TileCovariate], default_read_group=null, default_platform=null, force_read_group=null, force_platform=null, solid_recal_mode=SET_Q_ZERO, window_size_nqs=5, homopolymer_nback=7, exception_if_no_tile=false, ignore_nocall_colorspace=false, pQ=5, maxQ=40, smoothing=1

 

Aligned Reads 부분

1:497:R:-272+13M17D24M 113 1 497 37 37M 15 100338662 0 CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG 0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>> XT:A:U NM:i:0 SM:i:37 AM:i:0 X0:i:1 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:37
19:20389:F:275+18M2D19M 99 1 17644 0 37M = 17919 314 TATGACTGCTAATAATACCTACACATGTTAGAACCAT >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9 RG:Z:UM0098:1 XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:4 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:37
19:20389:F:275+18M2D19M 147 1 17919 0 18M2D19M = 17644 -314 GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT ;44999;499<8<8<<<8<<><<<<><7<;<<<>><< XT:A:R NM:i:2 SM:i:0 AM:i:0 X0:i:4 X1:i:0 XM:i:0 XO:i:1 XG:i:2 MD:Z:18^CA19
9:21597+10M2I25M:R:-209 83 1 21678 0 8M2I27M = 21469 -244 CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT <;9<<5><<<<><<<>><<><>><9>><>>>9>>><> XT:A:R NM:i:2 SM:i:0 AM:i:0 X0:i:5 X1:i:0 XM:i:0 XO:i:1 XG:i:2 MD:Z:35

 

출처: http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_data_file_formats.html#sam

 

http://genome.sph.umich.edu/wiki/SAM

 

'생물정보학 > Genomics' 카테고리의 다른 글

FASTQ format - Raw Data Read  (0) 2016.01.11
FASTA format - Raw Data  (0) 2016.01.11
BED format  (0) 2016.01.11
BAM format  (0) 2016.01.07
GFF/GTF 다른 점과 변환하는 방법  (0) 2014.04.29