생물정보학/Genomics

BED format

케이든 2016. 1. 11. 11:02

 

BED format

 

BED (Browser Extensible Data) format은 annotation track 위에 보여지는 data lines를 정의하는데 유연한 방법을 제공합니다. BED lines는 3가지의 필수적 필드(Fields)가 있고, 추가적으로 9가지의 선택적 필드가 있습니다. Annotation track안의 모든 data의 line 당 필드의 숫자는 모두 균일해야 합니다. 선택적 필드의 순서는 상위 필드를 사용할 경우 하위 필드가 모두 채워져 있어야 합니다.

 

만약에 data가 BED 형태이지만 매우 크고 (over 50MB) 서버에 보관하고 싶다면, bigBed data format을 사용할 수 있습니다.

 

첫 번째 3가지의 필수 BED 필드:

1. chrom - chromosome 또는 scaffold의 이름 (e.g. chr3, chrY, chr2_random, scaffold10671)

2. chromStart - chromosome 또는 scaffold의 시작 위치. Chromosome의 첫 번째 염기의 번호는 0.

3. chromEnd - chromosome 또는 scaffold의 끝 위치, chromEnd 염기는 표현되지 않습니다. 예제로, chromosome의 첫 100 염기들은 chromeStart=0, chromEnd=100, 길이는 염기 번호 0-99로 정의 됩니다.

 

추가 9개의 선택적 BED 필드:

4. name - BED line의 이름 정의.

5. score - 0과 1000 사이의 score. scored data의 표현 스타일을 설정하는 방법은 아래의 track lines를 보세요

6. strand - + (forward) 또는 - (reverse)로 정의

7. thickStart - UCSC drawing code에 사용되는 필드, Ensembl에서는 필요하지 않음 (itemRgb 필드를 사용할 경우에는 0)

8. thickEnd - thickStart와 같음

9. itemRgb - RGB color 값 (예 0,0,255). track line에서 itemRgb 값이 on" 되어 있을 때 만 사용 

10. blockCount - 특정 작업에서 drawing code로 사용됨

11. blockSizes - 특정 작업에서 drawing code로 사용됨

12. blockStarts - 특정 작업에서 drawing code로 사용됨

 

예제:

 

출처:

http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_data_file_formats.html#bed

'생물정보학 > Genomics' 카테고리의 다른 글

FASTQ format - Raw Data Read  (0) 2016.01.11
FASTA format - Raw Data  (0) 2016.01.11
BAM format  (0) 2016.01.07
SAM format (Sequence Alignment/MAP format) - Alignments  (0) 2016.01.07
GFF/GTF 다른 점과 변환하는 방법  (0) 2014.04.29