CentOS: OS설치 후 설정 http://firedev.tistory.com/entry/CentOS-CentOS-%EC%84%A4%EC%B9%98-%ED%9B%84-%EC%84%A4%EC%A0%95 생물정보학/Useful PAGEs 2016.02.22
R: 축(axis)을 log scale로 만들 때 http://stackoverflow.com/questions/5821763/logarithmic-y-axis-tick-marks-in-r-plot-or-ggplot2 생물정보학/Useful PAGEs 2016.01.14
Bedtools: 같은 아이디로 모든 feature를 합칠 때 https://www.biostars.org/p/145751/ sort -k4,4 result.bed | groupBy -g 1,4 -c 4,2,3 -o count,min,max | awk -v OFS='\t' '{print $1, $4, $5, $2, $3}' > result.bed 생물정보학/Useful PAGEs 2016.01.12
FASTQC – Raw Data Quality Control FASTQC – Raw Data Quality Control FASTAQC는 data 안에 bias 또는 문제가 있는지 확인하고 미가공 data가 좋은 상태인지 확인하는 quality control (QC)를 위해 사용하는 application/software 프로그램 입니다. 이 프로그램은 library material과 sequencer에서 유래되는 문제를 찾아내는 것을 목적으로 합니다. FASTQC.. 생물정보학/Genomics 2016.01.11
FASTQ format - Raw Data Read FASTQ format - Raw Data Read FASTQ format은 FASTA format에서 유래된 텍스트 파일(.txt) 입니다. 이 format은 FASTA 서열에 quality score를 합쳐서 Wellcome Trust Sanger Institute에서 개발 하였습니다. FASTQ는 서열 당 4개의 줄로 이루어진 flat txt file로 서열(Base call)과 quality score (아스키 문자)를 같은 파일에 담고 있습.. 생물정보학/Genomics 2016.01.11
FASTA format - Raw Data FASTA format - Raw Data FASTA format은 FASTA software package에서 유래된 텍스트 파일(.txt)로 같은 파일 안에 서열(base call)과 한 줄의 서열에 대한 설명(header)이 저장되어 있습니다. 이것은 text-processing tools 또는 프로그래밍 언어 (Perl, Python, Ruby 등)들이 서열에 대한 파싱(parsing)을 쉽게 할 수 있도록 해.. 생물정보학/Genomics 2016.01.11
BED format BED format BED (Browser Extensible Data) format은 annotation track 위에 보여지는 data lines를 정의하는데 유연한 방법을 제공합니다. BED lines는 3가지의 필수적 필드(Fields)가 있고, 추가적으로 9가지의 선택적 필드가 있습니다. Annotation track안의 모든 data의 line 당 필드의 숫자는 모두 균일해야 합니다. 선.. 생물정보학/Genomics 2016.01.11
BAM format BAM format BAM 포맷은 Sequence Aligment/MAP (SAM) 포맷의 압축 binary version으로 nucleotide sequence alignment의 소형화되고 색인가능한 표현입니다. 많은 NGS 분석 도구들이 SAM/BAM 형태의 파일들을 사용합니다. 예제 출처: USCS genome browser & http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_da.. 생물정보학/Genomics 2016.01.07