FASTQC – Raw Data Quality Control FASTQC – Raw Data Quality Control FASTAQC는 data 안에 bias 또는 문제가 있는지 확인하고 미가공 data가 좋은 상태인지 확인하는 quality control (QC)를 위해 사용하는 application/software 프로그램 입니다. 이 프로그램은 library material과 sequencer에서 유래되는 문제를 찾아내는 것을 목적으로 합니다. FASTQC.. 생물정보학/Genomics 2016.01.11
FASTQ format - Raw Data Read FASTQ format - Raw Data Read FASTQ format은 FASTA format에서 유래된 텍스트 파일(.txt) 입니다. 이 format은 FASTA 서열에 quality score를 합쳐서 Wellcome Trust Sanger Institute에서 개발 하였습니다. FASTQ는 서열 당 4개의 줄로 이루어진 flat txt file로 서열(Base call)과 quality score (아스키 문자)를 같은 파일에 담고 있습.. 생물정보학/Genomics 2016.01.11
FASTA format - Raw Data FASTA format - Raw Data FASTA format은 FASTA software package에서 유래된 텍스트 파일(.txt)로 같은 파일 안에 서열(base call)과 한 줄의 서열에 대한 설명(header)이 저장되어 있습니다. 이것은 text-processing tools 또는 프로그래밍 언어 (Perl, Python, Ruby 등)들이 서열에 대한 파싱(parsing)을 쉽게 할 수 있도록 해.. 생물정보학/Genomics 2016.01.11
BED format BED format BED (Browser Extensible Data) format은 annotation track 위에 보여지는 data lines를 정의하는데 유연한 방법을 제공합니다. BED lines는 3가지의 필수적 필드(Fields)가 있고, 추가적으로 9가지의 선택적 필드가 있습니다. Annotation track안의 모든 data의 line 당 필드의 숫자는 모두 균일해야 합니다. 선.. 생물정보학/Genomics 2016.01.11
BAM format BAM format BAM 포맷은 Sequence Aligment/MAP (SAM) 포맷의 압축 binary version으로 nucleotide sequence alignment의 소형화되고 색인가능한 표현입니다. 많은 NGS 분석 도구들이 SAM/BAM 형태의 파일들을 사용합니다. 예제 출처: USCS genome browser & http://www.beckmangenomics.com/genomic_services/bioinformatics/understanding_sequencing_da.. 생물정보학/Genomics 2016.01.07
SAM format (Sequence Alignment/MAP format) - Alignments SAM format (Sequence Alignment/MAP format) - Alignments SAM은 sequence alignment data를 담고 있는 tab으로 나누어진 텍스트 파일(.txt)로 alignment/mapping 정보를 보고하는 산업 기준 입니다. SAM은 자매 형태인 압축되고, 색인화 되고, binary 형태인 BAM format의 사람이 읽기 가능한 버전입니다. Samtools는 SAM 파일들을 .. 생물정보학/Genomics 2016.01.07
NCBI의 nr db에서 특정 종 제거하기 NCBI의 nr db에서 특정 종 제거하기 blastn 과 blastp에는 모두 -negative_gilist 옵션이 있습니다. 이 옵션을 사용하여 로컬로 다운받은 nr에서 특정 GI 세트를 빼고 blast를 할 수 있습니다. 원하는 종의 모든 서열에 대한 GI 파일을 만들고 싶다면, nucleotide나 protein search space (nucleotide: http://www.ncbi.nlm.nih.. 생물정보학/Bioinformatics 2016.01.04
Composition Vector Tree (CVtree) 사용법 CVtree for constructing phylogenetic tree * CVTree2 web version - 하나의 protein file 또는 contig file의 크기가 20MB, 전체 파일의 크기는 100MB로 * CVTree stand-alone 사용 - protein sequence들을 사용해서 수행하였다. - K-tuple: 7 - Pezizomycotina에 속하는 4종의 lichen들이 잘 묶여있는 것을 볼 수 있다. CVTree stand-alone 사용법 .. 생물정보학/Bioinformatics 2015.11.23
윈도우/리눅스 명령어를 이용하여 원하는 크기의 파일을 생성하는 방법 가끔 파일을 한꺼번에 많이 생성할 때 또는 대용량 파일이 필요할 때 쓰는 명령어 윈도우: fsutil 리눅싀: dd -사용방법 fsutil file createnew [filename] [filesize] ex) fsutil createne test.txt 102400 -> test란 이름으로 1MB 파일이 생성된다. dd if=/dev/zero of=[경로 및 파일명] bs=[filesize] count=[반복횟수] ex) dd .. 생물정보학/Linux 2015.09.09