N50과 L50
전산생물학에서 N50과 L50은 유전체의 어셈블된 단위인 contig 또는 scaffold의 길이를 나타내는 통계값 입니다. N50은 길이의 평균 또는 중앙값과 비슷하지만, 더 긴 contig에 더 많은 가중치를 둡니다. 이것은 유전체 어셈블리에 많이 쓰이고, 특히 드래프트 어셈블리의 contig 길이들을 참고할 때 사용합니다. L50은 contig의 개수로 이들 길이의 합이 N50이 되는 값 입니다.
N50
N50 통계치는 어셈블리의 질을 정의 합니다. 각각의 길이가 다른 contig 세트가 주어졌을 때, N50 길이는 유전체의 50%에서 가장 잛은 서열의 길이로 정의 됩니다.
N50보다 긴 모든 contig로부터의 염기의 수는 N50보다 짧은 모든 콘티그로부터의 염기의 수의 합에 근접 할 것입니다.
예를 들어 길이가 2,3,4,5,6,7,8,9,10 인 9 개의 contig는 합이 54이고 합계의 절반이 27이며 유전체의 크기도 54가됩니다.
이 어셈블리의 50%는 10 + 9 + 8 = 27 (시퀀스 길이의 절반)입니다.
따라서 N50 = 8 의미는 유전체 서열의 절반을 포함하는 Contig의 크기(길이)입니다.
참고 : 다른 어셈블리의 N50 값을 비교할 때 N50을 의미있게 사용하려면 어셈블리 크기가 동일한 크기 여야합니다.
L50
Contig 세트가 주어지면, L50 카운트는 N50을 생성하는 길이의 contig 중 가장 작은 수로 정의됩니다.
위의 예에서 L50 = 3 (10, 9, 8 숫자 3개)입니다.
'생물정보학 > Bioinformatics' 카테고리의 다른 글
RAxML protein input 명령어 (0) | 2016.12.27 |
---|---|
계통수(Phylogenetic tree) 제작에 대한 고찰 (0) | 2016.12.10 |
dN/dS ratios (또는 Ka/Ks) 에서 추측 할 수 있는 결론 (0) | 2016.04.11 |
blast tabular format 추가 + Query coverage (0) | 2016.03.12 |
NCBI의 nr db에서 특정 종 제거하기 (0) | 2016.01.04 |