생물정보학/Bioinformatics

N50, L50 및 연관된 통계치

케이든 2016. 12. 1. 13:26


N50과 L50


전산생물학에서 N50과 L50은 유전체의 어셈블된 단위인 contig 또는 scaffold의 길이를 나타내는 통계값 입니다. N50은 길이의 평균 또는 중앙값과 비슷하지만, 더 긴 contig에 더 많은 가중치를 둡니다. 이것은 유전체 어셈블리에 많이 쓰이고, 특히 드래프트 어셈블리의 contig 길이들을 참고할 때 사용합니다. L50은 contig의 개수로 이들 길이의 합이 N50이 되는 값 입니다. 


N50

N50 통계치는 어셈블리의 질을 정의 합니다. 각각의 길이가 다른 contig 세트가 주어졌을 때, N50 길이는 유전체의 50%에서 가장 잛은 서열의 길이로 정의 됩니다. 


N50보다 긴 모든 contig로부터의 염기의 수는 N50보다 짧은 모든 콘티그로부터의 염기의 수의 합에 근접 할 것입니다.


예를 들어 길이가 2,3,4,5,6,7,8,9,10 인 9 개의 contig는 합이 54이고 합계의 절반이 27이며 유전체의 크기도 54가됩니다.


이 어셈블리의 50%는 10 + 9 + 8 = 27 (시퀀스 길이의 절반)입니다.


따라서 N50 = 8 의미는 유전체 서열의 절반을 포함하는 Contig의 크기(길이)입니다.


참고 : 다른 어셈블리의 N50 값을 비교할 때 N50을 의미있게 사용하려면 어셈블리 크기가 동일한 크기 여야합니다.



L50

Contig 세트가 주어지면, L50 카운트는 N50을 생성하는 길이의 contig 중 가장 작은 수로 정의됩니다.

위의 예에서 L50 = 3 (10, 9, 8  숫자 3개)입니다.