생물정보학/Bioinformatics

Blocks Substitution Matrix (BLOSUM)

케이든 2014. 10. 21. 10:58


소개

생물정보학에서 BLOSUM matrix는 단백질의 sequence alignment에 사용되는 substitution matrix이다. BLOSUM matrix는 진화적으로 분화된 단백질 서열들의 alignment에 점수를 내는데 사용된다. 이것은 Local Alignment를 바탕으로 한다. BLOSUM matrix는 Henikoff 부부에 의해서 제일 처음 소개되었다. 이들은 protein family들의 매우 잘 보존된 지역(sequence alignment에 gap이 없는)을 모아논 BLOCKS database를 자세히 살펴보고 아미노산의 상대적 빈도수와 치환확률을 구하였다. 그리고 이들은 20 standard 아미노산에 대한 210가지의 가능한 치환 쌍에 대한 log-odds score를 계산하였다. 모든 BLOSUM matrix들은 관찰된 alignments를 바탕으로 한다. 이들은 PAM matrix와 같이 가까이 관계된 단백질들의 비교를 통한 자료로 부터 추정되지 않았다.


생물학적 배경

PAM의 생물학적 배경 참조

Sequence alignment는 현대 생물학의 기본이 되는 연구 방법이다. 가장 일반적인 단백질의 sequence alignment는 다른 서열들 사이의 유사성을 보는 것으로 연구자들이 돌연변이가 일어난 유전자의 기능을 예측하고 분자단계에서의 단배질 서열 분화에 대한 진화적인 이해를 하기 위해서이다. Matrix는 알고리듬으로 적용되어 다른 서열의 단백질들의 유사성을 계산하다. 그러나 이 전에 사용되었던 Dayhoff Matrix는 서열의 유사성이 85%이상이 되어야만 하는 한계가 있었다. 이러한 gap을 채우기 위해 Henikoff 부부는 BLOSUM matrix를 개발하여 alignments를 발전시켰고 관계된 단백질의 그룹에서 query를 사용하여 search를 가능하게 했다.


용어

BLOSUM: BLOcks of SUbstitution Matrix, 단백질의 sequence alignment를 할 때 사용되는 Substitution matrix

점수 측정 기준 (통계적/생물학적): sequence alignment를 평가할 때 이게 얼마나 의미 있는지 알고 싶어 한다. 그러므로 scoring matrix나 생물학적으로 의미 있는 아미노산 또는 nucleotide 쌍이 alignment에서 발생하는 확률을 묘사하는 값의 테이블이 필요하다. 각 위치에 있는 점수는 단백질 서열의 blocks of local alignments에 있는 substitution의 빈도수에 의해 얻어졌다.

숫자로 표기된 여러 세트의 BLOSUM matrix는 다른 alignment database를 사용하여 만들어 졌다. 숫자가 높은 BLOSUM matrix는 가까이 관계한 서열을 비교하는데 쓰이고, 작은 수의 matrixs는 멀리 관계된 서열을 비교하는데 쓰인다. 예를 들어 BLOSUM80는 분화가 덜 된 alignment에 쓰이고, BLOSUM45는 분화가 많이 일어난 서열에 쓰인다. Matrix는 하나의 서열에 주어진 백분율 보다 더욱 비슷한 모든 서열들을 모아 합쳐 만든 것으로, 이후 이러한 서열들과 비교를 한다. 백분율은 이름을 부치는데 사용된다, BLOSUM80를 예로 들면 80% 이상 유사한 서열들이 뭉쳐서 만들어 진 것이다.

BLOSUM r: r% 만큼의 유사성을 같는 blocks로 부터 만들어진 matrix

예: BLOSUM62는 62% 만큼의 유사성을 같는 서열들을 사용해서 만들어진 matrix로 protein BLAST의 default로 쓰인다. 실험적으로 BLOSUM62가 가장 약한 단백질 유사성을 감지하는데 가장 최선이라고 보여준 적이 있다.


예제 BLOSUM62

BLOSUM45: 멀리 관계된 단백질

BLOSUM62: 중간범위

BLOSUM80: 가까이 관계된 단백질


생물정보학에서의 사용

Research applications -

BLOSUM 점수는 hepatitis B virus carrier와 T-cell epitopes의 표면 유전자 변형들을 예측하고 이해하는데 사용된다.


Surface gene variants among hepatitis B virus carriers -

HBsAg의 DNA 서열은 180명의 환자로 부터 얻어졌으며, 그 중 51명은 만성의 HBV carrier이고 129명은 새롭게 진단된 환자이다. 이것을 GenBank로 부터 온 168HBV 서열로 만들어진 consensus sequence와 비교하였다. 문헌조사와 BLOSUM 점수를 통해 잠재적으로 변형된 항원성을 정의하였다.


BLAST에서의 사용 - 

BLOSUM matrix는 alignment의 질을 판단하기 위해서 DNA 또는 단백질 서열을 비교할 때 scoring matrix로 사용된다. 이러한 형태의 scoring matrix는 BLAST를 포함한 다양한 범위의 alignment software에도 사용이 된다.


PAM과 BLOSUM 비교 - 

BLOSUM은 관계된 서열들의 motifs안에서의 mutation을 직접적으로 보지만, PAM은 가까이 관계된 서열들을 바탕으로 진화 정보를 추정한다.

PAM과 BLOSUM은 같은 점수 매기는 정보를 다른 방법을 사용한다. 두개는 비교 될 수 있지만 매우 다른 방법으로 점수를 획득 하기 때문에 PAM100과 BLOSUM100은 같지 않다.


PAM

BLOSUM

 PAM100

 BLOSUM90

 PAM120

 BLOSUM80

 PAM160

 BLOSUM60

 PAM200

 BLOSUM52

 PAM250

 BLOSUM45


PAM과 BLOSUM의 관계 -

PAM

BLOSUM

가까이 관계된 서열들의 비교, 작은 수의 PAM 생성

가까이 관계된 서열들의 비교, 큰 수의 BLOSUM 

멀리 관계된 서열들의 비교, 큰 수의 PAM 생성

멀리 관계된 서열들의 비교, 작은 수의 BLOSUM


PAM과 BLOSUM의 다른점 -

PAM

BLOSUM

가까이 관계된 단백질들의 global alignment를 바탕으로 한다.

Local alignment를 바탕으로 한다.

PAM1은 1% 정도의 분화된 서열들을 비교하여 계산된 matrix이다.

BLOSUM62는 62% 정도 유사한 서열들을 비교하여 계산된 matrix이다.

다른 PAM matrix들은 PAM1으로 부터 추정된 것이다.

관찰된 alignment를 바탕으로 한다. 이들은 가까이 관계된 단백질들의 비교로 추정되지 않았다.

Matrix의 더 큰 숫자는 더 긴 진화적 거리를 나타낸다.

Matrix의 더 큰 숫자는 높은 서열 유사성을 나타내고, 그러므로 더 적은 진화적 거리를 나타낸다.


'생물정보학 > Bioinformatics' 카테고리의 다른 글

Position-Specific Socring Matrix (PSSM) 설명  (0) 2014.10.26
E-value 설명  (0) 2014.10.26
Point Accepted Mutation (PAM)  (0) 2014.10.20
BEAST 용어해설  (0) 2014.02.27
[진화] 계통학을 표현하는 Newick Tree Format  (0) 2014.02.20