생물정보학/Bioinformatics

Point Accepted Mutation (PAM)

케이든 2014. 10. 20. 20:26

 

소개

Point Accepted Mutation (PAM) - 단백질 서열에서 하나의 아미노산이 다른 아미노산으로 치환되는 것으로 natural selection 과정에 의해 허용된다. 이 정의는 생물의 DNA에서 일어나는 모든 point mutation에 해당되지는 않는다. 특히 Silent mutation 및 lethal 하거나 natural selection에 허용되지 않는 경우는 PAM이 아니다.

 

PAM Matrix는 각 행과 열이 20개중 하나의 아미노산을 나타내는 matrix이다. 생물정보학에서 PAM matrix는 단백질 sequence alignment에 점수를 매기기 위한 substitution matrices로 사용된다. PAM matrix의 각 항목은 열에 있는 아미노산이 행에 있는 아미노산과 우연이 아닌 특정 진화 기간 동안 하나 또는 하나 이상의 point accepted mutation에 의하여 치환될 가능성(점수)를 나타낸다. 각기 다른 종류의 PAM matrix는 단백질 서열 진화의 다른 시간 길이에 해당되는 것이다.

 

생물학적 배경

살아있는 생물의 모든 세포 복제에 대한 유전적 지시는 DNA 안에 들어 있다. 세포의 일생동안 이 정보는 전사 및 번역이 일어나 단백질이 되거나 세포 분열이 일어날때 딸 세포를 지시한다. 이러한 과정을 거치면서 DNA는 변경이 될 수 있다. 이것을 mutation (돌연변이)라고 한다. 분자 단계에서 복제가 일어나기 전에 DNA에게 일어나는 이러한 변화를 수정하는 조절 시스템이 있다.

하나의 nucleotide가 치환되는 mutation을 point mutation이라고 한다. 만약에 point mutation이 유전자의 발현되는 부분인 exon에서 일어났다면, 이것은 특정 아미노산을 결정하는 codon을 바꾸게 된다. Genetic code에 중복성이 있다고 해도, mutation이 translation중 아미노산을 바꿀 수 있고, 그 결과로 단백질의 구조가 바뀔 수 있다.

단백질의 기능은 단백질에 구조에 의해 결정된다. 단백질에서 하나의 아미노산만 바뀌어도 기능을 수행할 능력이 떨어지거나, 아예 기능을 바꿔 버릴 수 있다. 이러한 변화들은 세포의 중요한 기능에 커다란 영향을 줄 수 있다 (세포가 죽거나 더하여 생물 자체가 죽을 수 있다). 반대로 비록 달라지긴 했더라도, 세포는 기능을 계속 할 수도 있고, 생물의 자식에게 돌여변이가 전달 될 수 도 있다. 만약에 이러한 변화가 자식에게 아무런 물리적 손실을 주지 않는다면, 이 mutatuion이 population 안에서 널리 퍼질 확률이 만연하다. 다른 가능성은 이런 변화가 기능을 더욱 이롭게 바꾸는 것이다. 어떤 경우이든 자연선택에 의해 선택되면, point mutation은 genetic pool안에 허용되는 것이다.

Genetic code에 의해 번역되는 20개의 아미노산은 이들의 side chain 덕분에 물리적 화학적 특징이 매우 다양하다. 그러나 이러한 아미노산들은 비슷한 물리화학적 특성으로 분류할 수 있다. 다른 카테고리의 아미노산으로 치환되는 것 보다, 같은 카테고리에서 같은 형태의 아미노산으로 치환되는 것이 가장 구조와 기능에 영향을 적게 줄 것이다. 결과적으로 point mutation의 허용은 어떤 아미노산으로 어떤 아미노산이 치환되는지에 의해 결정된다. PAM matrix는 수학적인 도구로 aligment 중 단백질의 유사성을 측정 할 때 mutation이 허용되는 다른 속도를 설명한다.

 

예제 - PAM250

PAM250은 sequence 비교에 가장많이 사용되는 scoring matrix이다.

 

생물정보학에서의 사용

계통수에서 분기 시점 측정 -

분자시계가설(molecular clock hypothesis)은 특정 단백질에서 아미노산 치환율이 오랜 시간 동안 어느정도 일정하다고 예측한다. 그러나 이런 치환율은 protein family마다 다르다. 이것은 단백질에서 아미노산당 mutation 횟수가 시간에 따라 어느정도 선형으로 증가한다고 제안한다.

계통학에서는 두 개의 단백질이 언제 분화되었는지 결정하는 것이 중요한 일이다. 화석 기록은 종종 지구의 진화 역사 연대기에 어떤 사건들이 있었나 알려준다. 하지만 이것을 적용하기에는 여러 제한점이 있다. 그러나 만약에 protein family의 분자 시계가 똑딱이는 비율을 안다면 (아미노산 당 mutation의 회수가 늘어나는 속도) 이 정도의 mutation에 얼마만큼의 시간이 흘렀는지 알 수 있고 분화 시점을 찾을 수 있다.

 

현재 살아있는 생물 중 두 개의 가까운 단백질의 분화 시점을 측정한다고 가정하자. 분화 시점 후 두 단백질은 point accepted mutation을 축적했을 것이다. 그리고 이들을 갈라 놓고 있는 아미노산 당 mutation의 전체 회수는 약 두 배로 이들이 공통 조상으로 부터 분리 되게 한다. 만약에 가까운 두 종의 단백질을 align하는데 다양한 범위의 PAM matrix들이 사용되었다면, 최고 점수를 나타내는 PAM matrix의 n 값은 두 개의 단백질을 분리하는 아미노산 당 mutation에 해당된다. 이 값을 protein family에서 PAM이 축적되는 속도로 나눈다면 이들이 공통조상으로 부터 분리된 시간을 예측할 수 있도록 해준다. 이것은 분화시점(time of divergence)으로 myr로 나타낸다.

 

T= K/2r

 

K = 아미노산 당 mutation 회수, r = million years 당 아미노산의 각 사이트 당 mutation 안에서 PAM이 축적되는 속도

 

BLAST에서 사용 -

PAM matrices는 DNA 또는 단백질 서열 alignment의 quality를 판단하기 위해서 scoring matrix로 사용되기도 한다. 이런 종류의 scoring system은 BLAST를 포함한 여러 다른 alignment software에서 사용된다.

 

PAM과 BLOSUM의 비교 -

PAM과 BLOSUM은 같은 scoring 결과를 내지만, 서로 다른 방법을 사용한다. BLOSUM은 관계된 서열들의 motifs에서 직접적으로 mutations를 보지만, PAM은 가까운 사이의 서열들을 바탕으로 추정된 진화 정보를 사용한다. PAM과 BLOSUM이 같은 scoring information을 보여주기는 하지만 다른 방법을 사용하기 때문에 PAM100은 BLOSUM100과 같지 않다.

 

PAM 

BLOSUM

 PAM100 

 BLOSUM90

 PAM120

 BLOSUM80

 PAM160

 BLOSUM60

 PAM200

 BLOSUM52

 PAM250

 BLOSUM45