생물정보학/Bioinformatics

dN/dS ratios (또는 Ka/Ks) 에서 추측 할 수 있는 결론

케이든 2016. 4. 11. 11:07



dN/dS ratios (또는 Ka/Ks) 에서 추측 할 수 있는 결론


https://www.biostars.org/p/5817/


* Synonymous: 단백질 서열에 영향을 주는 DNA 치환

* Non-synonymous: 단백질 서열에 영향을 주는 DNA 치환


Neutral Evolution (중립 진화: Drfit: 부동): dN/dS ratio = 1 의 뜻은 조상에서 현재의 단백질간의 시간 동안 synonymous와 non-synonymous 변화의 숫자가 같다는 것을 의미한다.


Positive Selection (양성 선택/도태: adaptative evolution: 적응 진화): dN/dS ratio > 1 의 뜻은 synonymous 변화 보다 non-synonymous 변화가 더 많다는 것을 의미한다. 선조 상태를 벚어나려는 (양성 선택)진화압이 작용했다. 이것의 예제로는 paralogues가 새로운 기능을 얻는데 필요하거나, 기생체의 단백질이 기주의 면역 인식으로 부터 피하기 위해 필요하다.


Negative Selection (음성 선택: conservation: 보존): dN/dS ratio < 1 의 뜻은 non-synonymous 변화 보다 synonymous 변화가 더 많다는 것을 의미한다. 선조 상태를 보존하려는 (음성 선택) 진화압이 발생했다. 이것은 orthologues의 단백질 서열에 기능을 유지하기 위해 필요하다, 그 이유는 이 상태가 변하면 기능이  망가지기 때문이다.



꿀팁!

* 알고리듬은 multiple sequences나 pair of sequences에서 수행될 수 있다. 두 케이스 모두 다 dN/dS를 구하기 위한 input sequeneces는 무조건 공통조상으로 부터 유래되어야 한다. 너무 멀면 multiple substituion의 문제가 있고, 너무 가까우면 충분한 변화를 관찰 할 수 없어서 결과를 도출하기가 어렵다.

* dN/dS는 전체 단백질 또는 단백질의 일부 지역을 비교할 때 사용할 수 도 있다.

* 전체 단백질에서 계산된 dN/dS ratio (w)는 종종 과소평가(원래보다 낮음) 된다. 그 이유는 다양한 도메인이 단백질을 구성하기 때문이다. 예를 들면 alpha-helix 구조는 항상 많은 다른 기능을 수행하는 단백질들을 필요로 한다.

* 오직 고려되는 서열 변화는 substituions/치환 이다. (NO duplication, inverstion etc.)

* 주어진 dN/ds ratio의 유의성은 Fishers exact test로 평가할 수 있다.


소프트웨어

* MATLAB's Bioinformatics Toolbox: 여기에는 다양한 대체 알고리듬, OS 호환성, sliding vs. 전체 단백질 분석, API to Genbank 등이 있습니다. (하지만 MATLAB은 공짜가 아닙니다). ㅜㅜ


* KaKs Calculator: 만약에 전체 단백질의 dN/dS만 고려한다면, Ka/Ks calculator에 다양한 옵션들이 사용 가능합니다. 이것은 Fisher's exact test를 사용하여 통계적 유의성을 계산해 줍니다.


* PAML: 만약에 dN/dS 값을 구하고 싶은 단백질 당 2개 이상의 sequence가 있다면, PAML에 다양한 옵션이 있습니다. 이것은 종종 출판된 논문에 사용이 되는데, 단백질 당 오직 pair of sequences가 있다면 추천하지 않습니다.