생물정보학/Bioinformatics

Position-Specific Socring Matrix (PSSM) 설명

케이든 2014. 10. 26. 16:44

 

Position-Specific Socring Matrix (PSSM) 설명

 

Position-Specific Socring Matrix (PSSM)은 생물학적 서열 안에 motifs (pattern)을 나타내는데 주로 쓰인다.

PSSM은 기능적으로 연관되어 있다고 추측되는 서열들의 정렬된 세트에서 파생되고 motif를 찾는 소프트웨어에 중요하게 사용되고 있다.

 

배경

PSSM은 consensus sequences를 대체하기 위해 미국의 유전학자 Gary Stormo와 동료들에 의해 1982년에 소개되었다. Consensus sequences는 생물학적 서열안의 패턴을 나타내는데 사용되었으나, 이러한 패턴이 새로 생기는데에 대한 예측은 어려웠다. PSSM이 가장 처음 사용된 것은 translation initiation sites의 기능을 하는 RNA sites를 발견할 때이다. 이 인지 알고리듬은 폴란드-미국 수학자인 Andrzej Ehernfeucht에 의해 알려졌고, 비슷한 서열에서 non-functional site와 실제 binding site를 구별 할 수 있는 matix of weights를 만들었다. 이 두 sites의 세트를 인지할 수 있게 트레이닝을 시킨 결과 matrix와 두 세트를 구별할 수 있는 threshold가 생겼다. 트레이닝 세트에 포함되어 있지 않은 새로운 서열을 matrix사용하여 스캐닝하는 것은 이 방법이 최고의 consensus sequence 보다 더욱 민감하고 정확하다는 것을 보여주었다.

 

Seqeucens에서 부터 PSSM 까지

PSSM은 각 알파벳으로 된 하나의 열을 가지고 있다.

DNA 서열에서 nucleotides를 위한 4개의 열

단백질 서열에서 aminio acid를 위한 20개의 열

PSSM은 또한 패턴 안의 각 위치마나 하나의 행을 가지고 있다.

PSSM을 만드는 가장 첫 번째 단계는 각 위치에서 각 nt의 나타나는 갯수를 세서 Position Frequency Matrix(PFM)을 만드는 것이다.

그 다음 각 위치에서의 nt 갯수를 서열의 수로 나누어 각 nt가 나타나는 확률을 Position Probability Matrix (PPM)으로 구한다. 마지막으로 normalising을 한다.

PPM (M)의 요소들을 계산 하는 방법은 아래와 같다.

N: number of aligned sequences, X: aligned sequence set, I: sequence length

 

 

예제, 이런 DNA 서열 10개가 있다...

     1 234 5678 9

1. GAGGTAAAC
2. TCCGTAAGT
3. CAGGTTGGA
4. ACAGTCAGT
5. TAGGTCATT
6. TAGGTACTG
7. ATGGTAACT
8. CAGGTATAC
9. TGTGTGAGT
10.AAGGTAAGT

 

대응 하는 PFM은:

                   1     2     3     4     5     6     7    8      9

 

그러므로 PPM은:

 

PPM과 PSSM은 패턴안의 각 위치가 서로 통계적으로 독립되어 있다고 가정한다.

그러므로 matrix에 특정 위치의 값에 대한 합은 1이여야 한다. 각 column은 독립적인 multinomial distribution이라고 할 수 있다. 그래서 PPM (M) 이 주어졌을 때 어떤 서열이 나타날 확률을 쉽게 계산 할 수 있다.

 

예: S = GAGGTAAAC

 

 

 

Psuedocounts: PPM을 계산 할때 데이터세트가 작으면 사용된다. 그 이유는 matrix안에0을 갖는 인자를 없애기 위함이다. 이것은 PPM의 각 행을 Dirichelt distribution으로 곱하는 것과 같고, 새로운 서열의 확률을 계산 할 수 있게 해준다. 위의 예제를 보면, 만약에 psueocount가 없을 경우, 어떤 서열에서 4번째 위치에 G가 없거나, 5번째 위치에서 T가 없으면 다른 위치에 상관없이 p(S|M)이 0이 된다.

 

 

 

 

 

'생물정보학 > Bioinformatics' 카테고리의 다른 글

mcl clustering  (0) 2015.03.27
Multiple Sequence Alignment 중 Progressive Alignment 기법  (0) 2014.10.26
E-value 설명  (0) 2014.10.26
Blocks Substitution Matrix (BLOSUM)  (0) 2014.10.21
Point Accepted Mutation (PAM)  (0) 2014.10.20