생물정보학/Bioinformatics

BEAST 용어해설

케이든 2014. 2. 27. 11:10



BEAST 용어해설 (NOTE: 번역이 깔끔하지 못함)


베이지언 (Bayesian)

베이지언 추론은 통계적 추론의 한 방법으로, 추론해야 하는 대상의 사전 확률과 추가적인 관측을 통해 해당 대상의 사후 확률을 추론하는 방법이다. 베이지언 추론은 베이지언 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률분포를 추정하는 것을 의미한다.

Bayesian inference is a branch of statistical inference that permits the use of prior knowledge in assessing the probability of model parameters in the presence of new data. Bayesian inference has been termed 'subjective' inference because it allows a certain subjectivity in the selection of the prior distribution. The prior distribution can strongly affect the posterior (the results). We regard Bayesian inference as a useful tool for exploratory analysis of data and as a way to rigorously compare different sets of assumptions. However use of priors necessarily implies a greater responsibility of the researcher to assure that they are not introducing unintentional biases into their results through their priors. For this reason it is very important to test the sensitivity of your conclusions to different prior distributions.

번인 (Burn-In)

Burn-in은 프로세스인데 완성품을 출하하기 전에 수핸한다.
이 시험의 목적은 시스템 신뢰성 욕조 커브(bathtub curve)의 초기에 높은 고장율을 갖는 주기 동안에 고장을 발생시키게 함으로써 어떤 부품이 문제가 있는지를 감지한다 (위키피디아)

연합 (Coalescent)

coalescent는 tree shape위의 사전 분포로 계통의 분기 시점군집의 인구적 역사를 연결한다.

The coalescent is a prior distribution on tree shape that links the divergence times of a genealogy (tree of individuals from the same population) with the demographic history of the population.

수렴, 컨버젼스 (Convergence)

아직 쓰여지지 않음

평형, 이퀼리브리움 (Equilibrium)

아직 쓰여지지 않음

유효 표본 크기 (Effective Sample Size, ESS)

유효 표본 크기 - 마르코프 체인과 동등한 사후 분포에서 유효하게 얻어진 독립적인 결과의 개수

Effective Sample Size - The number of effectively independent draws from the posterior distribution that the Markov chain is equivalent to.

최고 사후 밀도 (Highest Posterior Density, HPD)

최고 사후 밀도 - X%의 사후 최고 밀도 구간은 x%의 사후 확률을 포함하는 모수 공간안의 가장 짧은 구간이다.
Highest Posterior Density - The x% highest posterior density interval is the shortest interval in parameter space that contains x% of the posterior probability.

우도, 가능도 (Likelihood)

가능도는 진화모델(tree, ts/tv ratio, gamma shape parameter, proportion of invariable sites, mutation rate 등)이 주어졌을 때 관찰된 서열 데이터의 확률이다.

The likelihood Pr{D|Parameters, Tree} is the probability of the observed sequence data given the model of evolution (i.e. the tree, the transition/transversion ratio, gamma shape parameter, proportion of invariable sites, mutation rate etc).

마르코프 연쇄 몬테카를로 방법 (Markov chain Monte Carlo, MCMC)

마르코프 연쇄 몬테카를로 방법은 사후 분포에서 샘플을 뽑아내는 확률적 알고리즘으로 분포의 예측을 얻는데 사용됨.

Markov chain Monte Carlo - this is a stochastic algorithm for drawing samples from a posterior distribution, so as to get an estimate of the distribution.

믹싱 (Mixing)

MCMC 전문용어, 믹싱은 MCMC 알고리즘이 매개변수 또는 매개변수의 잡합을 표집하는데 효율성을 나타냄. 만약에 MCMC chain이 잘 믹싱되어 있다면, chain의 자기상관이 낮고, 유효 표본의 크기가 크고, 얻어진 예측들이 정확하다는 것을 나타냄.  잘 믹싱된 chain은 길쭉한 털보 애벌레의 모양을 한 매개변수의 흔적을 갖는다. Chain이 평형에서 매우 빠르게 변동함으로 명백한 추세를 볼 수 없다. (연습문제2는 (burn-in 후) 털보 애벌레 모양의 흔적을 보여준다)

In MCMC parlance, mixing refers to efficiency with which the MCMC algorithm samples a parameter, or set of a parameters. If an MCMC chain is mixing well, it implies that autocorrelation in the chain is low, ESS is high and the estimates obtained are accurate. A chain that is mixing well will have parameter traces that look like straight hairy catepillars, with the chain fluctuating so rapidly around the equilibrium that their are no obvious trends. Tutorial 2 has a picture of a trace that shows (after burnin) this hairy catepillar expectation.

분자 시계 (Molecular Clock)

분자시계는 tree안의 계통들 사이의 돌연변이율치환율이 다르지 않다는 가설이다.
그러므로, 만약 모든 계통들이 같은 시간에서 왔다면, 이들은 root에서 부터 모두 같은 유전적 거리를 가지고 있다. 분자 시계 개념에서 다른 시간에서 온 서열의 확장은 tree의 root에서 특정 서열의 길이가 root에서 부터 표집된 시간의 축적된 시간과 비례한다. 그러므로 root에서 tip까지의 거리에 비례하는 표집 시간들은  돌연변이율과 동일한 기울기와 양성의 선형관계를 만들어 낸다. 분자시계가설은 BEAST안의 모든 모델의 기본적인 가정이다.

The molecular clock is a hypothesis that mutation rates and substitution rates do not vary among lineages in a tree. Therefore, if all the lineages of a tree are from the same time they should all have the same genetic distance from the root. An extension of the molecular clock concept to sequences from different times implies that the distance of a particular sequence from the root of the tree should be proportional to the amount of time that has accumulated from the root to the sampling time of that sequence. Thus a plot of root-to-tip distances against sampling times should yield a positive linear correlation with a slope equal to the mutation rate. The molecular clock hypothesis is a fundamental assumption of all models in BEAST.

오퍼레이터 (Operator)

MCMC 전문용어, 오퍼레이터는 MCMC chain 안에서 새로운 상태를 제안하는 방법이다. 오퍼레이터는 현재 상태의 혼란을 주면서 작동한다. 현재 상태는 tree topology, node heights, substitution parameters를 포함한다. 대부분의 operators는 새로운 상태를 제안할 때 오직 하나의 구성 요소를 변경합니다. 그러므로 마르코프 chain의 인접한 상태는 그들의 상태와 많은 부분을 공유함으로서 높게 연관되어 있습니다.

In MCMC parlance, an operator is a method of proposing a new state in the MCMC chain. Operators act by perturbing the current state. The current state includes the tree topology, node heights, subtitution parameters and population parameters. Most operators change only one of these components when they propose a new state. Thus adjacent states of the Markov chain are highly correlated as they share many aspects of their state.

사후 확률 분포, 포스터리어 (Posterior)

사후 확률 분포 - 포스터리어(또는 사후 확률 밀도)는 MCMC 분석이 예측을 얻기 위한 시도이다. 사후 확률 분포는 진화 모델이 주어졌을 때 매개변수 상태 공간에 대한 확률 분포이다. 사후 확률 분포 P(Parameters, Tree|Data)는 가능도, Pr{Data|Parameters, Tree}, 및 사전 확률 분포P(Parameters, Tree)의 생성물이다.

The posterior probability distribution - The posterior (or posterior probability density) is the entity that an MCMC analysis attempts to obtain an estimate of. The posterior is the probability distribution over the parameter state space, given the data under the chosen model of evolution. The posterior P(Parameters, Tree|Data) is the (normalized) product of the likelihood, Pr{Data|Parameters, Tree}, and the prior P(Parameters, Tree).

사전 확률 분포, 프라이어 (Prior)

사전 확률 분포 - 프라이어는 데이터를 보기 전에 모수 공간에 대한 확률의 분포다. 프라이어는 당신이 데이터를 분석하기 전에 다른 매개변수 값의 확률에 대한 기존 가정 또는 기존 믿음을 대표한다. 프라이어는 가능도와 합쳐서 포스터리어를 만든다. BEAST의 대부분 적용에서 사전 확률 분포는 일정하거나 연합된 사전 확률 분포이다.

The prior probability distribution - The prior is the probability distribution over the parameter space, prior to seeing the data. The prior represents your prior belief or prior assumptions about the probabilities of different parameter values before you have analyzed the data. The prior is combined with the likelihood to yield the posterior. In most applications of BEAST the prior is either uniform or a coalescent prior on the tree shape.

표집, 표본 추출 (Sampling)

표본 추출은 MCMC 수행의 중요 기능이다. MCMC 분석은 사후 분포에서 일렬의 샘플을 만들어 낸다. 이런 샘플들은 서로 연관되어 있는데, 그 이유는 각 샘플이 지난 샘플의 작은 혼란에 의해서 생성되기 때문이다. MCMC chain의 유효 표본 크기는 MCMC가 대표하는 독립적 샘플들의 개수의 예측이다.

Sampling is the main function of an MCMC run. An MCMC analysis generates a series of samples from the posterior distribution. These samples are correlated because each sample is generated by a small perturbation of the previous sample. The ESS of the MCMC chain is an estimate of the number of independent samples that an MCMC represents.

표집 빈도 (Sampling Frequency)

아직 쓰여지지 않음

팁 데이트 (Tip-Date)

분자 시계와 알려진 tree topology를 가정하는 비-동시대 서열의 집합에서 돌연변이율의 최대우도 (Maximum Likelihood) 예측을 얻는 프로그램
BEAST는 매우 비슷한 분석방법을 제공한다, 하지만 추가되어 있는 완화된 이점은 알려진 tree topology와 사전통계분포 결합하는 능력을 필요로 한다.
 
A program that can obtain Maximum Likelihood (ML) estimates of mutation rate from a set of non-contemporaneous sequences assuming a molecular clock and a known tree topology. BEAST offers a very similar method of analysis, but with the added benefits of relaxing the need for a known tree topology and providing the ability to incorporate priors.