Lasso Regression
통상적으로 회귀분석(regression analysis)에서 회귀계수(regression coefficient)의 추정량을 구하기 위해서는 잔차(residual)의 제곱합을 최소로 하는 최소제곱법(leaset squared method)을 사용한다. 그러나 설명변수(explanatory variables)의 개수가 증가하면 설명변수들 사이의 강한 상관관계로 인한 다중공선성(multicollinearity)이 존재할 수 있기 때문에 최소제곱 회귀계수 추정량의 분산이 커져 추정회귀식의 예측정확도가 떨어지는 문제점이 발생할 수 있다. 또한 설명변수의 개수가 증가하면 변수에 대한 해석력이 떨어진다. 다시 말해, 많은 설명변수 중 어떤 변수가 중요한 역할을 하는지에 대한 판단이 어려워진다.
Lasso regression은 능형 회귀(ridge regression)의 장점인 회귀계수 축소를 통해 예측 정확도(prediction accuracy)를 높이고, 동시에 영향력이 적은 회귀계수 값을 쉽게 0으로 만드는 변수 선택(variable selection)의 기능이 있어 해석력(interpretability)을 높여준다. 따라서 Lasso regression은 능형회귀의 예측정확도와 변수선택의 해석력을 모두 갖출 수 있는 분석방법으로 알려져 있다.
Lasso regression의 추정량은 다음의 식과 같이 구할 수 있다.
여기서 회귀계수 β1, · · · , βp의 값은 설명변수 xij 의 척도 (scale)에 의존하기 때문에 회귀계수 값의 크기가 그 변수의 영향력을 반영하지 못하기 때문에 xij에 표준화된 값을 사용한다. 또한 β0의 추정량은 항상 Y¯ 가 되기 때문에 β0에 대한 추정은 관심 대상에서 제외되고 β1, · · · , βp에 대한 최소화 문제로 귀착된다.
위 식을 다음과 같은 제약조건이 주어진 최소화 문제로 표시할 수 있다 (Tibshirani, 1996).
위 식의 제약조건인 t (≥ 0)는 회귀계수 값에 대하여 축소 정도를 조절하는 조절모수(tuning parameter)이다. 이 조절모수 t값이 줄어들면 중요하지 않은 변수의 회귀계수 값은 축소되면서 순서대로 0으로 만들어져 변수선택이 되는 효과가 생긴다. 조절모수 t값이 충분히 커지면 회귀계수 값에 대한 제약이 없어지므로 최소제곱 부분만 남아 Lasso 회귀추정량이 최소제곱 추정량이 된다.
출처: 박철용. 2013. 라소를이용한 간편한 주성분분석. 한국데이터정보과학회지 24(3), 533-541.
'식물미생물 > Science' 카테고리의 다른 글
식물병 목록 (0) | 2016.11.01 |
---|---|
Scale of numbers, deci, deca, centi, hecto etc.. (0) | 2015.09.11 |
LTR retrotransposons의 다양성 (0) | 2014.10.28 |
Microsatellite (SSR)에 대하여 (0) | 2014.10.14 |
Polyadenlyation (0) | 2014.10.05 |