생물정보학/Statistics

Correspondence Analysis (대응 분석)

케이든 2016. 8. 30. 16:48

Correspondence Analysis (대응 분석)


(Correspondence Analysis) 대응분석이란 다변량 범주형 자료를 대상으로 하는 탐색적 자료분석 중 하나이다.

기본 원리는 변수간의 카이제곱 거리를 구한 후, 이를 이용해 (x,y)값을 구한 후 이에 대한 거리를 이용하여 변수간의 연관성을 재는 것이다.


예제 - Hodgkin's disease (1979)

호지킨 병림프절종창을 초래하는 대표적인 질환

림프절 - 포유류가 가지고 있는 면역 기관 중 하나

종창 - 조직의 비대 또는 증식에 의하여 신체의 국부가 부어오르는 것


538명의 환자에게 병의 타입과 3개월 후의 경과상태를 조사


Histological type

 Response

 Positive

 Partial

 None

 Total

 LP

74

18

12

104

 NS

68

16

12

96

 MC

154

54

58

266

 LD

18

10

44

72

 Total

314

98

126

538


LP - Lymphocyte predominance (림프구 우세)

NS - Nodular Sclerosis (결정성 경화)

MC - Mixed Cellularity (혼합 세포형)

LD - Lymphocyte Depletion (림프구 결핍)


분석결과 (R package 사용)


Principal inertias는 Min(열의수-1, 행의수-1)로 결정되므로 여기에선 2개가 된다.

1번째 요인으로 98.11%의 설명력을 가지고 있으나, 2개까지 해서 도표를 그려 가시적으로 해석하기 좋게 표시하면 아래와 같다.



위의 그림과 같이 LP, NS의 병질환의 경우 3개월후의 병결과가 긍정적으로 나오나, MC의 경우는 부분적, LD는 전혀 없음으로 묶이는 것을 알 수 있다.


이와 같이 어떠한 분석을 요하는 것이 아닌, 데이터에 대한 탐색적 결과를 보기 위해 사전 분석으로 대응분석을 사용할 수 있겠다.

출처: http://blog.naver.com/asus1984/120106378073

'생물정보학 > Statistics' 카테고리의 다른 글

통계학 용어집(영한)  (0) 2014.02.26
[SPSS] ANOVA후 사후분석(Post-hoc Analysis)  (0) 2014.01.20