본문 바로가기
R 주제/R 기초 및 통계 강의

[R강의] 124. 카이제곱검정 하는 방법 (+ Yates' continuity correction 무엇인가)

by 만다린망고 2021. 9. 9.
반응형

 

 

카이제곱 검정 설명

카이제곱검정은 그룹들의 비율을 비교하는 검정입니다. 독립변수와 종속변수 모두 범주형 데이터인 경우에 사용합니다. 예를 들면 아래와 같은 데이터가 있습니다. 성별에 따라 무서운 영화를 좋아하는 비율을 조사하여 표로 정리한 것입니다. 이러한 표를 분할표라고 부릅니다. 

 

 

남자 집단의 무서운 영화 선호비율과 여자 집단의 무서운영화 선호비율을 비교하고 싶은 상황입니다. 비율 비교입니다. 독립변수는 성별입니다. 성별은 '남' '여' 두 값을 갖는 범주형자료입니다. 종속변수는 선호여부입니다. 선호여부는 '호' '불호' 두 값을 갖는 범주형자료입니다. 

 

귀무가설과 대립가설은 아래와 같습니다.

 

귀무가설 = 성별에 따른 무서운영화 선호비율은 같다.

귀무가설 = 성별에 따른 무서운영화 선호비율은 다르다. 

 

기타 고려사항

카이제곱검정은 목적에 따라 적합도검정, 독립성검정, 동질성검정으로 나뉘긴 하는데 검정의 원리는 같습니다. 이론강의가 아니므로 설명은 생략하겠습니다. 

 

독립변수의 수준이 셋 이상으로 늘어날 수 있고, 종속변수의 수준이 셋 이상으로 늘어날 수도 있습니다. 수준이 셋 이상이면 사후검정을 통해 어디서 차이가 발생했는지 확인할 수 있습니다. 이후에 다루기로 하고 이번 강의에서는 둘다 수준이 2개인 경우만을 다루겠습니다. 

 

카이제곱검정을 하는 과정에서 기대빈도를 계산하게 되는데 기대빈도가 <5 인 셀이 20% 보다 많은 경우 카이제곱 검정 대신 피셔의 정확검정을 사용해야 합니다.

 

 

R실습

먼저 분할표를 만들겠습니다. 

 

#분할표 만들기
r1=c(70,50)
r2=c(30,50)
data=rbind(r1,r2)


> data
   [,1] [,2]
r1   70   50
r2   30   50

 

카이제곱검정은 chisq.test 함수를 사용합니다. Yates' continuity correction 이 디폴트로 적용되어 있기 때문에 이를 해제하기 위해 correct=FALSE 를 옵션으로 설정해주겠습니다. 

 

> chisq.test(data,correct=FALSE)

	Pearson's Chi-squared test

data:  data
X-squared = 8.3333, df = 1, p-value = 0.003892

 

이번에는 Yates' continuity correction 을 적용한 결과입니다. 옵션을 따로 설정해주지 않으면 됩니다. 

 

> chisq.test(data)

	Pearson's Chi-squared test with Yates' continuity correction

data:  data
X-squared = 7.5208, df = 1, p-value = 0.006099

 

일반 카이제곱검정의 p값과 Yates' continuity correction 의 p값입니다. 

 

p-value = 0.003892

p-value(Yates') = 0.006099

 

Yates' continuity correction 의 결과가 더 보수적이라는 것을 알 수 있습니다. 이유를 설명드리겠습니다. Yates' continuity correction 은 카이제곱검정의 오차를 교정하기 위해 검정통계량은 아래와 같이 수정합니다. 분자의 제곱되는 항에 절댓값을 씌우고 0.5를 뺀 것입니다. 이는 검정통계량의 크기를 작아지게 합니다. 

 

$\chi ^{2}=\sum_{}^{}\sum_{}^{}\frac{(\left | O_{ij}-E_{ij} \right |-0.5)^{2}}{E_{ij}}$

 

카이제곱 검정통계량보다 작아지게 되고 p값은 커집니다. 카이제곱분포에서는 검정통계량이 작을 수록 p값이 큽니다. 

 

교정의 정도가 너무 지나쳐서 쓰지 말라는 의견이 있었습니다. 아래는 해당 의견 링크입니다. 

 

http://www.how2stats.net/2011/09/yates-correction.html

 

Yates' Correction

Yates' correction is an adjustment made to chi-square values obtained from 2 by 2 contingency table analyses (e.g., Pearson chi-square a...

www.how2stats.net

 

 

반응형

댓글