본문 바로가기
R 주제/R 기초 및 통계 강의

[R 강의] 49. Q-Q plot 그리는 방법 (qqnorm)

by 만다린망고 2020. 3. 25.
반응형
도구 R로 푸는 통계

49. Q-Q plot 그리는 방법 (qqnorm)



Q-Q plot은 Quantile-Quantile plot 의 약어입니다. Quantile은 '분위수'입니다. 

(분위수 설명 : http://hsm-edu.tistory.com/533)


이름 자체가 의미하고 있듯이 Q-Q plot은 분위수들을 그래프로 그리는 것입니다. 좌표평면에 있는 두개의 축에 서로 다른 두 데이터의 분위수를 각각 그려서 서로 비교합니다. 비교를 통해 두 데이터가 같은 분포를 따른는지 정성적인 판단을 합니다. 


우리가 Q-Q plot을 사용할때는 주로 우리가 가진 데이터와 정규분포를 비교합니다. 따라서 '정규성 검정'의 한 방법이라고 이야기할 수도 있습니다. 


- 넓은 의미의 Q-Q plot : 임의의 두 데이터 분포를 비교함

- 좁은 의미의 Q-Q plot : 정규성 검정의 한 방법


우리는 정규성검정을 위한 Q-Q plot을 그려볼 것입니다. qqnorm 함수를 사용합니다. qqnorm함수에 분위수 계산이 포함되어 있는데요. 이때 Type 9 의 계산방법을 사용합니다. (분위수 설명 : http://hsm-edu.tistory.com/533)


1부터 1000까지 수 중에서 임의로 50개를 뽑겠습니다.

(랜덤 샘플링 방법 : http://hsm-edu.tistory.com/457)


> SP=sample(1:1000,50)


Q-Q plot을 그리는 방법은 아래와 같습니다.


> qqnorm(SP)

> qqline(SP)


 


 

이번에는 샘플을 표준정규분포에서 뽑고 Q-Q plot을 그려봅시다.

(표준정규분포에서 임의추출 : http://hsm-edu.tistory.com/263)


> SP_normal=rnorm(50)

> qqnorm(SP_normal)

> qqline(SP_normal)



 


qqnorm 에서 분위수를 구할 때 ppoints 함수를 사용합니다. ppoints 함수는 순위기반표준화(rank-based normalization)의 일종입니다. 순위기반표준화 방법에는 Van der waerden법, Blom법, Rankit법, Tukey법 등이 있습니다. R에서 제공하는 ppoints 함수는 n이 10 이하일 때는 Blom 법을, 10 초과일 때는 Rankit 법을 사용합니다. 각 방법에 대해서는 아래 표에 간단히 정리해 놓았습니다. 


*SPSS에서 Q-Q plot을 그릴 때는 아래 네 방법 중 선택할 수 있습니다. 


Procedure 

Year 

Formula 

Van der Waerden 

1952 

r / (n+1) 

 Blom

1954 

(r - 3/8) / (n + 1/4) 

Rankit 

 1956

(r - 1/2) / n 

 Tukey

 1962

 (r - 1/3) / (n + 1/3)

where r is the rank, ranging from 1 to n


(표 출처) Impact of Rank-Based Normalizing Transformations on the Accuracy of Test Scores, Shira R. Solomon, 2009, Journal of Modern Applied Statistical Methods


 

영상이 더 편하신 분


반응형

댓글