49. Q-Q plot 그리는 방법 (qqnorm)
Q-Q plot은 Quantile-Quantile plot 의 약어입니다. Quantile은 '분위수'입니다.
(분위수 설명 : http://hsm-edu.tistory.com/533)
이름 자체가 의미하고 있듯이 Q-Q plot은 분위수들을 그래프로 그리는 것입니다. 좌표평면에 있는 두개의 축에 서로 다른 두 데이터의 분위수를 각각 그려서 서로 비교합니다. 비교를 통해 두 데이터가 같은 분포를 따른는지 정성적인 판단을 합니다.
우리가 Q-Q plot을 사용할때는 주로 우리가 가진 데이터와 정규분포를 비교합니다. 따라서 '정규성 검정'의 한 방법이라고 이야기할 수도 있습니다.
- 넓은 의미의 Q-Q plot : 임의의 두 데이터 분포를 비교함
- 좁은 의미의 Q-Q plot : 정규성 검정의 한 방법
우리는 정규성검정을 위한 Q-Q plot을 그려볼 것입니다. qqnorm 함수를 사용합니다. qqnorm함수에 분위수 계산이 포함되어 있는데요. 이때 Type 9 의 계산방법을 사용합니다. (분위수 설명 : http://hsm-edu.tistory.com/533)
1부터 1000까지 수 중에서 임의로 50개를 뽑겠습니다.
(랜덤 샘플링 방법 : http://hsm-edu.tistory.com/457)
> SP=sample(1:1000,50)
Q-Q plot을 그리는 방법은 아래와 같습니다.
> qqnorm(SP)
> qqline(SP)
이번에는 샘플을 표준정규분포에서 뽑고 Q-Q plot을 그려봅시다.
(표준정규분포에서 임의추출 : http://hsm-edu.tistory.com/263)
> SP_normal=rnorm(50)
> qqnorm(SP_normal)
> qqline(SP_normal)
qqnorm 에서 분위수를 구할 때 ppoints 함수를 사용합니다. ppoints 함수는 순위기반표준화(rank-based normalization)의 일종입니다. 순위기반표준화 방법에는 Van der waerden법, Blom법, Rankit법, Tukey법 등이 있습니다. R에서 제공하는 ppoints 함수는 n이 10 이하일 때는 Blom 법을, 10 초과일 때는 Rankit 법을 사용합니다. 각 방법에 대해서는 아래 표에 간단히 정리해 놓았습니다.
*SPSS에서 Q-Q plot을 그릴 때는 아래 네 방법 중 선택할 수 있습니다.
Procedure |
Year |
Formula |
Van der Waerden |
1952 |
r / (n+1) |
Blom |
1954 |
(r - 3/8) / (n + 1/4) |
Rankit |
1956 |
(r - 1/2) / n |
Tukey |
1962 |
(r - 1/3) / (n + 1/3) |
where r is the rank, ranging from 1 to n
(표 출처) Impact of Rank-Based Normalizing Transformations on the Accuracy of Test Scores, Shira R. Solomon, 2009, Journal of Modern Applied Statistical Methods
영상이 더 편하신 분
'R 주제 > R 기초 및 통계 강의' 카테고리의 다른 글
[R 강의] 51. 중심극한정리 시뮬레이션 (0) | 2020.03.26 |
---|---|
[R 강의] 50. 화면분할, 여러 그래프를 한 화면에 그리기 (par 함수) (0) | 2020.03.25 |
[R 강의] 48. 분위수 구하는 방법 (quantile) (0) | 2020.03.25 |
[R 강의] 47. 히스토그램에 도수 표시하기 (0) | 2020.03.25 |
[R 강의] 46. 히스토그램 내부 구조 뜯어보기 (0) | 2020.03.24 |
댓글