본문 바로가기
R 주제/R 기초 및 통계 강의

[R 강의] 5. 자료의 통계량 구하는 법 (평균값,중간값,최빈값,분산 + sort함수)

by 만다린망고 2020. 3. 14.
반응형
도구 R로 푸는 통계

5. 자료의 통계량 구하는 법 (평균값, 중간값, 최빈값, 분산 +sort 함수)



오늘은 자료의 통계량을 구해봅시다. 우리가 흔히 아는 통계량은 평균과 분산이 있습니다. 


중간값과 최빈값은 처음 보시는 분들이 계실텐데요. 지금부터 설명드리겠습니다. 


5.1 sort 함수


sort함수는 오름차순,내림차순정렬을 해주는 함수입니다.


> x=c(1,5,3,2,6)

> sort(x)

[1] 1 2 3 5 6


디폴트(default)기능이 오름차순이라는 것을 알 수 있습니다.


sort(x)는 sort(x,decreasing=FALSE) 에서 decreasing=FALSE가 생략된 형태입니다. 


내림차순정렬은 이렇게 하면 됩니다. 


> sort(x,decreasing=TRUE)

[1] 6 5 3 2 1


5.2 mean(평균)


이번에는 자료의 평균을 구해봅시다.

다섯과목의 시험점수를 입력해봅시다.


> score=c(94,95,92,100,98)

> mean(score)

[1] 95.8


5.3 median(중앙값)


중앙값은 크기순서대로 나열했을 때, 순서가 중간인 값입니다. 중앙값의 계산 방법은 자료의 크기(원소의 수)가 홀수일 때와 짝수일 때로 나뉩니다.


먼저 자료의 크기가 홀수인경우부터 살펴봅시다.


> score=c(94,95,92,100,98)

> median(score)

[1] 95


95가 맞는지 sort함수로 확인해볼게요.


> sort(score)

[1]  92  94  95  98 100


이번에는 자료의 크기가 짝수인 경우를 생각해봅시다. 자료의 크기가 짝수면 중앙에오는 


값이 둘이 됩니다. 예를들어 순서대로 나열된 a b c d e f  라는 자료가 있다면, 중앙에 오는 값은 c와 d 두 값입니다. 이때 중앙값은 두 값의 평균으로 구합니다. 과목을 하나 늘려서 여섯과목의 점수를 입력


해봅시다. 


> score=c(94,95,92,100,98,88)

> median(score)

[1] 94.5


sort함수를 이용해 크기 순서대로 나열하고 가운데 두 값의 평균을 구해서 확인해봅시다. 


> sort(score)

[1]  88  92  94  95  98 100

> (94+95)/2

[1] 94.5


5.4 mode(최빈값)


최빈값은 자료에서 가장 자주 등장하는 값입니다. 

그런데 R에는 최빈값을 구해주는 내장함수가 없습니다. 다음 강의에서 함수 정의하는 방법을 배워보며, 최빈값을 구해보겠습니다. 


5.5 var(분산)


이번에는 분산을 구해봅시다.


> score=c(94,95,92,100,98,88)

> var(score)

[1] 18.3


모분산일까요. 표본분산일까요. 직접 분산을 계산해서 확인해봅시다.


> score=c(94,95,92,100,98,88)

> deviation=score-mean(score)

> deviation

[1] -0.5  0.5 -2.5  5.5  3.5 -6.5


> deviation_sq=deviation^2

> deviation_sq

[1]  0.25  0.25  6.25 30.25 12.25 42.25


> sum(deviation_sq)/length(score)

[1] 15.25


> sum(deviation_sq)/(length(score)-1)

[1] 18.3


표본분산이죠? var( ) 함수는 표본분산을 계산해줍니다.  



영상이 더 편하신 분


반응형

댓글