5. 자료의 통계량 구하는 법 (평균값, 중간값, 최빈값, 분산 +sort 함수)
오늘은 자료의 통계량을 구해봅시다. 우리가 흔히 아는 통계량은 평균과 분산이 있습니다.
중간값과 최빈값은 처음 보시는 분들이 계실텐데요. 지금부터 설명드리겠습니다.
5.1 sort 함수
sort함수는 오름차순,내림차순정렬을 해주는 함수입니다.
> x=c(1,5,3,2,6)
> sort(x)
[1] 1 2 3 5 6
디폴트(default)기능이 오름차순이라는 것을 알 수 있습니다.
sort(x)는 sort(x,decreasing=FALSE) 에서 decreasing=FALSE가 생략된 형태입니다.
내림차순정렬은 이렇게 하면 됩니다.
> sort(x,decreasing=TRUE)
[1] 6 5 3 2 1
5.2 mean(평균)
이번에는 자료의 평균을 구해봅시다.
다섯과목의 시험점수를 입력해봅시다.
> score=c(94,95,92,100,98)
> mean(score)
[1] 95.8
5.3 median(중앙값)
중앙값은 크기순서대로 나열했을 때, 순서가 중간인 값입니다. 중앙값의 계산 방법은 자료의 크기(원소의 수)가 홀수일 때와 짝수일 때로 나뉩니다.
먼저 자료의 크기가 홀수인경우부터 살펴봅시다.
> score=c(94,95,92,100,98)
> median(score)
[1] 95
95가 맞는지 sort함수로 확인해볼게요.
> sort(score)
[1] 92 94 95 98 100
이번에는 자료의 크기가 짝수인 경우를 생각해봅시다. 자료의 크기가 짝수면 중앙에오는
값이 둘이 됩니다. 예를들어 순서대로 나열된 a b c d e f 라는 자료가 있다면, 중앙에 오는 값은 c와 d 두 값입니다. 이때 중앙값은 두 값의 평균으로 구합니다. 과목을 하나 늘려서 여섯과목의 점수를 입력
해봅시다.
> score=c(94,95,92,100,98,88)
> median(score)
[1] 94.5
sort함수를 이용해 크기 순서대로 나열하고 가운데 두 값의 평균을 구해서 확인해봅시다.
> sort(score)
[1] 88 92 94 95 98 100
> (94+95)/2
[1] 94.5
5.4 mode(최빈값)
최빈값은 자료에서 가장 자주 등장하는 값입니다.
그런데 R에는 최빈값을 구해주는 내장함수가 없습니다. 다음 강의에서 함수 정의하는 방법을 배워보며, 최빈값을 구해보겠습니다.
5.5 var(분산)
이번에는 분산을 구해봅시다.
> score=c(94,95,92,100,98,88)
> var(score)
[1] 18.3
모분산일까요. 표본분산일까요. 직접 분산을 계산해서 확인해봅시다.
> score=c(94,95,92,100,98,88)
> deviation=score-mean(score)
> deviation
[1] -0.5 0.5 -2.5 5.5 3.5 -6.5
> deviation_sq=deviation^2
> deviation_sq
[1] 0.25 0.25 6.25 30.25 12.25 42.25
> sum(deviation_sq)/length(score)
[1] 15.25
> sum(deviation_sq)/(length(score)-1)
[1] 18.3
표본분산이죠? var( ) 함수는 표본분산을 계산해줍니다.
영상이 더 편하신 분
'R 주제 > R 기초 및 통계 강의' 카테고리의 다른 글
[R 강의] 7. 문자열, NA, NULL, Inf, NaN (0) | 2020.03.14 |
---|---|
[R 강의] 6. 정규분포 함수(rnorm, dnorm, pnorm, qnorm) (0) | 2020.03.14 |
[R 강의] 4. 유용한 함수 1탄 (min, max, range, length, sum, prod) (0) | 2020.03.14 |
[R강의] 3. 변수에 숫자 데이터 입력 (0) | 2020.03.14 |
[R강의] 2. 기본연산자, 기본함수 (0) | 2020.03.14 |
댓글