본문 바로가기
R 주제/R 기초 및 통계 강의

[R강의] 107. 히스토그램에서 density는 상대도수가 아닙니다.

by 만다린망고 2021. 1. 7.
반응형

 


먼저 히스토그램에서 density는 두가지가 있다는 사실을 알고 시작합시다. 하나는 히스토그램을 그린 결과로 출력되는 density와 옵션으로 입력하는 density입니다. 옵션으로 입력하는 density는 히스토그램 막대에 체크무늬를 만들어주는 것인데, 우리가 오늘 다루려고 하는 density는 히스토그램을 그린 결과로 출력되는 density입니다. 

 

데이터를 하나 정의합시다. 키 데이터입니다. 계급값과 도수를 아래와 같이 갖도록 만들겠습니다.

 

160-170 : 4명

170-180 : 6명

 

상대도수는 아래와 같습니다. 

 

160-170 : 0.4

170-180 : 0.6

 

데이터는 아래와 같이 만들면 됩니다. 

 

height=c(161,162,163,164,171,172,173,174,175,176)

 

히스토그램을 그려봅시다. 

 

myhist=hist(height,breaks=c(160,170,180))

 

 

y축의 디폴트 값은 '빈도'입니다. probability 옵션을 TRUE로 설정하면 아래와 같은 그래프를 그려줍니다. 

 

myhist2=hist(height,breaks=c(160,170,180),probability=TRUE)

 

 

아무리 봐도 상대도수는 아닙니다. 0.04?0.06? 이게 뭘까요. 이 값은 확률밀도값입니다. probabiltiy 옵션을 TRUE로 하면 확률밀도함수를 그려줍니다. 전체 면적이 1이 되도록 만들어준 것입니다. 각 막대의 '넓이'가 해당 구간이 발생할 확률, 즉 상대도수가 됩니다. 

 

이 데이터는 어디에 저장되어 있을까요? 아래와 같이 히스토그램에 density라는 이름으로 저장되어 있습니다. density값은 확률 밀도값입니다!

 

> myhist2
$breaks
[1] 160 170 180

$counts
[1] 4 6

$density
[1] 0.04 0.06

$mids
[1] 165 175

$xname
[1] "height"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"
반응형

댓글