본문 바로가기
R특강/하루만에 끝내는 R 기초

[하루만에 끝내는 R기초] 9교시. 그래프, t검정

by 만다린망고 2022. 11. 19.
반응형

지난시간에 함수와 패키지를 배웠습니다. R의 기본적인 내용은 다 배운 것 입니다. 

 

목차를 가져와서 오늘 배울 내용이 무엇인지 알아봅시다. 

 

1교시) 강의 소개

2교시) R설치, R스튜디오 설치
3교시) 자료형
4교시) 변수
5교시) 자료구조
6교시) 연산자(산술,비교,논리)
7교시) 조건문, 반복문
8교시) 함수, 패키지
9교시) 그래프(박스플롯), t검정
10교시) 단축키 소개 및 전체요약

 

오늘은 그래프를 그려보고, t검정을 해보려고 합니다. R이 실제 업무에 사용되는 상황을 맛보는 시간입니다. 통계를 잘 모르시는 분들은 이해가 잘 안되는 부분이 많을 텐데요. 미리 경험해본다고 생각하고 한번 따라해봅시다. 

 

4강에서 만든 데이터를 가져옵시다. 

 

name=c('김함수','박산술','이비교','송논리','최검정','유반복')
gender=c('남','남','남','여','여','여')
age=c(35,27,42,33,25,47)
height=c(183,177,175,167,155,173)
weight=c(72,69,78,58,47,65)

 

우리는 남자 키 평균과 여자 키 평균을 비교하고 싶은 상황입니다. 두 집단의 평균 비교에는 t검정이 사용됩니다. 남자 3명, 여자 3명은 너무 작은 크기의 표본이라 t검정을 할 수 없습니다. 표본 크기가 각각 30명 이상은 되어야 하는데요. 간단히 연습만 해보려는 것이므로 표본 크기는 충분히 크다고 가정하고 진행합시다. 

 

나중에 현업에서 통계를 쓸 일이 있다면 보통 데이터는 엑셀에서 불러오게 됩니다. 엑셀에서 데이터를 불러올 때는 데이터프레임 형태로 불러옵니다. 위 데이터도 데이터프레임 형태로 만들어줍시다. 

 

 

t검정을 하기 전에 상자수염그림을 그려서 이상치가 있는지 확인해줍니다. 상자수염그림은 통계분석에서 정말 많이 사용되는 그래프입니다. 최솟값, 25% 위치의 값, 50% 위치의 값, 75% 위치의 값, 최댓값, 이상치라는 많은 정보를 제공해줍니다. 상자수염그림은 boxplot 이라는 함수를 사용합니다. 우리는 남자와 여자 키 각각의 상자수염그림을 그리고 싶습니다. 아래와 같이 입력합니다. 

 

 

괄호 안은 수식인데요. height~gender 는 gender 를 기준으로 height를 분류하겠다는 의미입니다. 성별을 기준으로 키를 분류한다는 말입니다. df는 height와 gender가 속한 데이터프레임 이름입니다. 위 명령어를 말로 표현하면 아래와 같습니다. 

 

"df 라는 데이터프레임에는 height 와 gender 라는 열이 있다. height 라는 열을 gender 를 기준으로 분류하여 상자수염그림을 그려다오."

 

결과는 아래와 같습니다. 

 

 

네모가 나왔는데요. 제 맥북에서 한글이 깨져서 그렇습니다. 여러분들은 아마 왼쪽이 '남', 오른쪽이 '여' 라고 나올겁니다. 남자 키가 훨씬 큰 것을 알 수 있습니다. 

 

이제 t검정을 해봅시다. t검정은 t.test 라는 함수를 사용합니다. 아래와 같이 입력합니다. 입력 방법은 boxplot 과 같습니다. 

 

 

p값이 0.05보다 커서 유의차가 없다고 나옵니다. 남자가 훨씬 더 큰데 이상한 결과가 나왔죠? 표본 크기가 너무 작아서 그렇습니다. 

 

이번시간에는 상자수염그림을 그려보고 t검정을 해보며 통계분석 과정을 간단히 살펴봤습니다. 

 

#강의영상

 

반응형

댓글