본문 바로가기
R tidyverse/하루만에 끝내는 dplyr

[R dplyr의 이해] 10. 원하는 열의 통계량 출력하기 (summarise, group_by)

by 만다린망고 2023. 2. 8.
반응형

summarise 함수를 이용하면 데이터프레임 열의 다양한 통계량을 보기 좋게 출력할 수 있습니다. 

 

1. 통계량 출력하기

iris 데이터에서 Sepal.Length 의 평균과 표준편차를 출력해봅시다. 

iris %>% summarise( mean(Sepal.Length),sd(Sepal.Length))


##출력결과
> iris %>% summarise( mean(Sepal.Length),sd(Sepal.Length))
  mean(Sepal.Length) sd(Sepal.Length)
1           5.843333        0.8280661


아래와 같이 출력되는 열 이름을 지정해줄 수도 있습니다. 

iris %>% summarise( mean=mean(Sepal.Length),stdev=sd(Sepal.Length))

##출력결과
> iris %>% summarise( mean=mean(Sepal.Length),stdev=sd(Sepal.Length))
      mean     stdev
1 5.843333 0.8280661

 

2. 그룹별로 통계량 출력하기

group_by 함수를 summarise 함수와 함께 이용하면 그룹별 통계량을 출력할 수 있습니다. iris 데이터에서 Species 별로 Sapel.Length 의 평균과 표준편차를 출력하는 방법은 아래와 같습니다. 

iris %>% 
  group_by(Species) %>%
  summarise( mean=mean(Sepal.Length),stdev=sd(Sepal.Length))


##출력결과
> iris %>% 
+   group_by(Species) %>%
+   summarise( mean=mean(Sepal.Length),stdev=sd(Sepal.Length))
# A tibble: 3 × 3
  Species     mean stdev
  <fct>      <dbl> <dbl>
1 setosa      5.01 0.352
2 versicolor  5.94 0.516
3 virginica   6.59 0.636
반응형

댓글