본문 바로가기
반응형

데이터분석8

[R dplyr의 이해] 8. 유니크한 값만 추출하기 (distinct) distinct 함수를 이용하면 데이터프레임에서 선택한 열의 유니크한 값을 추출할 수 있습니다. 1. 하나의 열에서 유니크한 값 추출하기 mpg 데이터의 manuracturer 열의 유니트한 값들을 출력해봅시다. mpg %>% distinct(manufacturer) > mpg %>% distinct(manufacturer) # A tibble: 15 × 1 manufacturer 1 audi 2 chevrolet 3 dodge 4 ford 5 honda 6 hyundai 7 jeep 8 land rover 9 lincoln 10 mercury 11 nissan 12 pontiac 13 subaru 14 toyota 15 volkswagen 2. 여러 열에서 유니크한 값 출력하기 cyl 열을 기준으로 내.. 2023. 2. 8.
[R dplyr의 이해] 6. 원하는 열 추출 및 제외하기 (select) 1. 원하는 열 추출하기 내장데이터인 mpg 데이터에서 model과 year 열을 추출해봅시다. mpg %>% select(model,year) 2. 원하지 않는 열 제외하기 mpg 데이터에서 drv 열을 제외해봅시다. 마이너스를 붙이면 됩니다. mpg %>% select(-drv) 2023. 2. 7.
[R dplyr의 이해] 5. 조건을 만족하는 행 추출 (filter) tidyverse의 dplyr(디플라이알)에서 제공하는 filter 함수는 특정 조건을 만족하는 행만 추출하는 함수입니다. 내장데이터인 mpg를 이용해서 실습해봅시다. mpg 는 자동차 데이터입니다. > mpg # A tibble: 234 × 11 manufacturer model displ year cyl trans drv cty hwy fl class 1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compact 2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compact 3 audi a4 2 2008 4 manual(m6) f 20 31 p compact 4 audi a4 2 2008 4 auto(av) f 21 30 p compact 5 audi.. 2023. 2. 7.
[R dplyr의 이해] 4. 주요 함수 한눈에 보기 tidyverse 의 dplyr 패키지에는 아래와 같은 주요 함수들이 있습니다. 1) filter 함수 : 행 선택 2) select 함수 : 열 선택 3) arrange : 정렬 4) distinct : 유니크한 값만 출력 5) mutate 함수 : 연산을 통한 열 변환 혹은 생성 6) summarise 함수 : 원하는 열의 통계량 출력 7) group_by 함수 : 그룹화 다음시간부터 하나씩 공부해봅시다. 2023. 2. 7.
[R강의] 136. rbind로 데이터프레임들 결합할 때, 구분하는 열 추가하기 데이터프레임을 두개 만들어봅시다. 하나는 남자의 키와 몸무게이고, 하나는 여자의 키와 몸무게 입니다. weight=c(78,88,98) height=c(170,175,180) male_df=data.frame(weight,height) weight=c(48,58,68) height=c(150,160,170) female_df=data.frame(weight,height) 우리는 두 데이터프레임을 합치고 싶은 상태인데요. 데이터프레임이 합쳐진 후에도 남녀를 구분하고 싶습니다. 각 데이터프레임에 열을 하나씩 추가합시다. 아래와 같이 입력합니다. male_df['gender']='M' female_df['gender']='F' 각 데이터프레임은 아래와 같이 변했습니다. > male_df weight heigh.. 2023. 1. 31.
[R dplyr의 이해] 3. 파이프 연산자 %>% tidyverse나 dplyr은 몰라도 파이프 연산자는 아는 사람이 있을 정도로 유명하고 유용한 연산자입니다. 우리가 어떤 변수 x에 평균과 반올림 함수를 적용했다고 합시다. 아래와 같습니다. round(mean(x)) 파이프 연산자를 이용하면 위 코드를 아래와 같이 쓸 수 있습니다. x %>% mean %>% round 만약 옵션이 있다면, 옵션은 어떻게 설정해야할까요? iris 데이터에 head 함수를 사용하는 상황을 생각해봅시다. 옵션을 설정하여 세 줄만 출력할 것입니다. > head(iris,n=3) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.. 2023. 1. 30.
[R강의] 134. 데이터프레임 열이름이 다른 경우 rbind 적용하기 rbind 함수는 데이터프레임들의 행을 결합하는 함수입니다. 데이터프레임들의 열 이름이 같아야 사용이 가능합니다. 변수 종류는 같은데 열 이름이 다르게 쓰여진 경우에 rbind 함수를 적용하는 방법을 알아봅시다. 아래와 같은 두 데이터프레임이 있습니다. A=data.frame(id=c(1,2,3), weight=c(78,88,98), HEight=c(170,175,180)) B=data.frame(id=c(4,5,6), weight=c(58,68,78), height=c(140,155,160)) > A id weight HEight 1 1 78 170 2 2 88 175 3 3 98 180 > B id weight height 1 4 58 140 2 5 68 155 열 이름이 달라서 rbind 함수 적용.. 2023. 1. 25.
[R강의] 110. 데이터분석 결과를 '표'로 출력하는 방법 두 가지 검정결과 등을 커멘드 창에서 입력해서 보는 것이 불편합니다. t검정을 예로 들면, t검정 결과가 오른쪽 plot 창에 출력되면 편리할 것입니다. 또는 새 탭에 표 형식으로 출력할 수도 있습니다. 두 방법 모두 설명드리겠습니다. 한가지 상황을 가정하겠습니다. A,B 두 집단의 키와 몸무게 비교하는 상황입니다. 아래와 같은 표를 출력하는 것이 목적입니다. A집단 B집단 p-value 키 평균±표준편차 평균±표준편차 p값 몸무게 평균±표준편차 평균±표준편차 p값 1. View로 출력하는 방법 설명은 코드 주석으로 대신합니다. library(plotrix) library(dplyr) #데이터 생성 A_Height=rnorm(100,183,3) B_Height=rnorm(100,172,5) A_Weight=rno.. 2021. 5. 26.
반응형