본문 바로가기
반응형

분류 전체보기464

[R 크롤링] 7. 멜론차트에서 가수 이름도 출력 4강에서 멜론 차트의 순위권에 있는 노래 제목을 크롤링해봤습니다. 오늘은 가수 이름도 함께 출력하는 방법을 알아봅시다. 4강에서 사용한 코드는 아래와 같습니다. #라이브러리 불러오기 library(httr) library(rvest) #GET 함수로 서버에 정보 요청하기 url = 'https://www.melon.com/chart/' get_url = GET(url) #read_html 수로 html 코드 읽기 my_html=read_html(get_url,encoding='utf-8') #ellipsis rank01 클래스만 추출 pick1=html_nodes(my_html,'.ellipsis.rank01') #a 태그만 추출 pick2=html_nodes(pick1,'a') #텍스트 추출 pick3.. 2021. 3. 24.
[R강의] 109. 도수분포다각형 정규분포에서 표본을 추출하여 히스토그램을 하나 그려봅시다. d=rnorm(400,170,30) h=hist(data) 히스토그램이 저장된 변수 h를 콘솔창에 입력해봅시다. > h $breaks [1] 80 100 120 140 160 180 200 220 240 260 280 $counts [1] 3 9 53 83 92 94 51 12 2 1 $density [1] 0.000375 0.001125 0.006625 0.010375 0.011500 0.011750 0.006375 0.001500 0.000250 0.000125 $mids [1] 90 110 130 150 170 190 210 230 250 270 $xname [1] "data" $equidist [1] TRUE attr(,"class") [.. 2021. 3. 24.
[R강의] 108. 표준정규분포표 만들기 R을 이용하여 표준정규분포표를 만들어봅시다. 첫째줄을 먼저 만들고, z값에 0.1씩 더해가며 나머지 줄을 추가하는 코드입니다. #소수 둘째자리 z값 z_hrow=seq(0,0.09,0.01) #표준정규분포표 첫째줄 만들기 tab=round(pnorm(z_hrow),4) #나머지 줄 생성 for (i in seq(0.1,3.9,0.1)) { add_row=round(pnorm(z_hrow+i),4) tab=rbind(tab,add_row) } #열이름 colnames(tab)=z_hrow #행 이름 rownames(tab)=seq(0,3.9,0.1) #새 창에 출력하기기 View(tab) 2021. 3. 22.
R의 lapply 함수(리스트에 원하는 함수를 원하는 방향으로 적용) lapply 함수는 리스트에 원하는 함수를 카테고리마다 적용해줍니다. 예를들어봅시다. 아래와 같은 데이터가 있습니다. 어떤 반의 인원이 다섯명이고, 다섯사람이 세과목의 시험을 본 결과 데이터입니다. > Math=c(94,82,45,55,67) > English=c(88,86,56,90,50) > Science=c(87,76,65,43,55) 리스트에 넣었습니다. > Li1=list(Math=Math,English=English,Science=Science) > Li1 $Math [1] 94 82 45 55 67 $English [1] 88 86 56 90 50 $Science [1] 87 76 65 43 55 laaply 함수를 적용해봅시다. 각 카테고리별로 평균이 구해지고, 결과가 리스트 형태로 출력됩.. 2021. 3. 18.
R의 apply 함수(함수를 배열에 원하는 방향으로 적용) apply 함수는 벡터,행렬,배열에 원하는 함수를 원하는 방향으로 적용해줍니다. 예를들어봅시다. 아래와 같은 데이터가 있습니다. 어떤 반의 인원이 다섯명이고, 다섯사람이 세과목의 시험을 본 결과 데이터입니다. > Math=c(94,82,45,55,67) > English=c(88,86,56,90,50) > Science=c(87,76,65,43,55) 데이터프레임에 넣었습니다. > DF1=data.frame(Math,English,Science) > DF1 Math English Science 1 94 88 87 2 82 86 76 3 45 56 65 4 55 90 43 5 67 50 55 apply 함수를 적용해봅시다. apply함수는 아래와 같은 형식으로 입력합니다. apply(데이터, 방향, 함수).. 2021. 3. 18.
R에서 날짜 데이터의 연산하기 날짜 데이터를 만들어봅시다. > d1=as.Date("1919-04-13") 날짜데이터에 자연수를 더하거나 뻬는 연산이 가능합니다. 실수와 무리수로도 가능합니다. > d1+1 [1] "1919-04-14" > d1-23 [1] "1919-03-21" > d1+sqrt(2) [1] "1919-04-14" 곱셈과 나눗셈은 불가능합니다. > d1*3 Error in Ops.Date(d1, 3) : * not defined for "Date" objects > d1/2 Error in Ops.Date(d1, 2) : / not defined for "Date" objects 이번에는 두개의 날짜데이터를 만들어봅시다. d1은 대한민국 임시정부수립일이고 d2는 오늘 날짜입니다. > d1=as.Date("1919-0.. 2021. 3. 18.
R에서 날짜데이터 입력하기 (as.Date) R에서 날짜를 입력할 때는 일반적으로 아래와 같은 표기를 사용합니다. 2018-12-25 문자열을 이용해서 입력하고, as.Date 함수를 이용하여 문자열을 날짜 타입으로 변형해줍니다. > a=c("2018-12-21") > b=as.date(a) 정의한 벡터의 이름을 입력해 보면 둘의 차이를 알 수 없습니다. > b [1] "2018-12-21" > a [1] "2018-12-21" str 함수를 이용하면 날짜로 타입이 바뀐 것을 알 수 있습니다. > str(a) chr "2018-12-21" > str(b) Date[1:1], format: "2018-12-21" as.Date 함수에 사용되는 옵션을 알아봅시다. as.Date(x, format, tryFormats = c("%Y-%m-%d", "%Y.. 2021. 3. 18.
R에서 시간데이터로 산점도 그리기 시간데이터를 다뤄야 하는 상황이 있습니다. 예를들어 아래와 같이 제품의 판매시간-판매량이 표로 정리되어 있고 이 표를 가지고 그래프를 그리고 싶다고 해봅시다. Time Sales_Volume 2018-10-21 08:23:12 1 2018-10-28 15:33:55 5 2018-11-02 13:23:52 12 2018-11-08 17:12:01 3 2018-12-12 10:08:01 7 판매량은 숫자벡터로 입력하면 되는데, 시간의 경우는 조금 복잡합니다. 먼저 시간을 문자열 벡터로 입력합니다. 입력한 뒤 산점도를 그리겠습니다. > SV=c(1,5,12,3,7) > time=c("2018-10-21 08:23:12","2018-10-28 15:33:55","2018-11-02 13:23:52","2018-.. 2021. 3. 18.
[SQL 기초] 3. 데이터베이스 관리 시스템은 무엇인가 우리는 1,2강에서 SQL과 데이터베이스가 무엇인지 배웠습니다. 가볍게 개념만 배운 상태입니다. SQL은 데이터베이스에게 무언가 요청(Query)하는 언어입니다. 데이터베이스는 데이터를 조직화하여 모아놓은 것입니다. 데이터베이스 관리 시스템 데이터베이스는 어떻게 만들까요? 또 만들어진 데이터베이스에는 어떻게 접근하고, 수정하고, 조작하고, 공유할까요? 이런 일들을 수행하는 시스템이 필요합니다. 데이터베이스를 구축하고, 관리하는 프로그램을 데이터베이스 관리 시스템이라고 합니다. DATABASE MANAGEMENT SYSTEM 을 줄여소 DBMS라고 부릅니다. DBMS의 주요 기능 DBMS의 주요기능은 아래와 같습니다. 1) 데이터의 중복을 방지합니다. 저장공간 낭비를 줄이고, 일관성을 유지하기 위함입니다... 2021. 3. 11.
[SQL 기초] 2. 데이터베이스란 무엇인가? SQL은 데이터베이스에서 정보를 요청하는 언어였습니다. 데이터베이스가 무엇인지 알아보기 전에 데이터가 무엇인지 부터 알아봅시다. 데이터 데이터는 직역하면 자료입니다. 자료는 아주 광범위한 개념입니다. 컴퓨터에 저장된 PPT, PDF, 엑셀, 워드, TXT 모든 것이 자료입니다. 어떤 홈페이지에 담겨있는 모든 정보들도 자료입니다. 주고받은 카톡도 자료고, 저장된 번호들도 자료입니다. 과장해서 말하면 세상 모든 것이 자료입니다. 데이터베이스 데이터베이스도 일종의 자료인데, 아무 자료나 데이터베이스라고 하지는 않습니다. 데이터베이스의 사전적 정의는 아래와 같습니다. "데이터베이스는 데이터를 조직화(organize)하여 모아놓은 것입니다. " 데이터베이스라는 말을 뜯어보면 데이터+베이스입니다. 베이스는 '기지'.. 2021. 3. 10.
[SQL 기초] 1.SQL은 무엇인가 SQL이 무엇의 약어인지 알아봅시다. SQL은 Structured Query Language 의 약어입니다. Structured Structured는 구조화된이라는 뜻이니까. 엑셀시트처럼 뭔가 규격에 맞게 정리된 데이터의 느낌이다. 이건 SQL 언어가 구조화되어 있다는게 아니라, SQL 언어가 다루는 데이터가 구조화되어 있다는 의미이다. Query Query는 생소합니다. 사전적 의미는 문의,의문 이라는 뜻입니다. 요청이라고 해석해야 이해가 매끄럽게 될겁니다. Query : 요청 SQL은 요청하는 언어입니다. 무엇을 요청하는 걸까요. SQL은 데이터를 요청하는 언어입니다. 데이터를 어디로부터 요청할까요? 관계형 데이터베이스로부터 요청합니다. 데이터베이스가 무엇인지는 다음 글에서 알아봅시다. 여기까지 이해.. 2021. 3. 10.
[도구R과 마크다운] 1. R마크다운이 뭔가요? R마크다운은 R코드와 분석결과가 포함된 문서를 작성하는 것입니다. 문서 형태는 다양합니다. PDF를 만들 수도 있고, HTMl, docs 를 만들 수도 있습니다. 문서 뿐만 아니라 프리젠테이션용 pptx를 만들 수도 있습니다. html 을 이용하면 블로그나 웹사이트를 만드는 것도 가능합니다. 이때는 blowdown, radix 등의 패키지가 사용됩니다. 아래 그림을 보시면 마크다운의 작동 원리를 한눈에 알수 있습니다. 2021. 2. 10.
[R강의] 107. 히스토그램에서 density는 상대도수가 아닙니다. 먼저 히스토그램에서 density는 두가지가 있다는 사실을 알고 시작합시다. 하나는 히스토그램을 그린 결과로 출력되는 density와 옵션으로 입력하는 density입니다. 옵션으로 입력하는 density는 히스토그램 막대에 체크무늬를 만들어주는 것인데, 우리가 오늘 다루려고 하는 density는 히스토그램을 그린 결과로 출력되는 density입니다. 데이터를 하나 정의합시다. 키 데이터입니다. 계급값과 도수를 아래와 같이 갖도록 만들겠습니다. 160-170 : 4명 170-180 : 6명 상대도수는 아래와 같습니다. 160-170 : 0.4 170-180 : 0.6 데이터는 아래와 같이 만들면 됩니다. height=c(161,162,163,164,171,172,173,174,175,176) 히스토그램을.. 2021. 1. 7.
[엑셀통계] 49. t분포표 직접 만들어보기 먼저 t분포표의 틀을 만들어봅시다. 아래와 같은 틀을 만들겠습니다. 이 틀에 대해 설명드리겠습니다. 아래 빨간 부분은 자유도가 5인 t분포에서 단측검정 유의수준이 0.025인 경우의 우측꼬리의 t값을 의미합니다. 아래 그림을 보면 이해하실 수 있습니다. 값을 구해봅시다. T.INV 함수를 이용하여 구합니다. 나머지 칸도 같은 방법으로 채워 넣으면 됩니다. 아래와 같이 열을 고정하면 그나마(?)편하게 채울 수 있습니다. (아마 더 똘똘하고 간단한 방법이 있을겁니다.) 엑셀 파일을 공유합니다. x=seq(-5,5,0.1) y=dt(x,5) plot(x,y,'l') xp=seq(qt(0.975,5),10,0.1) yp=dt(xp,5) polygon(c(xp,rev(xp)),c(rep(0,length(xp)),.. 2020. 12. 17.
[엑셀통계] 48. 표준정규분포표 직접 만들어보기 먼저 표준정규분포표의 틀을 만들어봅시다. 아래와 같은 틀을 만들겠습니다. 먼저 이 틀을 설명드리겠습니다. 아래 빨간 부분은 Z가 0.44 인 경우의 값을 의미합니다. 이 값은 어떻게 계산될까요? 이 값의 의미는 아래 그림을 보면 이해하실 수 있습니다. 표준정규분포에서 Z값의 왼쪽 부분의 넓이입니다. 값을 구해봅시다. NORM.S.DIST 함수를 이용하여 구합니다. 옵션을 TRUE로 설정해야합니다. 나머지 칸도 같은 방법으로 채워 넣으면 됩니다. 아래와 같이 열을 고정하면 그나마(?)편하게 채울 수 있습니다. (아마 더 똘똘하고 간단한 방법이 있을겁니다.) 엑셀 파일을 공유합니다. x=seq(-4,4,0.1) y=dnorm(x) plot(x,y,'l') xp=seq(-4,0.44,0.1) yp=dnorm(.. 2020. 12. 17.
[R 강의] 106. 피어슨 상관분석 1. 설명 상관분석은 서로 짝지어진 두 변수 사이의 관계의 강도를 [-1,1] 의 값을 갖는 상관계수로 나타내는 분석방법입니다. 0이면 관계 없음, 1에 가까울 수록 비례관계, -1에 가까울 수록 반비례관계입니다. 상관계수를 판단하는 일반적 기준은 아래와 같습니다. 0.0~0.2 : very weak correlation (or negligible) 0.2~0.4 : weak correlation 0.4~0.6 : moderate correlation 0.6~0.8 : strong correlation 0.8~1.0 : very strong correlation 절대적 기준은 아닙니다. 예를들어 '암과의 상관관계' 라면 낮은 상관계수도 유의미하게 해석될 수 있습니다. 상관계수에 대한 가설검정도 수행합니다.. 2020. 12. 10.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 빈도를 계산한 결과를 분석해봅시다. 먼저 히스토그램을 그려봅시다. 이전 코드에 히스토그램을 그리는 코드추가하였습니다. library(stringr) library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기 raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",replacement="",fixed=TRUE) %>% gs.. 2020. 12. 9.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 우리는 지난시간까지 어바웃타임의 자막을 단어단위로 나누어서 빈도분석을 했습니다. 몇가지 전처리를 했었는데, 아래와 같습니다. - raw 데이터에서 불필요 기호 제거- 단어데이터에서 불필요 단어 제거 빈도 결과를 받아보고 나서, 한가지 작업이 더 필요하다는 것을 알았습니다. 바로 대소문자입니다. 예를들어 Happy와 happy 는 같은 단어임에도, 빈도분석에는 다른 단어로 인식된 것입니다. 이 문제를 해결하기 위해 전체를 소문자로 바꾸는 코드르 추가하겠습니다. 아래와 같습니다. 빨간색으로 표시하였습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/One.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 지난시간에 불필요한 기호를 제거 했는데요. 빈 문자열 "" 이 남아있었습니다. 오늘은 빈 문자열을 제거해봅시다. 불필요한 기호를 제거하고 단어단위로 쪼갠 이후부터 진행하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",r.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 지난 글에서 어바웃타임 대본의 빈도분석을 했었는데요. 불필요한 기호들이 있었습니다. 하이픈, 콤마, 쉼표, 물음표 등입니다. 오늘은 불필요한 기호를 제거한 뒤에 다시 빈도분석을 해봅시다. text파일을 불러온 부분부터 이어가봅시다. library(stringr)library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") > head(raw,5) [1] "" [2] "- I always knew we were a fairly odd family." [3] "- First there was me." [4] "-.. 2020. 12. 4.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #단어 단위로 쪼개기word = strsplit(raw ,split=" ") %>% unlist() #빈도 계산하기word_table=table(word) %>% sort(decreasing=TRUE) word_df=word_table %>% as.data.frame() 아래는 결과입니다. > head(word_df,10) word Fre.. 2020. 12. 4.
[파이썬 강의] 1. 파이썬 설치하기 도구로 푸는 파이썬으로 푸는 통계1. 파이썬 설치하기 [도구 파이썬으로 푸는 통계]는 파이썬이라는 언어를 이용한 통계분석 방법을 설명하는 강의입니다. 파이썬에 충분히 익숙해지면 파이참 등의 통합개발환경(IDE)를 이용할 것이지만, 초반 부분에는 파이썬만 설치하면 이용할 수 있는 파이썬 쉘을 이용하여 강의를 진행할 것입니다. 오늘은 파이썬을 설치해봅시다. 파이썬 설치하는 방법 Step1. 파이썬 공식홈페이지에 접속 https://www.python.org/ Step2. download 클릭, 다운로드된 파일 실행 본인 컴퓨터에 맞는 설치파일을 다운받습니다 . Step3. Add Python XX to PATH 체크하고 Install Now를 클릭 Add Python XX to PATH는 프로그램 실행경로에.. 2020. 11. 25.
[엑셀통계] 47. 자동고침 해제하기 [엑셀통계] 47. 자동고침 해제하기 엑셀을 사용하다보면 여러가지 자동고침 기능 때문에 스트레스를 받는 경우가 있습니다. 오늘은 자동고침기능을 해제하는 방법을 알아봅시다. 1. [파일]-[옵션] 클릭 2. [언어교정] - [자동 고침 옵션] 클릭 3. 원하지 않는 기능 해제 2020. 11. 21.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 지난 코드에 이어서 설명하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") #단어 단위로 쪼개기gen_word = strsplit(gen ,split=" ") %>% unlist() #불필요한 단어 찾아 위치 저장하기rm_obj=which(str_detect(gen_word,":")|str_detect(gen_word,"")) #불필요한 단어 제거하기 gen_word_r1=gen_word[-rm_obj] 원본에서 불필요한 .. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (2) 전처리 지난 글에서 창세기 텍스트를 불러왔습니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") 오늘은 텍스트를 단어 단위로 쪼개고, 불필요한 단어를 제거하도록 하겠습니다. 단어단위로 쪼개기 위해 stringr 패키지를 설치하겠습니다. 파이프 연산자 사용을 위해 dplyr 패키지도 설치합시다. > install.packages("stringr")> install.packages("dplyr") 설치한 패키지를 불러옵시다. library(stringr)library(dplyr) 1. 단어 단위로 쪼개기 strsplit.. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 단어구름은 빈도분석 결과를 시각화하는 방법입니다. 등장횟수가 높은 단어일 수록 크기가 크고 구름 중앙에 놓이게 됩니다. 아래 순서로 진행될 것입니다. 1. 개역개정 텍스트 불러오기2. 전처리3. 단어구름 만들기 오늘은 첫시간입니다. 텍스트를 불러와보겠습니다. txt 파일은 구글에 '개역개정 창세기' 라고 검색하시면 쉽게 구하실 수 있습니다. genesis.txt라고 저장했습니다. readLines함수로 불러옵니다. 경로는 각자의 경로를 입력하셔야 됩니다. encoding 방식은 EUC-KR로 설정해줍니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_examp.. 2020. 10. 6.
[R강의] 105. attr 이 무엇인가요? R을 사용하다 보면 attr 을 보게될 때가 있습니다. 예를들어 x라는 벡터에 scale 함수를 적용하면, 결과 데이터 이외에 아래 sttr 이라는 내용이 출력됩니다. > x=1:5 > scale(x) [,1] [1,] -1.2649111 [2,] -0.6324555 [3,] 0.0000000 [4,] 0.6324555 [5,] 1.2649111 attr(,"scaled:center") [1] 3 attr(,"scaled:scale") [1] 1.581139 attr 는 attribute 의 약어입니다. 속성이라는 뜻입니다. 변수에 속성을 지정할 수가 있는데요. 그럴 경우 입력되는 정보입니다. 벡터를 하나 정의하고 속성을 입력해보겠습니다. v1=c(1,2,3,4,5) attr을 입력할건데요. 입력하는 방.. 2020. 10. 3.
[R강의] 104. 데이터프레임의 구조확인 str함수 vs glimpse 함수 [R강의] 104. 데이터프레임의 구조확인 str함수 vs glimpse 함수 데이터프레임의 구조를 확인하는 함수에는 두가지가 있습니다. 내장함수인 str 함수와, dplyr패키지의 glimpse 함수입니다. 데이터프레임 뿐 아니라, 모든 종류의 데이터의 구조를 확인해줍니다. 내장데이터인 CO2 데이터를 이용하여 비교하겠습니다. 먼저 str 함수입니다. > str(CO2)Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ and 'data.frame':84 obs. of 5 variables: $ Plant : Ord.factor w/ 12 levels "Qn1" 2020. 10. 2.
[R 강의] 103. 정말 유용한 %>% 연산자 [R 강의] 103. 정말 유용한 %>% 연산자 %>%연산자는 dplyr 패키지에서 제공하는 연산자입니다. 파이프연산자라고 부릅니다. 알아두면 아주 유용한 연산자입니다. 연산자 오른쪽에 있는 함수를 왼쪽에 적용해줍니다. 직접 사용해보며 이해해봅시다. 먼저 dplyr 패키지를 설치합시다. install.packages("dplyr") 벡터를 정의하고, 파이프 연산자를 이용하여 평균을 구해봅시다. a=c(1.11,2.22,3.33,4.44,5.55)a_mean=a %>% mean > a_mean[1] 3.33 파이프 연산자는 변수에 적용된 함수가 많아질 수록 빛을 발함니다. 위에서 정의한 벡터의 평균을 구하고, 소수 둘째자리에서 반올림을 해봅시다. 먼저 파이프 연산자를 사용하지 않고 구해보겠습니다. > ro.. 2020. 10. 2.
[R강의] 102. 표본추출 방법 - 계통추출법(systematic sampling) [R강의] 102. 표본추출 방법 - 계통추출법(systematic sampling) 표본추출방법은 크게 확률추출법과 비확률추출법으로 나뉩니다. 오늘은 R에서 계통추출을 하는 방법을 공부해봅시다. 표본추출방법에 대한 내용은 아래 글을 참고해주세요. https://hsm-edu.tistory.com/1083 계통추출법 (systematic sampling)은 간격 k를 정하고, k보다 작은 번호에서 출발하여 k간격으로 표본을 추출하는 방법입니다. 예를들어 모집단의 크기가 10이라고 해봅시다. 모집단 원소들을 각각 1번부터 10번까지의 번호를 붙였습니다. 3번으로 출발하여 2간격으로 표본을 추출하면 아래와 같습니다. 3번, 5번, 7번, 9번 R 코드를 짜봅시다. 첫 번호와, 간격 k를 입력하면 표본을 추출.. 2020. 9. 29.
반응형