본문 바로가기
반응형

R 주제221

R에서 날짜데이터 입력하기 (as.Date) R에서 날짜를 입력할 때는 일반적으로 아래와 같은 표기를 사용합니다. 2018-12-25 문자열을 이용해서 입력하고, as.Date 함수를 이용하여 문자열을 날짜 타입으로 변형해줍니다. > a=c("2018-12-21") > b=as.date(a) 정의한 벡터의 이름을 입력해 보면 둘의 차이를 알 수 없습니다. > b [1] "2018-12-21" > a [1] "2018-12-21" str 함수를 이용하면 날짜로 타입이 바뀐 것을 알 수 있습니다. > str(a) chr "2018-12-21" > str(b) Date[1:1], format: "2018-12-21" as.Date 함수에 사용되는 옵션을 알아봅시다. as.Date(x, format, tryFormats = c("%Y-%m-%d", "%Y.. 2021. 3. 18.
R에서 시간데이터로 산점도 그리기 시간데이터를 다뤄야 하는 상황이 있습니다. 예를들어 아래와 같이 제품의 판매시간-판매량이 표로 정리되어 있고 이 표를 가지고 그래프를 그리고 싶다고 해봅시다. Time Sales_Volume 2018-10-21 08:23:12 1 2018-10-28 15:33:55 5 2018-11-02 13:23:52 12 2018-11-08 17:12:01 3 2018-12-12 10:08:01 7 판매량은 숫자벡터로 입력하면 되는데, 시간의 경우는 조금 복잡합니다. 먼저 시간을 문자열 벡터로 입력합니다. 입력한 뒤 산점도를 그리겠습니다. > SV=c(1,5,12,3,7) > time=c("2018-10-21 08:23:12","2018-10-28 15:33:55","2018-11-02 13:23:52","2018-.. 2021. 3. 18.
[도구R과 마크다운] 1. R마크다운이 뭔가요? R마크다운은 R코드와 분석결과가 포함된 문서를 작성하는 것입니다. 문서 형태는 다양합니다. PDF를 만들 수도 있고, HTMl, docs 를 만들 수도 있습니다. 문서 뿐만 아니라 프리젠테이션용 pptx를 만들 수도 있습니다. html 을 이용하면 블로그나 웹사이트를 만드는 것도 가능합니다. 이때는 blowdown, radix 등의 패키지가 사용됩니다. 아래 그림을 보시면 마크다운의 작동 원리를 한눈에 알수 있습니다. 2021. 2. 10.
[R강의] 107. 히스토그램에서 density는 상대도수가 아닙니다. 먼저 히스토그램에서 density는 두가지가 있다는 사실을 알고 시작합시다. 하나는 히스토그램을 그린 결과로 출력되는 density와 옵션으로 입력하는 density입니다. 옵션으로 입력하는 density는 히스토그램 막대에 체크무늬를 만들어주는 것인데, 우리가 오늘 다루려고 하는 density는 히스토그램을 그린 결과로 출력되는 density입니다. 데이터를 하나 정의합시다. 키 데이터입니다. 계급값과 도수를 아래와 같이 갖도록 만들겠습니다. 160-170 : 4명 170-180 : 6명 상대도수는 아래와 같습니다. 160-170 : 0.4 170-180 : 0.6 데이터는 아래와 같이 만들면 됩니다. height=c(161,162,163,164,171,172,173,174,175,176) 히스토그램을.. 2021. 1. 7.
[R 강의] 106. 피어슨 상관분석 1. 설명 상관분석은 서로 짝지어진 두 변수 사이의 관계의 강도를 [-1,1] 의 값을 갖는 상관계수로 나타내는 분석방법입니다. 0이면 관계 없음, 1에 가까울 수록 비례관계, -1에 가까울 수록 반비례관계입니다. 상관계수를 판단하는 일반적 기준은 아래와 같습니다. 0.0~0.2 : very weak correlation (or negligible) 0.2~0.4 : weak correlation 0.4~0.6 : moderate correlation 0.6~0.8 : strong correlation 0.8~1.0 : very strong correlation 절대적 기준은 아닙니다. 예를들어 '암과의 상관관계' 라면 낮은 상관계수도 유의미하게 해석될 수 있습니다. 상관계수에 대한 가설검정도 수행합니다.. 2020. 12. 10.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 빈도를 계산한 결과를 분석해봅시다. 먼저 히스토그램을 그려봅시다. 이전 코드에 히스토그램을 그리는 코드추가하였습니다. library(stringr) library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기 raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",replacement="",fixed=TRUE) %>% gs.. 2020. 12. 9.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 우리는 지난시간까지 어바웃타임의 자막을 단어단위로 나누어서 빈도분석을 했습니다. 몇가지 전처리를 했었는데, 아래와 같습니다. - raw 데이터에서 불필요 기호 제거- 단어데이터에서 불필요 단어 제거 빈도 결과를 받아보고 나서, 한가지 작업이 더 필요하다는 것을 알았습니다. 바로 대소문자입니다. 예를들어 Happy와 happy 는 같은 단어임에도, 빈도분석에는 다른 단어로 인식된 것입니다. 이 문제를 해결하기 위해 전체를 소문자로 바꾸는 코드르 추가하겠습니다. 아래와 같습니다. 빨간색으로 표시하였습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/One.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 지난시간에 불필요한 기호를 제거 했는데요. 빈 문자열 "" 이 남아있었습니다. 오늘은 빈 문자열을 제거해봅시다. 불필요한 기호를 제거하고 단어단위로 쪼갠 이후부터 진행하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",r.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 지난 글에서 어바웃타임 대본의 빈도분석을 했었는데요. 불필요한 기호들이 있었습니다. 하이픈, 콤마, 쉼표, 물음표 등입니다. 오늘은 불필요한 기호를 제거한 뒤에 다시 빈도분석을 해봅시다. text파일을 불러온 부분부터 이어가봅시다. library(stringr)library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") > head(raw,5) [1] "" [2] "- I always knew we were a fairly odd family." [3] "- First there was me." [4] "-.. 2020. 12. 4.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #단어 단위로 쪼개기word = strsplit(raw ,split=" ") %>% unlist() #빈도 계산하기word_table=table(word) %>% sort(decreasing=TRUE) word_df=word_table %>% as.data.frame() 아래는 결과입니다. > head(word_df,10) word Fre.. 2020. 12. 4.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 지난 코드에 이어서 설명하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") #단어 단위로 쪼개기gen_word = strsplit(gen ,split=" ") %>% unlist() #불필요한 단어 찾아 위치 저장하기rm_obj=which(str_detect(gen_word,":")|str_detect(gen_word,"")) #불필요한 단어 제거하기 gen_word_r1=gen_word[-rm_obj] 원본에서 불필요한 .. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (2) 전처리 지난 글에서 창세기 텍스트를 불러왔습니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") 오늘은 텍스트를 단어 단위로 쪼개고, 불필요한 단어를 제거하도록 하겠습니다. 단어단위로 쪼개기 위해 stringr 패키지를 설치하겠습니다. 파이프 연산자 사용을 위해 dplyr 패키지도 설치합시다. > install.packages("stringr")> install.packages("dplyr") 설치한 패키지를 불러옵시다. library(stringr)library(dplyr) 1. 단어 단위로 쪼개기 strsplit.. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 단어구름은 빈도분석 결과를 시각화하는 방법입니다. 등장횟수가 높은 단어일 수록 크기가 크고 구름 중앙에 놓이게 됩니다. 아래 순서로 진행될 것입니다. 1. 개역개정 텍스트 불러오기2. 전처리3. 단어구름 만들기 오늘은 첫시간입니다. 텍스트를 불러와보겠습니다. txt 파일은 구글에 '개역개정 창세기' 라고 검색하시면 쉽게 구하실 수 있습니다. genesis.txt라고 저장했습니다. readLines함수로 불러옵니다. 경로는 각자의 경로를 입력하셔야 됩니다. encoding 방식은 EUC-KR로 설정해줍니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_examp.. 2020. 10. 6.
[R강의] 105. attr 이 무엇인가요? R을 사용하다 보면 attr 을 보게될 때가 있습니다. 예를들어 x라는 벡터에 scale 함수를 적용하면, 결과 데이터 이외에 아래 sttr 이라는 내용이 출력됩니다. > x=1:5 > scale(x) [,1] [1,] -1.2649111 [2,] -0.6324555 [3,] 0.0000000 [4,] 0.6324555 [5,] 1.2649111 attr(,"scaled:center") [1] 3 attr(,"scaled:scale") [1] 1.581139 attr 는 attribute 의 약어입니다. 속성이라는 뜻입니다. 변수에 속성을 지정할 수가 있는데요. 그럴 경우 입력되는 정보입니다. 벡터를 하나 정의하고 속성을 입력해보겠습니다. v1=c(1,2,3,4,5) attr을 입력할건데요. 입력하는 방.. 2020. 10. 3.
[R강의] 104. 데이터프레임의 구조확인 str함수 vs glimpse 함수 [R강의] 104. 데이터프레임의 구조확인 str함수 vs glimpse 함수 데이터프레임의 구조를 확인하는 함수에는 두가지가 있습니다. 내장함수인 str 함수와, dplyr패키지의 glimpse 함수입니다. 데이터프레임 뿐 아니라, 모든 종류의 데이터의 구조를 확인해줍니다. 내장데이터인 CO2 데이터를 이용하여 비교하겠습니다. 먼저 str 함수입니다. > str(CO2)Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ and 'data.frame':84 obs. of 5 variables: $ Plant : Ord.factor w/ 12 levels "Qn1" 2020. 10. 2.
[R 강의] 103. 정말 유용한 %>% 연산자 [R 강의] 103. 정말 유용한 %>% 연산자 %>%연산자는 dplyr 패키지에서 제공하는 연산자입니다. 파이프연산자라고 부릅니다. 알아두면 아주 유용한 연산자입니다. 연산자 오른쪽에 있는 함수를 왼쪽에 적용해줍니다. 직접 사용해보며 이해해봅시다. 먼저 dplyr 패키지를 설치합시다. install.packages("dplyr") 벡터를 정의하고, 파이프 연산자를 이용하여 평균을 구해봅시다. a=c(1.11,2.22,3.33,4.44,5.55)a_mean=a %>% mean > a_mean[1] 3.33 파이프 연산자는 변수에 적용된 함수가 많아질 수록 빛을 발함니다. 위에서 정의한 벡터의 평균을 구하고, 소수 둘째자리에서 반올림을 해봅시다. 먼저 파이프 연산자를 사용하지 않고 구해보겠습니다. > ro.. 2020. 10. 2.
[R강의] 102. 표본추출 방법 - 계통추출법(systematic sampling) [R강의] 102. 표본추출 방법 - 계통추출법(systematic sampling) 표본추출방법은 크게 확률추출법과 비확률추출법으로 나뉩니다. 오늘은 R에서 계통추출을 하는 방법을 공부해봅시다. 표본추출방법에 대한 내용은 아래 글을 참고해주세요. https://hsm-edu.tistory.com/1083 계통추출법 (systematic sampling)은 간격 k를 정하고, k보다 작은 번호에서 출발하여 k간격으로 표본을 추출하는 방법입니다. 예를들어 모집단의 크기가 10이라고 해봅시다. 모집단 원소들을 각각 1번부터 10번까지의 번호를 붙였습니다. 3번으로 출발하여 2간격으로 표본을 추출하면 아래와 같습니다. 3번, 5번, 7번, 9번 R 코드를 짜봅시다. 첫 번호와, 간격 k를 입력하면 표본을 추출.. 2020. 9. 29.
[R강의] 101. 통계청 데이터 다운받고 R에서 불러오는 방법 [R강의] 101. 통계청 데이터 다운받고 R에서 불러오는 방법 오늘은 통계청에서 제공하는 국가통계데이터를 다운 받고, R에서 불러오는 방법을 알려드리겠습니다. 국가 통계 데이터는 아래 사이트에서 다운받을 수 있습니다. https://kosis.kr/index/index.do 국가통계포털 사이트입니다. 국가통계포털은 KOSIS라고 부릅니다. Korean Statistical Information Service 의 줄임말입니다. 우리가 오늘 다운받을 데이터는 '사망원인'데이터입니다. 상단 [국내통계] 탭의 [주제 별 통계]로 들어갑니다. [보건]을 클릭하고 [사망원인통계]를 클릭합니다. (아래 그림 참고) 아래 그림처럼 사망원인 236항목을 클릭합니다. 시점을 전체로 변경해줍니다. 항목표두, 시점표측을 선.. 2020. 9. 23.
[도구 R과 3D 그래픽스] 4. stl 파일 여는 방법 [도구 R과 3D 그래픽스] 4. stl 파일 여는 방법 stl 포멧은 3차원 형상의 표면을 삼각형 매쉬형태로 저장한 것입니다. stereolithography의 줄임말이고, 3D 시스템즈가 개발했습니다. R에서 stl파일을 열어봅시다. 먼저 STL 파일을 구해야하는데요. 아래 홈페이지에서 고양이 obj 파일을 받아서 stl로 변환했습니다. https://free3d.com/ stl 파일 다운로드 -> 아래 코드를 사용합니다. 먼저 rgl 패키지를 로드합니다. 작업디렉토리를 고양이 STL 파일이 있는 경로로 바꿔주고, readSTL 함수를 이용하여 불러옵니다. library(rgl) setwd('C:/Users') A=readSTL('CAT.stl',col='blue') 2020. 8. 13.
[도구 R과 3D 그래픽스] 3. 표면을 그려주는 persp3d함수 [도구 R과 3D 그래픽스] 3. 표면을 그려주는 persp3d함수 persp3d함수를 이용하여 이변수 표준정규분포 그래프를 그려봅시다. x=seq(-3,3,0.1)y=seq(-3,3,0.1) outer 함수를 사용하여 x,y 격자에 해당하는 z값을 얻습니다. outer 함수의 사용 방법을 예로 들면, 아래와 같습니다. 둘의 곱을 계산하는 경우입니다. x=c(1,2,3)y=c(1,2,3)z=outer(x,y,"*") > z [,1] [,2] [,3][1,] 1 2 3[2,] 2 4 6[3,] 3 6 9 outer 함수를 우리 예제에 적용합시다. x=seq(-3,3,0.1)y=seq(-3,3,0.1)f=function(x,y){dnorm(x)*dnorm(y)}z=outer(x,y,f) 그래프를 그려봅시다 .. 2020. 8. 12.
[도구 R과 3D 그래픽스] 2. 점을 그려주는 plot3d 함수 [도구 R과 3D 그래픽스] 2. 점을 그려주는 plot3d 함수 rgl 패키지에 있는 plot3d 라는 함수를 이용하여 그래프를 그려봅시다. 먼저 패키지를 불러옵시다. library(rgl) 세 점을 찍어보겠습니다. (1,1,3) (1,5,6) (4,4,9) 아래와 같은 형식으로 입력합니다. x=c(1,1,4)y=c(1,5,4)z=c(3,6,9) 그래프를 그려봅시다. plot3d(x,y,z,type="s",col='red') library(rgl) x=c(1,1,4)y=c(1,5,4)z=c(3,6,9) plot3d(x,y,z,type="s",col='red') 2020. 8. 12.
[도구 R과 3D 그래픽스] 1. rgl 패키지 [도구 R과 3D 그래픽스] 1. rgl 패키지 R에서 OPEN GL을 사용할 수 있는 패키지가 있습니다. OPEN GL은 open graphics library 의 줄임말입니다. 2D, 3D 랜더링을 해주는 라이브러리입니다. 어떤 방향으로 공부할까 고민하다가, STL 파일을 다루는 것으로 방향을 잡았습니다. STL파일을 불러오고, 수정하고, 치수를 측정하고, 자르는 등의 작업을 해볼 생각입니다. 먼저 패키지를 설치하고, 패키지 안의 함수들을 간단하게 살펴봅시다. 패키지는 rgl 입니다. 설치합시다. install.packages("rgl") 패키지 안의 함수를 보는 명령어는 아래와 같습니다 . ls("package:rgl") 총 208개의 함수가 있습니다. 궁금한 함수가 있으면, 함수 앞에 물음표를 추.. 2020. 8. 11.
[R 크롤링] 6. 크롤링 예제3 (네이버 역대 영화 평점 순) 역대 영화 평점순 랭킹을 크롤링해볼 것입니다. 구글에 네이버영화라고 검색하고 나오는 사이트에 들어갑니다. 좌측탭의 영화랭킹을 클릭합니다. 가운데 탭의 평점순을 클릭합니다. 검사 도구를 켜고 이름을 클릭합니다. 클래스가 tit5 입니다. 이번에는 평점 코드를 확인합니다. 아래와 같이 크롤링하면 됩니다. #라이브러리 불러오기 library(httr) library(rvest) #GET 함수로 서버에 정보 요청하기 url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20210310' get_url = GET(url) #read_html 함수로 html 코드 읽기 my_html=read_html(get_url) #태그를 이용하여 추출 ti.. 2020. 7. 31.
[R 크롤링] 5. html 추출 연속 적용하기 지난 시간에 멜론 차트를 크롤링한 코드를 봅시다. #라이브러리 불러오기 library(httr) library(rvest) #GET 함수로 서버에 정보 요청하기 url = 'https://www.melon.com/chart/' get_url = GET(url) #read_html 함수로 html 코드 읽기 my_html=read_html(get_url,encoding='utf-8') #ellipsis rank01 클래스만 추출 pick1=html_nodes(my_html,'.ellipsis.rank01') #a 태그만 추출 pick2=html_nodes(pick1,'a') #텍스트 추출 pick3=html_text(pick2) 테크를 추출하는 부분을 보면, 테그추출 함수를 적용할 때마다 새로운 변수에 저.. 2020. 7. 29.
[R 크롤링] 4. 크롤링 예제2 (멜론 차트 순위) 크롤링 두번째 예제입니다. 멜론 차트에서 top 10 곡 리스트를 가져오겠습니다. 멜론 사이트에 들어가서, 메뉴에 '차트'를 클릭합니다. URL을 복사하여 가져옵니다. https://www.melon.com/chart/index.htm R의 GET 함수를 이용하여 서버에 정보를 요청합니다. library(httr) library(rvest) url = 'https://www.melon.com/chart/' get_url = GET(url) > get_url Response [https://www.melon.com/chart/] Date: 2020-07-27 05:06 Status: 200 Content-Type: text/html;charset=utf-8 Size: 386 kB 인코딩 방식이 utf-8 .. 2020. 7. 27.
[R 크롤링] 3. 크롤링 예제1 (교보문고 주간 베스트셀러) 이번시간에는 크롤링예제를 하나 수행해봅시다. 교보문고 홈페이지에서 종합베스트셀러 제목을 가져오는 것입니다. 교보문고 종삽주간베스트 페이지의 URL은 아래와 같습니다. 종합주간베스트 페이지는 교보문고 메인페이지에서 '베스트' 버튼을 클릭하면 접근이 가능합니다. http://www.kyobobook.co.kr/bestSellerNew/bestseller.laf?orderClick=d79 먼저 위 URL에 있는 html 코드를 가져와야합니다. html 코드를 읽을 때, R에서는 두가지 함수가 사용됩니다. 1) GET 함수를 이용하여 교보문고 서버에 내용 요청 2) read_html 함수를 이용하여 html 코드 읽음 서버에 url 내용을 요청하는 대표적인 방법에는 GET 방식과 POST 방식이 있습니다. 둘의.. 2020. 7. 27.
[R 크롤링] 2. 웹페이지의 html 소스코드 보는 법 도구 R로 하는 크롤링 2. 웹페이지의 html 소스코드 보는 법 교보문고의 베스트셀러 순위 중 1위를 크롤링으로 가져오고 싶다고 해봅시다. 먼저 교보문고 홈페이지에 들어갑시다. 메뉴에 보시면 '베스트' 라는 버튼이 있습니다. 이 버튼을 클릭하면 분야종합베스트 화면으로 이동합니다. 김미경의 리부트가 현재 1위입니다. 우리가 가져오고 싶은 것은 '김미경의 리부트'라는 글자입니다. 우리가 인터넷에서 보고 있는 모든 글자들은 html 이라는 언어로 되어 있습니다. 나중에 크롤링을 통해 가져올 정보도 html 코드에서 가져오는 것입니다. 어떤 웹페이지의 화면을 구성하는 html 코드를 확인하는 방법은 두가지가 있습니다. 오늘 그 방법을 알아볼 것입니다. 먼저 첫번째 방법입니다. 우클릭을 하고 페이지 소스보기를 .. 2020. 7. 25.
[R 크롤링] 1. R 크롤링을 어떻게 배울 것인가? 도구 R로 하는 크롤링 1. R 크롤링을 어떻게 배울 것인가? R로 하는 크롤링을 공부해보려고 합니다. 크롤링은 웹에서 원하는 정보를 수집하는 것을 말합니다. 프로젝트 수행방식으로 공부해야 방향성도 생기고 꾸준히 이어갈 수 있다고 해서 주제를 하나 정했습니다. 주제는 '주식'입니다. 더 정확히 말하면 주가와 재무제표분석 이라고 할 수 있습니다. R크롤링을 이용하여 주가 데이터와 재무제표 데이터를 가져오고, 이들을 분석해볼 것입니다. R도 아주 잘하지 못하고, 주식도 잘 모르기 때문에 공부해가며 강의를 이어가려고 합니다. 강의 순서는 아래와 같이 정해보았습니다. 순서는 수정되고 확장될 것입니다. 1. R 크롤링을 어떻게 배울 것인가? 2. 웹페이지의 html 소스코드 보는 법 3. 크롤링 예제1 (교보문고.. 2020. 7. 25.
[R 강의] 100. 윌콕슨 순위합 검정 (독립표본 t검정의 비모수) 도구 R로 푸는 통계100. 윌콕슨 순위합 검정 (독립표본 t검정의 비모수) 1. 설명 표본의 정규성이 확보되지 않은 경우 독립표본 t검정 대신 사용합니다. 독립표본 t검정은 서로 독립인 두 집단의 평균을 비교하는 검정입니다. 윌콕슨 순위합 검정(Wilcoxon rank sum test)는 맨-휘트니 U 검정(Mann–Whitney U test)이라고도 부릅니다. 아래 두번째 경우에서 정규성 검정에 기각된 경우와, 세번째 경우에서 윌콕슨 순위합 검정을 하게됩니다. 30 이상 : t-test10-30 : 정규성검정 여부 결정10 이하 : 윌콕슨순위합검정 위 내용을 디시전트리로 정리하면 아래와 같습니다. 한가지 더 고려해야할 내용은 양측, 단측검정입니다. 알려진 두 집단의 평균이 같은지 다른지 여부를 알고 .. 2020. 7. 9.
[R 강의] 99. 일표본 윌콕슨 검정 (일표본 t검정의 비모수) 도구 R로 푸는 통계99. 일표본 윌콕슨 검정 (일표본 t검정의 비모수) 1. 설명 일표본 윌콕슨 검정은 표본의 정규성이 확보되지 않은 경우 일표본 t검정 대신 사용합니다. (일표본 t검정은 모집단의 알려진 평균과 표본의 평균을 비교하는 검정입니다.) 아래 두번째 경우에서 정규성 검정에 기각된 경우와, 세번째 경우에서 일표본 윌콕슨 검정을 하게됩니다. 30 이상 : 일표본 t 검정10-30 : 정규성검정 기각 시 일표본 윌콕슨 검정10 이하 : 일표본 윌콕슨 검정 위 내용을 디시전트리로 정리하면 아래와 같습니다. 한가지 더 고려해야할 내용은 양측, 단측검정입니다. 알려진 모집단의 평균과 같은지 다른지 여부를 알고 싶으면 '양측검정'을 선택하면 됩니다. wilcox.test(A,mu=m) 어느 한쪽이 더 .. 2020. 6. 29.
반응형