본문 바로가기
반응형

R 주제/텍스트마이닝8

[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ⑤ 결과 분석하기 빈도를 계산한 결과를 분석해봅시다. 먼저 히스토그램을 그려봅시다. 이전 코드에 히스토그램을 그리는 코드추가하였습니다. library(stringr) library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기 raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",replacement="",fixed=TRUE) %>% gs.. 2020. 12. 9.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ④ 소문자로 통일하기 우리는 지난시간까지 어바웃타임의 자막을 단어단위로 나누어서 빈도분석을 했습니다. 몇가지 전처리를 했었는데, 아래와 같습니다. - raw 데이터에서 불필요 기호 제거- 단어데이터에서 불필요 단어 제거 빈도 결과를 받아보고 나서, 한가지 작업이 더 필요하다는 것을 알았습니다. 바로 대소문자입니다. 예를들어 Happy와 happy 는 같은 단어임에도, 빈도분석에는 다른 단어로 인식된 것입니다. 이 문제를 해결하기 위해 전체를 소문자로 바꾸는 코드르 추가하겠습니다. 아래와 같습니다. 빨간색으로 표시하였습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/One.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 지난시간에 불필요한 기호를 제거 했는데요. 빈 문자열 "" 이 남아있었습니다. 오늘은 빈 문자열을 제거해봅시다. 불필요한 기호를 제거하고 단어단위로 쪼갠 이후부터 진행하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #불필요 기호 제거하기raw2=raw %>% gsub(pattern=".",replacement="",fixed=TRUE) %>% gsub(pattern="-",replacement="",fixed=TRUE) %>% gsub(pattern="?",r.. 2020. 12. 7.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 지난 글에서 어바웃타임 대본의 빈도분석을 했었는데요. 불필요한 기호들이 있었습니다. 하이픈, 콤마, 쉼표, 물음표 등입니다. 오늘은 불필요한 기호를 제거한 뒤에 다시 빈도분석을 해봅시다. text파일을 불러온 부분부터 이어가봅시다. library(stringr)library(dplyr) #텍스트 불러오기 raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") > head(raw,5) [1] "" [2] "- I always knew we were a fairly odd family." [3] "- First there was me." [4] "-.. 2020. 12. 4.
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 [R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기 아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> library(stringr)library(dplyr) #텍스트 불러오기raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt") #단어 단위로 쪼개기word = strsplit(raw ,split=" ") %>% unlist() #빈도 계산하기word_table=table(word) %>% sort(decreasing=TRUE) word_df=word_table %>% as.data.frame() 아래는 결과입니다. > head(word_df,10) word Fre.. 2020. 12. 4.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 지난 코드에 이어서 설명하겠습니다. library(stringr)library(dplyr) #텍스트 불러오기gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") #단어 단위로 쪼개기gen_word = strsplit(gen ,split=" ") %>% unlist() #불필요한 단어 찾아 위치 저장하기rm_obj=which(str_detect(gen_word,":")|str_detect(gen_word,"")) #불필요한 단어 제거하기 gen_word_r1=gen_word[-rm_obj] 원본에서 불필요한 .. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (2) 전처리 지난 글에서 창세기 텍스트를 불러왔습니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR") 오늘은 텍스트를 단어 단위로 쪼개고, 불필요한 단어를 제거하도록 하겠습니다. 단어단위로 쪼개기 위해 stringr 패키지를 설치하겠습니다. 파이프 연산자 사용을 위해 dplyr 패키지도 설치합시다. > install.packages("stringr")> install.packages("dplyr") 설치한 패키지를 불러옵시다. library(stringr)library(dplyr) 1. 단어 단위로 쪼개기 strsplit.. 2020. 10. 6.
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 R 텍스트마이닝창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 단어구름은 빈도분석 결과를 시각화하는 방법입니다. 등장횟수가 높은 단어일 수록 크기가 크고 구름 중앙에 놓이게 됩니다. 아래 순서로 진행될 것입니다. 1. 개역개정 텍스트 불러오기2. 전처리3. 단어구름 만들기 오늘은 첫시간입니다. 텍스트를 불러와보겠습니다. txt 파일은 구글에 '개역개정 창세기' 라고 검색하시면 쉽게 구하실 수 있습니다. genesis.txt라고 저장했습니다. readLines함수로 불러옵니다. 경로는 각자의 경로를 입력하셔야 됩니다. encoding 방식은 EUC-KR로 설정해줍니다. gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_examp.. 2020. 10. 6.
반응형