[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기

[R 텍스트마이닝]

영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기

아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> abouttime.txt

library(stringr)

library(dplyr)

#텍스트 불러오기

raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt")

#단어 단위로 쪼개기

word = strsplit(raw ,split=" ") %>% unlist()

#빈도 계산하기

word_table=table(word) %>% sort(decreasing=TRUE)

word_df=word_table %>% as.data.frame()

아래는 결과입니다.

> head(word_df,10)

word Freq

1 - 1833

2 I 275

3 the 257

4 you 239

5 a 227

6 to 176

7 of 141

8 and 107

9 it 94

10 in 92

불필요한 기호가 보입니다. - 와 마침표 등입니다. 다음시간에는 불필요한 기호들을 제거해봅시다.

[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 (0)	2020.12.07
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 (0)	2020.12.04
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 (0)	2020.10.06
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 (0)	2020.10.06
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 (0)	2020.10.06

통계의 도구들 (유튜브 : 통계의 도구들)