반응형
[R 텍스트마이닝]
영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기
아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> abouttime.txt
library(stringr)
library(dplyr)
#텍스트 불러오기
raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt")
#단어 단위로 쪼개기
word = strsplit(raw ,split=" ") %>% unlist()
#빈도 계산하기
word_table=table(word) %>% sort(decreasing=TRUE)
word_df=word_table %>% as.data.frame()
아래는 결과입니다.
> head(word_df,10)
word Freq
1 - 1833
2 I 275
3 the 257
4 you 239
5 a 227
6 to 176
7 of 141
8 and 107
9 it 94
10 in 92
불필요한 기호가 보입니다. - 와 마침표 등입니다. 다음시간에는 불필요한 기호들을 제거해봅시다.
반응형
'R 주제 > 텍스트마이닝' 카테고리의 다른 글
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 (0) | 2020.12.07 |
---|---|
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 (0) | 2020.12.04 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 (0) | 2020.10.06 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 (0) | 2020.10.06 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 (0) | 2020.10.06 |
댓글