본문 바로가기
R 주제/텍스트마이닝

[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기

by 만다린망고 2020. 12. 4.
반응형

[R 텍스트마이닝] 

영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기


아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> abouttime.txt



library(stringr)

library(dplyr)


#텍스트 불러오기

raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt")


#단어 단위로 쪼개기

word = strsplit(raw ,split=" ") %>% unlist()


#빈도 계산하기

word_table=table(word) %>% sort(decreasing=TRUE) 

word_df=word_table %>% as.data.frame()


아래는 결과입니다. 


> head(word_df,10)

   word Freq

1     - 1833

2     I  275

3   the  257

4   you  239

5     a  227

6    to  176

7    of  141

8   and  107

9    it   94

10   in   92


불필요한 기호가 보입니다. - 와 마침표 등입니다. 다음시간에는 불필요한 기호들을 제거해봅시다. 

반응형

댓글