반응형
[R 텍스트마이닝]
영화 어바웃타임 대본 단어 빈도분석 ① 빈도분석 일단 해보기
아래는 R코드입니다. 주석으로 설명을 대신합니다. 대본 txt 파일 다운로드 -> abouttime.txt
library(stringr)
library(dplyr)
#텍스트 불러오기
raw=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/abouttime/abouttime.txt")
#단어 단위로 쪼개기
word = strsplit(raw ,split=" ") %>% unlist()
#빈도 계산하기
word_table=table(word) %>% sort(decreasing=TRUE)
word_df=word_table %>% as.data.frame()
아래는 결과입니다.
> head(word_df,10)
word Freq
1 - 1833
2 I 275
3 the 257
4 you 239
5 a 227
6 to 176
7 of 141
8 and 107
9 it 94
10 in 92
불필요한 기호가 보입니다. - 와 마침표 등입니다. 다음시간에는 불필요한 기호들을 제거해봅시다.
반응형
'R 주제 > 텍스트마이닝' 카테고리의 다른 글
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ③ 빈 문자열 제거 (0) | 2020.12.07 |
---|---|
[R 텍스트마이닝] 영화 어바웃타임 대본 단어 빈도분석 ② 불필요한 기호 제거 (0) | 2020.12.04 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (3) 단어구름 만들기 (0) | 2020.10.06 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (2) 전처리 (0) | 2020.10.06 |
[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기 (0) | 2020.10.06 |
댓글
만다린망고님의
글이 좋았다면 응원을 보내주세요!
이 글이 도움이 됐다면, 응원 댓글을 써보세요. 블로거에게 지급되는 응원금은 새로운 창작의 큰 힘이 됩니다.
응원 댓글은 만 14세 이상 카카오계정 이용자라면 누구나 편하게 작성, 결제할 수 있습니다.
글 본문, 댓글 목록 등을 통해 응원한 팬과 응원 댓글, 응원금을 강조해 보여줍니다.
응원금은 앱에서는 인앱결제, 웹에서는 카카오페이 및 신용카드로 결제할 수 있습니다.