본문 바로가기
R 주제/텍스트마이닝

[R 텍스트마이닝] 창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기

by 만다린망고 2020. 10. 6.
반응형

R 텍스트마이닝

창세기 단어구름(wordcloud) 만들기 (1) 개역개정 텍스트 불러오기


단어구름은 빈도분석 결과를 시각화하는 방법입니다. 등장횟수가 높은 단어일 수록 크기가 크고 구름 중앙에 놓이게 됩니다. 


아래 순서로 진행될 것입니다. 


1. 개역개정 텍스트 불러오기

2. 전처리

3. 단어구름 만들기


오늘은 첫시간입니다. 텍스트를 불러와보겠습니다. txt 파일은 구글에 '개역개정 창세기' 라고 검색하시면 쉽게 구하실 수 있습니다. genesis.txt라고 저장했습니다. readLines함수로 불러옵니다. 경로는 각자의 경로를 입력하셔야 됩니다. encoding 방식은 EUC-KR로 설정해줍니다. 


gen=readLines("E:/ONE_DRIVE/OneDrive/21.textmining/bible_example/genesis.txt",encoding="EUC-KR")


아래와 같이 각 절을 원소로 같는 문자형 벡터로 불러와집니다. 


> gen[1:3]

[1] "창1:1 <천지 창조> 태초에 하나님이 천지를 창조하시니라"                                  

[2] "창1:2 땅이 혼돈하고 공허하며 흑암이 깊음 위에 있고 하나님의 영은 수면 위에 운행하시니라"

[3] "창1:3 하나님이 이르시되 빛이 있으라 하시니 빛이 있었고"  

                               

> str(gen)

 chr [1:1534] "창1:1 <천지 창조> 태초에 하나님이 천지를 창조하시니라" ...


> class(gen)

[1] "character"


반응형

댓글