반응형
1-1. HTML 가져오기 (GET 방식)
#라이브러리 불러오기
library(httr)
library(rvest)
#GET 함수로 서버에 정보 요청하기
url = '주소'
get_url = GET(url)
#read_html 함수로 html 코드 읽기
my_html=read_html(get_url,encoding='utf-8')
1-2. HTML 가져오기 (POST 방식)
#라이브러리 불러오기
library(httr)
library(rvest)
#GET 함수로 서버에 정보 요청하기
url = '주소'
get_url = POST(url, body =
list(
method = ' ',
...
))
#read_html 함수로 html 코드 읽기
my_html=read_html(get_url,encoding='utf-8')
2. 추출하기
#태그 추출
html_nodes(my_html,'태그 이름')
html_nodes(my_html,'부모 태그 이름>자식 태그이름')
#id추출
html_nodes(my_html,'#id이름')
#클래스 추출
html_nodes(my_html,'.클래스 이름')
#title추출
html_nodes(my_html,'*[title='이름']')
#title 전부 추출
html_attr('title')
#텍스트 추출
html_text(my_html,trim=TRUE)
반응형
'R 주제 > 크롤링' 카테고리의 다른 글
[R 크롤링] 12. 코스피, 코스닥, 코넥스 목록 따로 가져오기 (0) | 2021.04.07 |
---|---|
[R 크롤링] 11. 한국거래소에서 전체 상장종목 목록 가져오기(어려운 버전) (0) | 2021.04.07 |
[R 크롤링] 9. GET 방식과 POST 방식의 차이 (0) | 2021.03.24 |
[R 크롤링] 8. 웹브라우저의 원리 간단 설명 (0) | 2021.03.24 |
[R 크롤링] 7. 멜론차트에서 가수 이름도 출력 (2) | 2021.03.24 |
댓글