본문 바로가기
R 주제/크롤링

[R 크롤링] 8. 웹브라우저의 원리 간단 설명

by 만다린망고 2021. 3. 24.
반응형

이번시간에는 웹브라우저의 원리를 간단히 설명드리겠습니다. 교보문고 홈페이지에 들어가서 '베스트' 버튼을 클릭해봅시다. 

 

우리가 위에서 '베스트' 버튼을 클릭하는 순간 아래 URL이 서버로 요청(Request)됩니다. 서버는 교보문고에서 운영하는 서버입니다. 외주를 줬을 수도 있구요. 서버는 하나의 컴퓨터입니다. 서버에는 우리가 요청하는 정보들이 저장되어 있습니다. 교보문고의 서버에는 분야별 종합베스트셀러 정보가 있고, 우리에 요청에 응답(Response)하여이 정보를 우리 컴퓨터로 보내주는 것입니다. (더 자세히는 저도 아직 모릅니다;)

 

http://www.kyobobook.co.kr/bestSellerNew/bestseller.laf?orderClick=d79

 

 

우리가 '베스트'를 클릭했을 때, 이동된 화면의 URL입니다. 우리의 요청을 받은 서버는 우리가 보고 있는 화면에 해당하는 html 코드를 웹브라우저에 보내줍니다. html 은 텍스트와 구조에 대한 정보이고, 데코레이션 기능을 하는 CSS 라는 언어도 보내줍니다. 이외에 사진 같은 각종 정보들도 보내줍니다. 

 

마우스 우클릭을 하고 검사를 클릭합니다. 네트워크 텝을 클릭해봅시다. 새로고침(F5)을 해봅시다. 여러 항목들이 뜨는 것을 볼 수 있습니다. 

 

우리가 사용하는 브라우저와 서버가 정보를 주고받은 이력입니다. 이를 HTTP 통신이라고 하는데, 주고받는 정보가 HTTP 라는 규약을 따르고 있기 때문입니다. HTTP는 하나의 '형식'입니다. 통일된 형식이 있어야 정보를 주고받는데 용이하기 때문에 만들어졌을 거에요. HyperText Transfer Protocol 의 줄임말입니다. 크롤링을 하다 보면 네트워크 탭의 이력에서 원하는 정보를 찾아야 하는 경우도 있습니다. 

 

 

Status를 보시면 200 이라고 되있습니다. Status 는 '상태'라는 의미인데요. 우리의 요청에 대한 서버의 응답상태를 숫자로 나타내준 것입니다. 2xx 는 성공을 의미합니다. 

반응형

댓글