블로그 html 파싱 원리가 궁금해요.

Question

블로그에 올라오는 콘텐츠를 파싱 할 수 있다고 들었는데요. 글, 그림 모두 파싱이 가능하다고 하더라고요.

어떤 원리인지 배워보고 써먹어보고 싶은데 어떻게 접근하면 좋을까요?

요즘 블로그에 접속하면 글을 긁는걸 다 막아두었던데 파싱으로 글을 가져올 수 있는지 궁금합니다.

답변 부탁드려요!

대단한멧새102 · Accepted Answer

스크래핑 혹은 크롤링에 대해 들어보셨을까요?원하는 데이터가 있는 페이지의 HTML 작성코드를 읽을 수 있는 기술입니다.개발자가 아니더라도 마케팅 분야에서는 데이터를 핸들하기 위해 파이썬을 익혀서 주기적으로 크롤링을 하고 있습니다.파이썬 + BEAUTIFUL SOUP,  셀레니움을 통해서 원하고자 하는 페이지의 HTML 코드를 가져올 수 있습니다.

신박한가젤26 · Answer

파싱은 잘못된 표현이며 크롤링, 스크래핑등이 맞는 표현입니다.아하 홈페이지를 방문했을때 화면에 보여지듯, HTML문서는 DOM이라는(Document Object Model)형태의 뿌리를 내립니다.이러한 DOM형태를 프로그래머가 분석하여 블로그 글을 긁어오거나, 단순히 HTML문서의 구성을 확인하여 블로그 글을 긁을수도 있습니다.말씀하신 복사방지는 Javascript로 사용자가 브라우저로 접속할때에만 막혀있는것이며, 원본 소스를 들여보는 크롤링 형태에는 막히지 않습니다. (이와 별개로 크롤링을 막는 형태의 복사방지도 존재합니다)이런 크롤링을 하는 방법은 언어/라이브러리 혹은 이러한 크롤링만 목적으로 하는 프로그램등 내가 해보려는 형태에 따릅니다.우선 본인이 쉽게 해볼 수 있는 프로그래밍 언어(주로 파이썬이 대표적입니다) 및 강좌에 대해서 검색하여 배우시는걸 추천드립니다.

하얀고슴도치236 · Answer

파싱 혹은 크롤링을 얘기하시는것으로 보입니다.이는 셀레니움 등 프로그램을 이용하여 간단하게 작업하실수 있는데요.프로그래밍이 처음이시라면 파이썬 으로 해보시는걸 추천드립니다.아주 간단한 설명과 함께 예제있는 URL 첨부드리니 확인해보시고 직접 구현해보시면서 질문 더 있으신 경우는 말씀주세요^^https://blockdmask.tistory.com/385

참신한청설모65 · Answer

사용자가 크롬이나 사파리같은 브라우저를 통해 블로그 글 같은 콘텐츠를 본다는 건, 실은 브라우저가 모든 웹페이지에게 요청한 HTML을 읽어서 예쁘게 보여주는 것 뿐입니다. 기본적으로는 그냥 HTML 텍스트 그 자체인거죠.

콘텐츠를 긁어가는 행위를 막는 건 해당 콘텐츠를 보여주는 브라우저가 막아줄 뿐이고, 브라우저가 아닌 다른 방법으로 http 통신을 한다면 HTML을 온전히 받아서 마음대로 컨트롤 할 수 있습니다.

요청해서 받은 HTML에서 이미지를 가져오고 싶다면 그 html안에 포함된 img태그들의 src속성을 가져오면 해당 url을 가져올 수 있는거죠. 글도 div나 p, article 태그에 감싸져있는 텍스트를 가져오면 되겠죠.

이런 행위를 스크래핑, 크롤링이라고 합니다. 질문해주신 내용은 이 키워드로 구글에 검색하시면 예제들도 굉장히 많구요, 실제로 난이도도 매우 쉬운 편입니다.

생활꿀팁

생활꿀팁

블로그 html 파싱 원리가 궁금해요.