본문 바로가기

php 웹사이트 파싱 스크래핑

통상적으로는


대형 사이트의 별도로 지원하는 API가 있다라면 API 키를 발급 받아 그것을 활용하여 원하는 데이터를 편리하게


가져오는것이 정석이나 API를 지원하지 않는 경우에 가져와야 하는 경우라면 어떨까 그럴때

태그 문서를 긁어와서 파싱이란 것을 한다.


php로 웹사이트 파싱이나 Scrapping 방법은 너무나도 다양하고 많다


curl로 하는 방법 simplehtmldom으로 하는 방법 등등


긁어온것을 새로 가공하여 디비에 저장하여 재활용 하는 방법 등 많이 있다.


많이 쓰는 것중 하나인 simplehtmldom은 예제등은 http://simplehtmldom.sourceforge.net


이러한것들을 정규표현식의 조합으로 원하는 내용이나 데이터를 속아낸다고 해야 되나


나같은 경우는 일본 아마존(http://www.amazon.co.jp)의 제품 정도등의 데이터를 가져와야 할 경우가 있었다.


아무리 검색을 해봐도 국내 블로그엔 내가 원하는 상세한 글들이 없었고 혹은 내가 못찾는것인지


그렇게 하다 스크래핑을 하기로 결정을 하였으나 amazon의 방대한 사이트들을 내가 분석을 일일이 할 수는 없는 노릇이니 아마존의 지원 API를 토대로 필요한 부분을 가져와서 가공하였다.


API가 쓰기에는 편리한데 대부분은 하루에 혹은 1초에 혹은 한달에 호출 할 수 있는 횟수가 제한이 있어서


가능 하다면 궁극적 대안은 파싱이다.


요즘은 시대가 좋아서 대부분은 검색을 해보면 내가 원하는 자료를 얻을 수 있는게 대다수지만 그래도 아직은


한국 사이트나 블로그 쪽에는 개인적인 생각으론 부족하다.


그래서 짧은 영어실력이지만 외국의 사이트들을 검색하고 참고를 많이 한다.


6~70%는 적은 글을 못알아보지만 개발자니 코드만 보고 이해가 되니 어쩌면 다행이다 싶다.


파싱은 파싱 자체가 어려운것이 아니라 뚜렷한 목표가 있어야 하고 또 게으른 나로써는 꽤 귀찮은 작업이다.


그래서 자꾸 미루게 된다.


올래는 꼭 파싱으로 뭔가를 만들어 보자.