본문 바로가기
book

한입에 웹 크롤링 리뷰

by 믹스 2018. 10. 29.
반응형

B18.046

한입에 웹 크롤링 표지

샘플사이트를 접속하는데 계속 문제가 생겨서 결국 포기하고 예제를 참고로 다른 사이트를 테스트삼아 따라해 보게 되었습니다. 이건 이대로 공부가 되니 좋다는 생각도 들었습니다.

책의 초반부는 파이썬의 기초를 다지기 위한 문법을 설명해 주고 있으며, 중반부는 샘플 사이트를 통해 크롤링하는 방법을 차근차근 설명해주고 있습니다. json을 다루는 방법과 네이버API를 활용하는 방법등도 책의 샘플을 따라하는데는 지장이 없을만큼 자세하게 나와있습니다.

크롤링에 대해서는 잘 이해가 가지 않던 부분이 있었는데 원하는 정보가 있는 HTML의 DOM구조를 파악해서 필요한 부분을 발췌하는 과정을 자동화 하여 원하는 정보를 모으는 작업이라는것을 알 수 있었습니다.

해결을 하긴 했습니다만, 네이버API 부분은 실제로 소스를 따라해봐도 계속 에러가 나오는 통에 진도를 나가지 못했었습니다. 도통 문제가 무엇인지 모르겠더군요. git에서 샘플 소스를 받아서 진행해도 마찬가지 결과가 나오기에 문제를 버전으라 생각했습니다.

책에서는 3.6을 기준으로 설명되어 있으나 3.X 버전이라면 문제 없을 것이라 했지만, 제가 사용하고 있는 버전은 3.7이어서 문제가 있었나 싶어 버전을 내려봤지만, 역시나 문제가 개선되질 않았었습니다. 구글링을 통해 알게된 해결법중에 proxy server 설정이 문제가 되는 경우에 동일한 현상이 있다는 것을 알게 되었으며 터미널에서 다음을 실행시켜 문제점을 해결하게 되었습니다. 역시 구글!!!

/Applications/Python\ 3.6/Install\ Certificates.command

상기 명령어를 통해 정확한 이유는 알지 못한 상태에서 샘플 소스는 제대로 실행되는 것을 확인할 수 있었습니다. 어디서 꼬인건지는 결국 찾질 못했습니다만 문제가 해결되었으니 만사OK. 다시 진도를 나갔습니다. 역시 프로그램이 알려주는 에러에는 다 이유가 있는거였습니다.

편집은 여백도 많은 편이고 행간을 넓게 활용하고 있어 읽는데는 그리 많은 시간을 요하지는 않습니다. 저처럼 중간에 갑작스런 에러와 조우하지 않는다면 말이죠.

책을 읽으면서 느낀건 초보자 수준에서 자신이 필요로 하는 정보를 취합하기 위해 필요한 기능들이 잘 정리되어 있다는 것이었습니다. 최소한 책을 따라해 보고, 수중에 소스가 남아있다면 조금만 응용하면 일정수준의 정보를 나름대로 뽑아볼 수 있겠다는 결론을 얻을 수 있었습니다.

아쉽게도 직업적으로 봤을때 개인적으로는 프론트에 국한된 작업을 하며 대량의 정보를 다루는 작업은 하지 않는만큼, 저한테 있어서 크롤링은 활용성이 떨어진다는 결론을 내릴 수 있었는데요. 숫자를 많이 다루거나 통계성 데이타를 다루시는 분중에서 프로그램을 접해본적은 없지만 작업을 단순화시키는 과정을 알고 싶거나 자기만의 정보를 만들고 싶으신 분들이라면 일독을 권하고 싶다는 생각이 들었습니다.

역시나 사람의 손을 거치는 작업인 만큼 실수가 없을 순 없죠. 아쉬운점은 바로 옆페이지에서는 json_obj 를 사용하더니 갑자기 json 으로 바뀌어 있다가 설명문에는 또다시 json_obj가 나오는 등 검토가 부족했던 부분이 눈에 띄기도 했습니다. 뭐 이정도는 공부하는 사람이 알아서 대처해야겠지만 이왕 구입한 책, 술술술 멈추는 곳 없이 진행되었으면 하는 바램은 어쩔수가 없는것 같습니다.

반응형

댓글0