본문 바로가기

웹크롤링, 파싱, 가공, 매크로 프로그램 개발관련 서비스 cchart.xyz 웹크롤링, 파싱, 가공, 매크로 프로그램 개발관련 서비스가 새롭게 오픈해서 소개해드릴게요. 사이트는 http://cchart.xyz 입니다. cchart.xyz / 웹크롤링, 파싱, 가공 매크로 프로그램 개발 서비스 반복적인 웹크롤링, 파싱, 가공 매크로 프로그램 개발 서비스 cchart.xyz 실제 크롤링이라는 작업은 복잡한 것이죠. 간단하게 말하자면 인터넷에 있는 수많은 웹 페이지를 기계적으로 접근해서 해당 페이지의 정보를 읽고 수집하고 페이지에 있는 링크들에 접속해서 또 페이지의 정보를 읽고 수집하고 이런 것들을 반복하는 것이라고 할 수 있겠죠. https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC 웹 크롤러 - 위키백과, 우리 모.. 더보기
파이썬 크롤링 005 - 쇼핑몰 상품정보 (with selenium) / 데이터수집 자동화 앞선 포스팅에서 파이썬 코드를 통한 크롤링 기본적인 내용을 한 번 정리해봤습니다. 너무너무너무 단순했죠? 이번에는 조금 다른 방법으로 크롤링을 해보려고 합니다. 바로 Selenium 라이브러리를 통해서 크롤링 하는 것인데요. 아래서 조금 더 자세하게 설명해드리겠습니다. 크롤링에 대한 기본적인 내용을 보시려면 아래 링크로 걸어드리는 4개 포스팅을 보시면 조금 감을 잡을 수 있지 않을까? 라고 생각합니다. 2020/04/19 - 파이썬 크롤링 001 - 구성요소, 구현방법 2020/04/26 - 파이썬 크롤링 002 - 크롤러 구현 2020/05/03 - 파이썬 크롤링 003 - 파서 구현 2020/05/05 - 파이썬 크롤링 004 - 파싱 결과 저장 기존에 파이썬 requests 라이브러리를 활용해서 간.. 더보기
파이썬 크롤링 004 - 파싱 결과 저장 / 데이터수집 자동화 정말 기본적인 크롤링 구현을 보여드리고 있습니다. 앞선 포스팅 3개에서 이어지는 포스팅이고요. 파이썬을 활용한 크롤링에 대해서 궁금하신 분들은 001부터 봐주시면 더 이해가 쉽습니다. 아래 링크로 달아둘게요. 2020/04/19 - 파이썬 크롤링 001 - 구성요소, 구현방법 2020/04/26 - 파이썬 크롤링 002 - 크롤러 구현 2020/05/03 - 파이썬 크롤링 003 - 파서 구현 003에서 작성한 코드를 일부 수정했습니다. 일단 전체는 이렇게 생겼고요. 추가된 부분만 설명해볼게요. import requests from bs4 import BeautifulSoup crawling_target_urls = [ 'https://finance.naver.com/item/main.nhn?code=0.. 더보기
파이썬 크롤링 003 - 파서 구현 / 데이터수집 자동화 벌써 3번째 글이네요. 앞에 001, 002 글에서 이어지는 글이라서 관심있는 분들은 한 번 읽고 이번 글을 읽으시면 더 이해가 쉬울 것 같습니다. 아래 링크로 달아둘게요. 2020/04/19 - 파이썬 크롤링 001 - 구성요소, 구현방법 2020/04/26 - 파이썬 크롤링 002 - 크롤러 구현 이번 포스팅은 제목에도 나와있지만 파서를 구현하는 내용입니다. 정확하게는 멋진 라이브러리를 사용해서 크롤링한 데이터에서 원하는 내용만 뽑아내보는 것이죠. 002 포스팅 예제에서 주식 정보가 나와있는 사이트를 예로 들었는데 이번 포스팅에서도 이어서 사용해봅니다. 위 그림에서 오른쪽에 박스 그려둔 곳 보이시나요? 저곳에 있는 정보를 파싱하는 대상으로 설정해보죠. 그렇다면 아래와 같은 코드로 가능합니다. 코드를 .. 더보기
파이썬 크롤링 002 - 크롤러 구현 / 데이터수집 자동화 이전 포스팅에서 파이썬 크롤링 001 - 구성요소, 구현방법에 대해서 이야기 했습니다. 이어지는 포스팅이니까 혹시 1번을 안보신 분들은 보고 오시면 더 쉽게 이해되지 않을까 싶습니다. 이번 포스팅에서는 크롤러를 구현해봅니다. 이게 크롤러가 끝이야? 장난해? 라고 하실 수 있겠습니다. 저는 비개발자 분들이 부르는 크롤링은 사실 크롤링과 파싱을 합친 개념이라고 보거든요. 그래서 원하시는 결과를 얻으려면 파싱까지도 하셔야 하는데 이번 포스팅에서는 크롤링만 해보도록 하겠습니다. 어떤 예제가 좋을까? 고민을 했는데 주식쪽으로 예제를 만들어봤습니다. 주식을 투자하시다보면 회사들의 정보를 찾아보는 경우가 많죠. 간단하게는 요약정보부터 조금 더 자세하게는 재무제표까지 들여다 보는 것은 기본이라고 하죠. 이런 가정을 해.. 더보기
파이썬 크롤링 001 - 구성요소, 구현방법 / 데이터수집 자동화 안녕하세요 ! 오랜만에 정말 오랜만에 잡다한 기술 내용으로 포스팅을 하네요. 이번에 조금 길게 정리해보고 싶은 주제는 크롤링입니다. 크롤링이 꼭 개발자의 영역은 아닌것 같습니다. 누구나 개발할 수 있는 영역이라 생각하고 복잡한 내용은 조금 공부하면 충분히 할 수 있는 부분이라고 생각됩니다. 첫 번째 포스팅은 구현 방법을 정리하는 정도로 마치고 두번째, 세번째 이어가면서 실제로 어떻게 크롤링 프로그램을 구현하는지 더 할 수 있으면 수집한 데이터를 데이터베이스에 저장하고 관리하는 내용까지 정리해보려고 합니다. 이 포스팅을 보고 계시다면 당연히 검색으로 들어오셨을 확률이 매우 높죠. 검색어에는 '크롤링 (crawling)' 이 포함되었을 확률도 매우 높다고 생각됩니다. 따라서 크롤링이 뭐야? 는 넘어가도 되겠.. 더보기