Python/웹스크래핑.데이터수집
-
[데이터수집] 로또번호 전송봇 만들기Python/웹스크래핑.데이터수집 2021. 1. 4. 15:37
매주 토요일 저녁 8시 47분마다 동행복권 사이트(dhlottery.co.kr/common.do?method=main)에서 해당 주차 당첨번호를 확인 후 전송하는 텔레그램봇 작성 당첨번호 확인이 지연될 경우, 완료될 때까지 5분 단위로 재실행하고, 재시도하겠다는 메시지를 보낸다. 로또사이트는 참으로 친절해서 아래 url 정보만 있으면 번호를 바로 조회할 수 있다. url = 'https://dhlottery.co.kr/gameResult.do?method=byWin&drwNo=' + 회차정보 이제 매주의 회차 정보를 구하면 된다. 로또 추첨은 매주 1회 진행하고, 그때마다 1회차씩 증가하므로 처음 시작한 1회(2002. 12. 07.) 기준으로 몇주가 지나갔는가를 계산하면 된다. 조회 대상 날짜에서 시작..
-
[데이터수집] 한국부동산원 청약홈/청약Home 분양정보 (2)Python/웹스크래핑.데이터수집 2020. 12. 29. 22:41
한국부동산원 청약홈 페이지의 APT 분양정보 및 경쟁률 조회 페이지에서, -조회 조건을 변경해 1페이지부터 끝페이지까지 다운로드 받는다. -항상 최신 데이터를 확인할 수 있도록 최신 일자를 갱신한다. (1) 한국부동산원 청약홈 페이지 1페이지의 테이블 다운로드 / 데이터 beautifulSoup으로 파싱 (2) 조회 조건 변경하기 - 전체 페이지 대상으로 실행/최신 일자로 실행 한국부동산원 청약홈 페이지는 조회 조건 선택 -> 조회 형식으로 이루어져있다. requests.post()시에 form data 항목에 해당 조건을 넣어서 전송하면, 실제로 마우스로 클릭하지 않더라도 해당 데이터를 얻을 수 있다. 1) 전체 페이지 대상으로 실행: 전체 페이지 수 정보는 어디에 있을까? 지난번에 전송했던 form ..
-
[데이터수집] 한국부동산원 청약홈/청약Home 분양정보 (1)Python/웹스크래핑.데이터수집 2020. 12. 27. 20:33
한국부동산원 청약홈 페이지의 APT 분양정보 및 경쟁률 조회란의 1페이지에 있는 테이블을 다운로드 받은 후, beautifulSoup으로 파싱해서 tsv 형식으로 정제한다. (1) 한국부동산원 청약홈 페이지 1페이지의 테이블 다운로드 / 데이터 beautifulSoup으로 파싱 (2) 조회 조건 변경하기 - 전체 페이지 대상으로 실행/최신 일자로 실행 한국부동산원의 청약홈 페이지에 보면 분양정보 및 경쟁률이 있다. 문제는 자바스크립트 페이지라는 것. 드롭다운에서 선택지를 고르고 조회하는 형태다. 조회 화면은 이렇게 생겼다. 결과는 이렇게 출력된다. 아래는 1페이지의 일부다. 한 페이지에는 10건씩 표시되며 총 63페이지까지 있다. 데이터를 얻기 위해 개발자도구 - 네트워크 탭에 들어가서 해당 데이터가 어..