일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 스위프트
- 파이썬
- 파이썬중급강의
- rxswift
- Python3
- 인프런파이썬강의
- 프로그래머스
- 교환학생토플
- 인프런오리지널
- SwiftUI
- 토플
- 우리를위한프로그래밍
- 노드JS
- JS
- 인프런파이썬
- 파이썬웹크롤링
- 파이썬중급
- 자바스크립트
- nodeJS
- 인프런
- 리프2기
- 토플공부수기
- 웹크롤링
- 인프런강의
- IOS프로그래밍
- IOS
- uikit
- 유학토플
- 카카오톡채팅봇
- swift
- Today
- Total
목록파이썬웹크롤링 (7)
먹고 기도하고 코딩하라

개요 : Python3 + BeautifulSoup4로 하는 웹크롤링 하는 것 : Python3 문법 톺아보기 + BeautifulSoup4 초간단 익히기 + 멜론 TOP100 크롤링 실습 소요 시간 : 1시간~1시간 30분 작년 2학기에 난 휴학하고 토플 공부를 하고 있었다. 코로나 없는 평행세계의 나는 지금쯤 미국 뉴욕주의 어느 학교에서 새학기 적응을 하고 있겠으나... 난 코로나로 파견이 불발되고 그냥 복학을 하기로 했다. 글을 시작하자마자 샛길로 빠졌는데 휴학생도 학교의 공동 자율학습(?) 프로그램에 참여할 수 있어서 친구들과 함께 주제를 정해서 자기가 잘 아는 걸 발표하기로 했다. 내가 아는 것 중에 친구들이 제일 관심있게 공부할 만한 게 뭐가 있을까 곰곰이 생각하다가 우리 모두 파이썬은 기본 ..

우리 학교 학식 홈페이지 같은 경우 일요일이면 자동으로 돌아오는 주 식단이 나오게 되어 있습니다. 하지만 가끔은 금요일이나 토요일에 미리 다음주 식단을 긁어와야 할 때가 있는 법입니다. (일요일에 놀러가려면) 근데 짜놓은 코드에는 다음 주 식단을 볼 수 있는 코드가 없습니다. 날짜 옆의 '다음'을 눌러야 다음 주 식단이 나올 텐데 어떻게 해야 할까요? 일단 '다음'을 누를 때 어떤 일이 일어나는지부터 확인해봐야겠습니다. 크롬 브라우저를 켜고 개발자 도구를 엽니다. '다음'을 검색합니다. 보아하니 클릭했을 때 'nextWeekday()'라는 함수가 실행되고 그러면 다음 주로 넘어가는 모양입니다. 내친김에 nextWeekday() 함수가 어떻게 생겼는지도 보겠습니다. getWeekday 를 해서 현재 날짜에..

이전 글 보기 카카오톡 학식봇 만들기(3) - 텍스트 파일 파싱해서 메시지로 보내기 이전 글 보기 카카오톡 학식봇 만들기(2) - Amazon EC2에 firefox 웹드라이버 설치, 동적 웹페이지 크롤링하기 이전 글 보기 카카오톡 학식봇 만들기(1) - 동적 웹페이지 크롤링 방법이 정적 웹페이지와 dev-dain.tistory.com 이번 포스팅에서는 views 파일 완성본으로 어떻게 i 오픈빌더 시나리오와 블록에 적용해야 카카오톡 채널에서 자동응답이 가능한지 살펴보겠습니다. 우선 가상환경을 활성화하시고 app_name 디렉토리 아래 views.py 파일을 다음과 같이 수정합니다. 코드가 길기 때문에 이번에는 포스팅에 넣지 않고 링크로 대체합니다. JsonResponse 형식은 이전에 설명했기 때문에 ..

이전 글 보기 카카오톡 학식봇 만들기(2) - Amazon EC2에 firefox 웹드라이버 설치, 동적 웹페이지 크롤링하기 이전 글 보기 카카오톡 학식봇 만들기(1) - 동적 웹페이지 크롤링 방법이 정적 웹페이지와 다른 이유 이전 시리즈 : 카카오 i 오픈빌더 챗봇 만들기 파이썬 장고로 카카오 i 오픈빌더 챗봇 만들기 dev-dain.tistory.com 안녕하세요? 이번 포스팅에서는 저번 포스팅에서 다뤘던 크롤링 코드 파일의 완성판을 한 번 같이 보고 실행 결과인 텍스트 파일을 views 에서 잘 가공하는 방법을 다뤄 보겠습니다. 먼저 가상환경을 활성화하시고 위치가 /home/ubuntu 인 것을 확인하십시오. 다음을 입력합니다. $ rm test.py $ cd [base_name]/[app_name..

이전 글 보기 카카오톡 학식봇 만들기(1) - 동적 웹페이지 크롤링 방법이 정적 웹페이지와 다른 이유 이전 시리즈 : 카카오 i 오픈빌더 챗봇 만들기 파이썬 장고로 카카오 i 오픈빌더 챗봇 만들기 (1) - 가상환경 설정, Django 프로젝트와 앱 만들기 Python Django 카카오 i 오픈빌더 챗봇 만들기 튜토리얼� dev-dain.tistory.com 이번 포스팅에서는 Amazon EC2 컴퓨터에 웹 크롤링을 위한 이런저런 라이브러리를 설치해보고 직접 웹페이지를 크롤링하는 코드까지 짜는 것을 다룹니다. 굳이 Amazon EC2 컴퓨터일 필요는 없습니다. 그냥 Linux Ubuntu 환경이라면 가능하지만, Amazon EC2로 특정한 이유는 저의 작업 환경이기도 하고 CLI 환경이 아니면 이따 쓸..

이 포스팅은 beautifulsoup4 에서 가장 잘 쓰이고 간단하게 쓸 수 있는 핵심 문법들을 정리하기 위해 쓰였습니다. 여기서는 웹페이지의 소스 코드에서 우리가 원하는 부분을 골라내는 방법과 beautifulsoup4 로 원하는 정보만 쏙 뽑아내는 것에 주안점을 두겠습니다. 주의하실 점은 동적 웹페이지에서는 이 방법이 먹히지 않을 수 있다는 것입니다. 브라우저 엔진으로 스크립트를 해석해야 하는 경우 selenium 과 웹 드라이버를 설치해야 할 수 있습니다. 이 방법에 대해서는 저의 다른 포스팅에서 더 자세하게 다루고 있으니 참고하시기 바랍니다. 기본적으로 정적 웹페이지를 크롤링하는 방법을 다룹니다. 시작해보겠습니다. 일단 저는 우리 학교 소스 코드에서 날짜와 요일, 그리고 학생식과 교직원식을 뽑아내..

이전 시리즈 : 카카오 i 오픈빌더 챗봇 만들기 파이썬 장고로 카카오 i 오픈빌더 챗봇 만들기 (1) - 가상환경 설정, Django 프로젝트와 앱 만들기 Python Django 카카오 i 오픈빌더 챗봇 만들기 튜토리얼에 오신 것을 환영합니다. 이 시리즈는 Amazon EC2로 서버 컴퓨터를 받은 뒤 실제로 학식봇의 기본이 되는 서버 설정을 하고 간단한 스킬을 만드� dev-dain.tistory.com 안녕하십니까? 이 시리즈는 카카오 i 오픈빌더로 학식 봇을 만드는 과정을 다룹니다. 이 포스팅은 그 중 HTML 페이지 구조 분석을 먼저 합니다. 여기서 다루는 정적 페이지가 아닌 동적 페이지임을 염두에 두시길 바랍니다. 정적 페이지의 경우 이 글보다 더 쉬운 방법으로 접근이 가능합니다. 저는 저희 학..