Skip to content
This repository was archived by the owner on Jun 19, 2020. It is now read-only.

Latest commit

 

History

History
107 lines (94 loc) · 4.82 KB

File metadata and controls

107 lines (94 loc) · 4.82 KB
  • 진행과정 로그
    • stack 방식으로

2018.06.16 - 스크래핑

강의 듣고 나서

Rudia

  • 전반적인 개념 잡기 좋았음. 바로 쓸 수 있을 정도의 실습코드는 아니였음
  • Robot.txt 스크래핑 가능한 부분을 표시해 줌.
  • Xpath로 관련부분 스크래핑 내용나옴

오늘 목표

  • 일정정하기 (온라인 미팅 17일 일요일 오후 6시~6시30분 공유용)
  • 예정학습기간 정하기, 학습로그 공유방법 정하기.
  • 각자 14:00 까지 실습해보고, 더 학습시간이 필요한지 확인
  • 강의 실습해보기
  • 15:30 앞으로의 계획

이야기

  • 스크래핑 단계를 나눠보자 - 한번에 접근할 수 있도록
  • Url 개별페이지 스크래핑 -> 크롤링
  • Xpath 부분 수동 스크래핑 -> 자동화 스크래핑 -> 원하는 특정 항목 스크래핑 Rudia
  • 초기세팅(우분투 설치)이 안되서 실습을 할 수가 없음.
  • 강의를 다 봤지만 뭔가 감잡았다! 라고 말할 수가 없음
  • 목표: Window로 scrapy 실행 할 수 있는 방안 모색
  • 여러 예제 더 실행 -> 부족한 부분 찾으면서 보완 가능

Ohahohah

  • 개인목표 : 예제 더 해보기.
  • 동영상 듣기 힘듦. 튜토리얼 따라하는것이 공부방식에 맞춰서 좋았다.
  • 파이썬 3에대한 기본 문법이 부족
  • 학습 : 파싱을위한 정규표현식, 파이썬기초, 파이썬 구조를 만들기위한 기초
  • 40개문제를 해볼까? 쥬피터 외에는 써본적이 없어 IDE로 해보는건 어떨까.
  • 1~2문제는 괜찮지 않나요?

정리

  • 파이썬 : 40개 문제에서 2개골라서 해보기, 한가지 문제 있으면 다른 여러 서적과 참조 자료 보면서 해보기
  • 연습문제2. 글자 수 세기
  • 연습문제 27. 입력 값 검증
  • 연습문제 42. 데이터 파일 파싱
  • 정규식 : 프로그래머스 튜토리얼 한번 훑어요.
  • 스크래파이 : 파이썬 크롤러 책 예제로 변형해보기. -> 페어프로그래밍

Action

  • 페어프로그래밍 - scrapy 예제 - xpath로 title 가져오기
  • 일정정하기 (온라인 미팅 17일 일요일 오후 6시~6시30분 공유용)
  • 예정학습기간 정하기 -> 학습가능 스케쥴 달력에 표기
  • 학습로그 공유방법 정하기-> learning Repository issue등으로 등록
  • 각자 14:00 까지 실습해보고, 더 학습시간이 필요한지 확인
  • 실습해보고 각자 목표 적음
  • 강의 실습해보기
  • 15:30 앞으로의 계획
  • Scrapy tutorial 실습 하는 중

Next Action

  • 스크래파이 : 파이썬 크롤러 책 예제로 변형해보기 - 페어프로그래밍
  • 6/20 수 Scrapy tutorial 실습 - 리스트 뿌려주기
  • 다음주 파이썬 : 40개 문제에서 2개골라서 해보기, 한가지 문제 있으면 다른 여러 서적과 참조 자료 보면서 해보기
  • 연습문제2. 글자 수 세기
  • 연습문제 27. 입력 값 검증
  • 연습문제 42. 데이터 파일 파싱 (개인학습)정규식 : 프로그래머스 튜토리얼 한번 훑어요.

회고

Rudia: 실습 전에 실습환경설정(우분투 등)을 해놓자

Ohahohah: 목표잡고 부족한부분 설정되서 좋았음. 목표를 기한내에 지켰냐가아니라 다음 목표가 정해졌는지가 중요한것 같다.


2018.06.01. 금 @강남카페 스크래핑 집중개발

6/01 목표 -> 목표 너무 크게 잡았음….

  • 1차 목표 원티드 - 상세 회사 페이지 전체 스크래핑
  • 2차 목표 : 항목별 스크래핑
  • 3차 목표 : 스크래핑 내용 저장 : 텍스트파일
  • 4차 목표 : 스크래핑 내용 저장 : 데이터베이스 저장

오늘 뭐함?

  • 무얼할지 우선순위 정함

  • workflow 실행해봄

    workflow

  • 온라인 협업방법 익숙해지기

  • trello 설정

  • 리포지토리 분리

  • branch 관리 어떻게 할지, 깃헙 이슈, 트렐로,...

  • 코드 scrapy! 사용 정함

  • scrapy 설치해봄

  • 프로젝트 구조 만듦

  • 샘플코드 직접 실행해봄

앞으로 해야할 것 - 과제 / 목표

  • 파이썬 디버깅이 어렵다
  • scrapy 구조에 익숙하지 않아서 - 튜토리얼, 예제 따라가기 힘들었음
  • 검색해서 찾은 예제들이 이전 버전임(python 2.7)
  • 웹사이트 구조가 까다롭다 - 바로 스크래핑하기 어려움

개선할 것 / 찾아올 것

  • 목표를 생각보다 작게 세분화해서 잡자 - 목표가 너무 커서 하다 말면 기분이 나쁘다 의욕상실
  • 리액트 소스 스크래핑 하는 방법 - 원티드 등

앞으로 일정 + 해야할 일

  • 6/6 저녁 온라인 2시간
    • scrapy 체계적으로 배울 자료 (책, 튜토리얼 등) 찾아오기
    • (옵션) 스크래핑 대상 사이트 구조를 분석해봄 (소스 분석)
  • 6/16 토 집중 개발
  • 이슈 등록 (Rudia)
  • 트렐로, 슬랙 이슈 연동 (Ohahohah)