Skip to content

bluesprogrammer-Python/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy parser PEP

Описание

Парсер документов PEP с использованием фреймворка Scrapy. Scrapy — это высокоуровневый Python-фреймворк для парсинга данных с веб-сайтов, построенный на базе асинхронной библиотеки Twisted. В данном проекте парсер асинхронно проходится по сайту с документацией PEP и создаёт 2 файла в формате csv с данными и статистикой по ним.

Технологии в проекте

Scrapy 2.5.1, Twisted 22.2.0

Инструкция по запуску

  1. Установите и активируйте виртуальное окружение.
python -m venv venv
source venv/Scripts/./activate
  1. Обновите менеджер пакетов pip и установите зависимости.
python -m pip install --upgrade pip
pip install -r requirements.txt
  1. Запустите парсер.
scrapy crawl pep

В дирректории results появятся 2 файла в формате csv: pep_ДатаВремя.csv - список с данными по номеру, названию и статусу каждого существующего pep. status_summary_ДатаВремя.csv - сводка по статусам PEP, сколько найдено документов в каждом статусе.

Автор

Семёнов Сергей (Github - bluesprogrammer-Python, telegram - seregabrat9)

About

Scrapy parser PEP

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages