Парсер документов PEP с использованием фреймворка Scrapy. Scrapy — это высокоуровневый Python-фреймворк для парсинга данных с веб-сайтов, построенный на базе асинхронной библиотеки Twisted. В данном проекте парсер асинхронно проходится по сайту с документацией PEP и создаёт 2 файла в формате csv с данными и статистикой по ним.
Scrapy 2.5.1, Twisted 22.2.0
- Установите и активируйте виртуальное окружение.
python -m venv venv
source venv/Scripts/./activate
- Обновите менеджер пакетов pip и установите зависимости.
python -m pip install --upgrade pip
pip install -r requirements.txt
- Запустите парсер.
scrapy crawl pep
В дирректории results появятся 2 файла в формате csv: pep_ДатаВремя.csv - список с данными по номеру, названию и статусу каждого существующего pep. status_summary_ДатаВремя.csv - сводка по статусам PEP, сколько найдено документов в каждом статусе.
Семёнов Сергей (Github - bluesprogrammer-Python, telegram - seregabrat9)