Этот проект представляет собой парсер для сайта Alkoteka.com, реализованный с использованием фреймворка Scrapy. Парсер собирает информацию о товарах с сайта и сохраняет её в формате JSON.
- 📦 Сбор данных о товарах (название, цена, описание и т.д.)
- 🔄 Ротация прокси для обхода антипарсинговых защит
- 🕶️ Генерация случайных User-Agent для каждого запроса
- ⏳ Настройка задержки между запросами
- 💾 Сохранение результатов в JSON-файл
git clone https://github.com/drxxmy/alkoteka-scraper.git
cd alkoteka-scraperuv syncДля запуска парсера выполните следующую команду:
scrapy crawl alkoteka -O result.json📌 Результаты будут сохранены в файл result.json в корневой директории проекта.
Настройки парсера можно изменить в файле settings.py:
# При необходимости отредактируйте путь к файлу с прокси
ROTATING_PROXY_LIST_PATH = "proxy_list.txt"
# Задержка между запросами
DOWNLOAD_DELAY = 2
# Настройки Autothrottle
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5
AUTOTHROTTLE_MAX_DELAY = 60
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
AUTOTHROTTLE_DEBUG = True├── pyproject.toml
├── README.md
├── scraper
│ ├── proxy_list.txt
│ ├── scraper
│ │ ├── __init__.py
│ │ ├── items.py
│ │ ├── middlewares.py
│ │ ├── pipelines.py
│ │ ├── settings.py
│ │ ├── spiders
│ │ │ ├── alkoteka.py
│ │ │ ├── __init__.py
│ │ └── utils.py
│ └── scrapy.cfg
└── uv.lock