Skip to content
This repository was archived by the owner on Aug 16, 2025. It is now read-only.

Latest commit

 

History

History
76 lines (57 loc) · 2.49 KB

File metadata and controls

76 lines (57 loc) · 2.49 KB

Парсер для сайта Alkoteka.com

Этот проект представляет собой парсер для сайта Alkoteka.com, реализованный с использованием фреймворка Scrapy. Парсер собирает информацию о товарах с сайта и сохраняет её в формате JSON.

🔍 Возможности

  • 📦 Сбор данных о товарах (название, цена, описание и т.д.)
  • 🔄 Ротация прокси для обхода антипарсинговых защит
  • 🕶️ Генерация случайных User-Agent для каждого запроса
  • ⏳ Настройка задержки между запросами
  • 💾 Сохранение результатов в JSON-файл

🚀 Установка

1. Клонируйте репозиторий:

git clone https://github.com/drxxmy/alkoteka-scraper.git
cd alkoteka-scraper

2. Установите зависимости с помощью uv:

uv sync

⚡ Запуск парсер

Для запуска парсера выполните следующую команду:

scrapy crawl alkoteka -O result.json

📌 Результаты будут сохранены в файл result.json в корневой директории проекта.

⚙️ Конфигурация

Настройки парсера можно изменить в файле settings.py:

# При необходимости отредактируйте путь к файлу с прокси
ROTATING_PROXY_LIST_PATH = "proxy_list.txt"

# Задержка между запросами
DOWNLOAD_DELAY = 2

# Настройки Autothrottle
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5
AUTOTHROTTLE_MAX_DELAY = 60
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
AUTOTHROTTLE_DEBUG = True

📂 Структура проекта

├── pyproject.toml
├── README.md
├── scraper
│   ├── proxy_list.txt
│   ├── scraper
│   │   ├── __init__.py
│   │   ├── items.py
│   │   ├── middlewares.py
│   │   ├── pipelines.py
│   │   ├── settings.py
│   │   ├── spiders
│   │   │   ├── alkoteka.py
│   │   │   ├── __init__.py
│   │   └── utils.py
│   └── scrapy.cfg
└── uv.lock