fix: resolve refactoring issues (Config layer, temp files, frontend stability)

ergon73 · ergon73 · commit f706763483d2 · 2025-11-16T20:55:01.000+03:00
diff --git a/backend/config.py b/backend/config.py
@@ -0,0 +1,76 @@
+"""
+Централизованная конфигурация приложения.
+Читает переменные окружения, предоставляет валидацию и дефолты.
+"""
+import os
+from pathlib import Path
+from typing import Optional
+from dotenv import load_dotenv
+
+# Загружаем .env из корня проекта
+_root_env_path = Path(__file__).resolve().parents[1] / '.env'
+load_dotenv(dotenv_path=_root_env_path)
+
+
+class Config:
+    """Централизованный класс конфигурации."""
+    
+    # LLM API Keys
+    OPENAI_API_KEY: Optional[str] = os.getenv("OPENAI_API_KEY")
+    YANDEX_FOLDER_ID: Optional[str] = os.getenv("YANDEX_FOLDER_ID")
+    YANDEX_API_KEY: Optional[str] = os.getenv("YANDEX_API_KEY")
+    GIGACHAT_CREDENTIALS: Optional[str] = os.getenv("GIGACHAT_CREDENTIALS")
+    GIGACHAT_CERT_PATH: Optional[str] = os.getenv("GIGACHAT_CERT_PATH")
+    
+    # Security & Rate Limiting
+    API_KEY: Optional[str] = os.getenv("API_KEY")  # опционально, если не задан - проверка отключена
+    RATE_LIMIT_WINDOW_SEC: int = int(os.getenv("RATE_LIMIT_WINDOW_SEC", "60"))
+    RATE_LIMIT_MAX_REQ: int = int(os.getenv("RATE_LIMIT_MAX_REQ", "60"))
+    
+    # Flask
+    FLASK_DEBUG: bool = os.getenv("FLASK_DEBUG", "0") in ("1", "true", "True")
+    
+    # Test Mode
+    TEST_MODE: bool = os.getenv("TEST_MODE", "false").lower() in ("true", "1")
+    
+    # Cache
+    ANALYSIS_CACHE_TTL_SEC: int = int(os.getenv("ANALYSIS_CACHE_TTL_SEC", "600"))
+    ANALYSIS_CACHE_MAX: int = int(os.getenv("ANALYSIS_CACHE_MAX", "256"))
+    
+    # Temp files cleanup (minutes)
+    TEMP_CLEANUP_AGE_MIN: int = int(os.getenv("TEMP_CLEANUP_AGE_MIN", "30"))
+    
+    @classmethod
+    def validate(cls) -> None:
+        """
+        Проверяет наличие обязательных переменных окружения.
+        В TEST_MODE не требует LLM ключей.
+        
+        Raises:
+            ValueError: если отсутствуют обязательные переменные
+        """
+        if cls.TEST_MODE:
+            return  # В тестовом режиме ключи не требуются
+        
+        missing = []
+        
+        # Проверяем только если не TEST_MODE
+        # OpenAI опционален (может использоваться только Yandex/Giga)
+        # Но хотя бы один провайдер должен быть настроен
+        has_any_provider = (
+            cls.OPENAI_API_KEY or
+            (cls.YANDEX_API_KEY and cls.YANDEX_FOLDER_ID) or
+            cls.GIGACHAT_CREDENTIALS
+        )
+        
+        if not has_any_provider:
+            missing.append("At least one LLM provider must be configured (OPENAI_API_KEY, YANDEX_API_KEY+YANDEX_FOLDER_ID, or GIGACHAT_CREDENTIALS)")
+        
+        if missing:
+            raise ValueError(f"Missing required environment variables: {', '.join(missing)}")
+    
+    @classmethod
+    def get_debug_flag(cls) -> bool:
+        """Возвращает флаг debug для Flask."""
+        return cls.FLASK_DEBUG
+
diff --git a/backend/llm/gigachat_helper.py b/backend/llm/gigachat_helper.py
@@ -2,6 +2,7 @@
 import logging
 from gigachat import GigaChat
 from gigachat.models import Chat, Messages, MessagesRole
+from backend.config import Config
 
 # Настройка логирования
 logger = logging.getLogger(__name__)
@@ -12,12 +13,12 @@ def get_giga_response(user_prompt: str, model: str = "GigaChat:latest") -> str:
     В случае ошибки возвращает сообщение об ошибке.
     """
     # В тестовом режиме возвращаем заглушку
-    if os.getenv("TEST_MODE", "false").lower() == "true":
+    if Config.TEST_MODE:
         return "Тестовый режим: Здесь будет ответ от GigaChat. Для реальной работы укажите GIGACHAT_CREDENTIALS в .env"
 
     try:
-        credentials = os.getenv("GIGACHAT_CREDENTIALS")
-        cert_path = os.getenv("GIGACHAT_CERT_PATH", "russian_trusted_root_ca.cer")
+        credentials = Config.GIGACHAT_CREDENTIALS
+        cert_path = Config.GIGACHAT_CERT_PATH or "russian_trusted_root_ca.cer"
 
         if not credentials:
             logger.error("Не найдены учетные данные GigaChat в переменных окружения")
diff --git a/backend/llm/main_processor.py b/backend/llm/main_processor.py
@@ -1,5 +1,5 @@
 # Этот файл будет центральной точкой для вызова любой LLM
-import os
+from backend.config import Config
 from . import yandex_gpt_helper, gigachat_helper, openai_helper
 
 def get_analysis(provider: str, model: str, table_data: str) -> str:
@@ -12,7 +12,7 @@ def get_analysis(provider: str, model: str, table_data: str) -> str:
     :return: Текстовый отчет от LLM
     """
     # Проверяем тестовый режим
-    if os.getenv("TEST_MODE", "false").lower() == "true":
+    if Config.TEST_MODE:
         return f"""Тестовый режим активен. Анализ данных:
         
 Провайдер: {provider}
diff --git a/backend/llm/openai_helper.py b/backend/llm/openai_helper.py
@@ -1,6 +1,6 @@
-import os
 import logging
 from openai import OpenAI
+from backend.config import Config
 
 logger = logging.getLogger(__name__)
 
@@ -11,10 +11,10 @@ def get_openai_response(user_prompt: str, model: str = "gpt-4", retries=3) -> st
     Отправляет запрос к OpenAI и возвращает ответ.
     """
     # В тестовом режиме возвращаем заглушку
-    if os.getenv("TEST_MODE", "false").lower() == "true":
+    if Config.TEST_MODE:
         return "Тестовый режим: Здесь будет ответ от OpenAI. Для реальной работы укажите OPENAI_API_KEY в .env"
 
-    api_key = os.getenv("OPENAI_API_KEY")
+    api_key = Config.OPENAI_API_KEY
     if not api_key:
         logger.error("Не найден API ключ OpenAI в переменных окружения")
         return "Ошибка конфигурации OpenAI. Обратитесь к администратору."
diff --git a/backend/llm/yandex_gpt_helper.py b/backend/llm/yandex_gpt_helper.py
@@ -1,8 +1,8 @@
-import os
 import logging
 import requests
 from typing import Optional
 import json
+from backend.config import Config
 
 logger = logging.getLogger(__name__)
 
@@ -14,11 +14,11 @@ def get_yandex_response(user_prompt: str, model: str = "yandexgpt-lite", retries
     Предусмотрены повторные попытки в случае ошибки.
     """
     # В тестовом режиме возвращаем заглушку
-    if os.getenv("TEST_MODE", "false").lower() == "true":
+    if Config.TEST_MODE:
         return "Тестовый режим: Здесь будет ответ от YandexGPT. Для реальной работы укажите YANDEX_FOLDER_ID и YANDEX_API_KEY в .env"
 
-    folder_id = os.getenv("YANDEX_FOLDER_ID")
-    iam_token = os.getenv("YANDEX_API_KEY")
+    folder_id = Config.YANDEX_FOLDER_ID
+    iam_token = Config.YANDEX_API_KEY
     
     logger.debug(f"Используется YANDEX_FOLDER_ID: {folder_id}")
     
diff --git a/backend/pdf_server.py b/backend/pdf_server.py
@@ -7,14 +7,14 @@
 import os
 import json
 from typing import List, Optional
-from dotenv import load_dotenv
 from pathlib import Path
 from flask_cors import CORS
 import logging
 from werkzeug.utils import secure_filename
 from backend.types import BasicAnalysis
 from bleach.sanitizer import Cleaner
 from backend.errors import register_error_handlers, ValidationError
+from backend.config import Config
 import time
 import hashlib
 from itertools import islice
@@ -24,11 +24,7 @@
 logging.basicConfig(level=logging.DEBUG)
 logger = logging.getLogger(__name__)
 
-# Загружаем переменные окружения как можно раньше, из КОРНЯ проекта (единый .env)
-_root_env_path = Path(__file__).resolve().parents[1] / '.env'
-load_dotenv(dotenv_path=_root_env_path)
-
-# Импортируем LLM-обработчик после загрузки .env, чтобы учитывался TEST_MODE и ключи
+# Импортируем LLM-обработчик после загрузки Config
 from llm.main_processor import get_analysis
 
 app = Flask(__name__)
@@ -74,9 +70,9 @@ def _block_external_url_fetcher(url):
 })
 
 # Опциональная API-авторизация и наивный rate limiting
-API_KEY = os.getenv("API_KEY")  # если не задан, проверка отключена
-RATE_LIMIT_WINDOW_SEC = int(os.getenv("RATE_LIMIT_WINDOW_SEC", "60"))
-RATE_LIMIT_MAX_REQ = int(os.getenv("RATE_LIMIT_MAX_REQ", "60"))
+API_KEY = Config.API_KEY
+RATE_LIMIT_WINDOW_SEC = Config.RATE_LIMIT_WINDOW_SEC
+RATE_LIMIT_MAX_REQ = Config.RATE_LIMIT_MAX_REQ
 _rate_limit_store: dict[str, list[float]] = {}
 
 def _client_id() -> str:
@@ -103,8 +99,8 @@ def _security_and_rate_limit():
 
 
 # Кэш анализа по (provider, model, dataset_hash)
-ANALYSIS_CACHE_TTL_SEC = int(os.getenv("ANALYSIS_CACHE_TTL_SEC", "600"))
-ANALYSIS_CACHE_MAX = int(os.getenv("ANALYSIS_CACHE_MAX", "256"))
+ANALYSIS_CACHE_TTL_SEC = Config.ANALYSIS_CACHE_TTL_SEC
+ANALYSIS_CACHE_MAX = Config.ANALYSIS_CACHE_MAX
 _analysis_cache: dict[str, tuple[float, str]] = {}
 
 
@@ -133,7 +129,7 @@ def _put_cached_analysis(key: str, value: str) -> None:
 
 
 # Простое хранилище загруженных датасетов (только для lifetime процесса)
-# dataset_id -> {'path': str, 'kind': 'csv'|'excel'|'pdf', 'columns': list[str], 'total_rows': int}
+# dataset_id -> {'dir': Path, 'path': str, 'kind': 'csv'|'excel'|'pdf', 'columns': list[str], 'total_rows': int, 'created_at': float}
 _datasets: Dict[str, Dict[str, Any]] = {}
 
 def _make_dataset_id(file_path: str) -> str:
@@ -321,9 +317,10 @@ def upload_file():
         # Ограничиваем размер страницы
         page_size = min(page_size, 5000)  # Максимум 5000 строк на страницу
 
-        # Сохраняем файл во временную директорию
+        # Создаём уникальную директорию для каждого загруженного файла
+        temp_dir = Path(tempfile.mkdtemp(prefix="vcb03_"))
         filename = secure_filename(file.filename) if file.filename else 'uploaded_file.csv'
-        temp_file_name = os.path.join(tempfile.gettempdir(), filename)
+        temp_file_name = str(temp_dir / filename)
         file.save(temp_file_name)
         
         # Определяем тип файла и обрабатываем соответственно
@@ -397,10 +394,12 @@ def upload_file():
 
         # Сохраняем метаданные датасета для последующих запросов страниц
         _datasets[dataset_id] = {
+            'dir': temp_dir,
             'path': temp_file_name,
             'kind': kind,
             'columns': columns,
             'total_rows': total_rows,
+            'created_at': time.time(),
         }
 
         # Формируем ответ
@@ -618,6 +617,31 @@ def get_upload_page():
         logger.exception("Error in /api/upload/page")
         raise
 
+def _cleanup_old_datasets():
+    """Удаляет старые датасеты из _datasets и их директории."""
+    now = time.time()
+    age_sec = Config.TEMP_CLEANUP_AGE_MIN * 60
+    to_remove = []
+    for dataset_id, meta in _datasets.items():
+        if now - meta.get('created_at', 0) > age_sec:
+            to_remove.append(dataset_id)
+            # Удаляем директорию
+            temp_dir = meta.get('dir')
+            if temp_dir and Path(temp_dir).exists():
+                try:
+                    import shutil
+                    shutil.rmtree(temp_dir, ignore_errors=True)
+                except Exception as e:
+                    logger.warning(f"Failed to remove temp dir {temp_dir}: {e}")
+    for dataset_id in to_remove:
+        _datasets.pop(dataset_id, None)
+
+@app.before_request
+def _cleanup_before_request():
+    """Периодическая очистка старых датасетов."""
+    # Очищаем каждые 5 минут (проверяем каждый 100-й запрос примерно)
+    if len(_datasets) > 0 and time.time() % 300 < 1:
+        _cleanup_old_datasets()
+
 if __name__ == '__main__':
-    debug_flag = os.getenv('FLASK_DEBUG', '0') in ('1', 'true', 'True')
-    app.run(host='0.0.0.0', port=5000, debug=debug_flag)
+    app.run(host='0.0.0.0', port=5000, debug=Config.get_debug_flag())
diff --git a/backend/requirements.txt b/backend/requirements.txt
@@ -17,3 +17,6 @@ openpyxl  # для работы с Excel
 Pillow  # для работы с изображениями
 pytesseract  # для OCR
 python-docx  # для структурированного текста
+# Для тестирования
+pytest
+pytest-cov
diff --git a/refactoring-2.md b/refactoring-2.md
@@ -0,0 +1,77 @@
+### Refactoring Plan v2
+
+Цель: закрыть дефекты, обнаруженные при проверке `refactoring.md`, и вывести проект на состояние, пригодное для сборки, тестирования и безопасного деплоя.
+
+---
+
+#### 1. Config & Secrets Hygiene (CRITICAL)
+- **Задачи**
+  1. Ввести `backend/config.py` с классом `Config`: чтение переменных окружения, дефолты, `validate()` с обязательными ключами (LLM API, security options, rate-limit).  
+  2. Все импорты (`pdf_server`, `llm/*`) переводим на `from backend.config import Config`. Убираем прямые `load_dotenv` и обращения к `os.getenv`.  
+  3. Обновляем `.env.example`, удаляем реальные ключи из `.env` / `backend/.env`, документируем процесс в README (как скопировать `.env.example`).  
+  4. Добавляем sanity-check команду в Make/README: `python -c "from backend.config import Config; Config.validate()"`.
+- **Верификация**: `pytest tests/config` (новые тесты на валидацию) + ручной запуск `Config.validate()`.
+
+#### 2. Backend: CSV Streaming & Dataset Delta (HIGH)
+- **Chunked CSV**
+  - Переписать `_csv_get_page`: использовать `pd.read_csv(..., skiprows=start_row, nrows=page_size)` только при необходимости, иначе читать через iterator + `islice` (не ловим исключение, а выбираем стратегию по размеру).
+  - Добавить benchmark/pytest (`tests/test_upload_pagination.py`) на файлы 50k+ строк (можно синтетический CSV).
+- **Dataset registry**
+  - `upload_file`: сохранять файл в уникальную директорию (`tempfile.mkdtemp(prefix="vcb03_")`), хранить путь к каталогу/файлу в `_datasets`.  
+  - Добавить фоновой clean-up (например, cron-like при `before_request` → удаляем записи старше N минут).
+- **LLM delta flow**
+  - `/api/analyze` принимает `dataset_id`, `page_cursor`, `table_data_delta`. При наличии dataset_id сервер сам читает нужный кусок (через `_datasets`).  
+  - Кэш-ключ строим из `dataset_id + provider + model`.  
+  - На фронте `handleLoadMore` отправляет только дельту и datasetId.
+- **Верификация**: интеграционные тесты `tests/test_analyze_delta.py`, `tests/test_large_csv_stream.py`.
+
+#### 3. Frontend Stability (HIGH)
+- **AnalysisResult rebuild**
+  - Разделить состояние `autoCharts`: оставить `const [autoCharts, setAutoCharts]` и переименовать значение из hook (`const generatedCharts = useAutoCharts(...)`), либо избавиться от локального стейта — цель: устранить двойное объявление.  
+  - Прогнать `npm run build` (должен отработать).
+- **Virtualized table**
+  - Перейти на `TableBody` с `component={List}` (MUI pattern) или собственный контейнер: `<Table component={Paper}>` + `<Box>` внутри для `react-window`. Важно не вставлять `<div>` напрямую в `<tbody>`.  
+  - Покрыть snapshot/RTL тестом (`VirtualizedTable.test.tsx`) проверяющим структуру.
+- **Logging**
+  - Завести флаг `REACT_APP_DEBUG`, завраппить `console.log`/`console.debug`. При PROD сборке флаг выключен.
+- **Верификация**: `npm run lint`, `npm run test -- --runInBand`, `npm run build`.
+
+#### 4. Report & PDF Security (MEDIUM)
+- **HTML sanitization** уже есть, но нужно:
+  - Добавить allowlist CSS (убрать inline `background:url` и др.).  
+  - Написать тест `test_report_sanitize_blocks_styles` (проверяет, что `style` с внешними URL режется).  
+  - Опционально добавить конфиг `ALLOW_REPORT_INLINE_STYLE` для dev.
+- **Верификация**: `pytest tests/test_report_sanitize.py`.
+
+#### 5. Temp File Safety (MEDIUM)
+- В каждом upload создаём уникальную директорию (`tmpdir = Path(tempfile.mkdtemp())`; `file_path = tmpdir / secure_filename`).  
+- `_datasets[dataset_id]` хранит `{"dir": tmpdir, "file": file_path, "created_at": time.time()}`.  
+- При выдаче следующей страницы проверяем, что файл существует, иначе возвращаем `410 Gone`.  
+- Фоновый cleanup (см. пункт 2) удаляет каталог и запись.
+- **Верификация**: интеграционный тест, имитирующий два одновременных аплоада с одинаковыми именами.
+
+#### 6. Testing Infrastructure (MEDIUM)
+- Добавить `pytest` и плагины в `backend/requirements.txt`; создать `requirements-dev.txt`.  
+- CI: GitHub Actions workflow → `pip install -r requirements.txt -r requirements-dev.txt`, `pytest`, `npm ci`, `npm run test`, `npm run build`.  
+- Для WeasyPrint/pd зависимостей описать в README требуемые system packages.
+
+#### 7. Documentation & Developer UX (LOW)
+- README обновить разделами: настройки env, запуск тестов, работа с большими CSV, политика temp cleanup.  
+- Добавить `docs/architecture.md` с описанием dataset cache/delta pipeline и новых API контрактов.  
+- Обновить `refactoring.md` (или завести changelog) после реализации.
+
+---
+
+##### Риски и контрольные точки
+- **Большие CSV**: измерить память/время до и после (добавить раздел “Performance Benchmarks”).  
+- **LLM квоты**: убедиться, что кэш очищается (TTL + max size).  
+- **PDF**: только whitelisted стили → коммуникация с UX, чтобы не сломать верстку.
+
+##### Общая последовательность
+1. Config + Secrets → чтобы разработка встала на единый конфиг.  
+2. Backend streaming + temp dirs → влияет на API.  
+3. Frontend адаптация под новые API + фиксы сборки.  
+4. Тесты/CI → фиксируем регрессии.  
+5. Документация и cleanup.
+
+Каждый этап завершается прогоном pytest + npm build и апдейтом отчета в `refactoring-report.md`.
diff --git a/refactoring-report.md b/refactoring-report.md