Merge pull request #6 from Technolog796/master

AlexWortega · web-flow · commit 5418f2b150db · 2025-05-05T10:26:56.000+02:00
Add config example and small fixes
diff --git a/Instruction.md b/Instruction.md
@@ -72,7 +72,7 @@ python -m vllm.entrypoints.openai.api_server \
 
 После запуска сервер будет готов принимать запросы по адресу `http://<host_address>:<port_number>`.
 
-## 3. Использование с бенчмарком DeathMath
+## 3. Использование с бенчмарком Doom
 
 Этот бенчмарк использует конфигурационный файл (`configs/run.yaml`) для определения моделей и их API-эндпоинтов. Чтобы добавить вашу локально запущенную модель через VLLM в бенчмарк:
 
diff --git a/README.md b/README.md
@@ -1,7 +1,7 @@
-# DeathMath Benchmark
+# Doom Benchmark
 
 <p align="center">
-  <img src="images/Logo.png" alt="DeathMath Logo" width="300"/>
+  <img src="images/Logo.png" alt="Doom Logo" width="300"/>
 </p>
 
 <p align="center">
@@ -10,11 +10,11 @@
   <a href="https://huggingface.co/spaces/Vikhrmodels/DOoM-lb"><img src="https://img.shields.io/badge/🤗-HuggingFace%20Space-yellow.svg" alt="HuggingFace Space"/></a>
 </p>
 
-DeathMath - бенчмарк для оценки качества языковых моделей на математических и физических задачах на русском языке.
+Doom - бенчмарк для оценки качества языковых моделей на математических и физических задачах на русском языке.
 
 ## 📖 О проекте
 
-DeathMath - это инструмент для тестирования и оценки способности языковых моделей (LLM) решать задачи по математике и физике. Бенчмарк позволяет:
+Doom - это инструмент для тестирования и оценки способности языковых моделей (LLM) решать задачи по математике и физике. Бенчмарк позволяет:
 
 - Измерять точность решения математических задач
 - Оценивать понимание физических концепций и способность решать задачи по физике
@@ -99,6 +99,10 @@ model_list:
   - gpt-4o
   - claude-3-opus-20240229
 
+# Общие настройки (применяются ко всем моделям, если не переопределены)
+# num_examples: 100 # Опционально: Ограничить количество примеров для каждого датасета (по умолчанию используются все)
+# debug: false # Опционально: Включить режим отладки
+
 gpt-4o:
   model_name: gpt-4o
   endpoints:
@@ -108,8 +112,28 @@ gpt-4o:
   parallel: 1
   system_prompt: "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
   max_tokens: 32000
+  # num_examples: 50 # Опционально: Переопределить количество примеров для этой модели
+
+claude-3-opus-20240229:
+  # ... конфигурация для Claude ...
 ```
 
+**Описание параметров конфигурации:**
+
+*   `model_list`: Список моделей для оценки.
+*   `[model_name]`: Блок конфигурации для конкретной модели. Имя блока должно совпадать с именем в `model_list`.
+    *   `model_name`: Имя модели (может отличаться от ключа блока, например, для локальных моделей).
+    *   `endpoints`: Список эндпоинтов API.
+        *   `api_base` / `base_url`: URL API.
+        *   `api_key` / `credentials`: Ключ API или учетные данные (зависит от `api_type`).
+    *   `api_type`: Тип API (`openai`, `gigachat` и т.д.).
+    *   `parallel`: Количество параллельных запросов к API для этой модели.
+    *   `system_prompt`: Системный промпт для модели.
+    *   `max_tokens`: Максимальное количество токенов в ответе.
+    *   `num_examples` (Опционально): Количество примеров для оценки этой модели. Переопределяет глобальное значение `num_examples`. **По умолчанию используются все доступные примеры из датасета.**
+*   `num_examples` (Глобально, Опционально): Количество примеров для оценки для всех моделей, если не переопределено в блоке модели. **По умолчанию используются все доступные примеры из датасета.**
+*   `debug` (Глобально, Опционально): Включить режим отладки для вывода дополнительной информации.
+
 ## 📝 Результаты тестирования
 
 После запуска оценки автоматически будет сгенерирована таблица лидеров.
@@ -139,7 +163,7 @@ gpt-4o:
 
 ## 🧪 Тестирование собственной модели
 
-Чтобы протестировать собственную модель на бенчмарке DeathMath:
+Чтобы протестировать собственную модель на бенчмарке Doom:
 
 1. Разверните свою модель локально или через API
 2. Добавьте конфигурацию вашей модели в `configs/run.yaml`
@@ -162,4 +186,4 @@ gpt-4o:
 
 ## 📄 Лицензия
 
-Проект распространяется под лицензией Apache 2.0. См. файл LICENSE для получения дополнительной информации.
+Проект распространяется под лицензией Apache 2.0. См. файл LICENSE для получения дополнительной информации.
diff --git a/configs/.keep b/configs/.keep
diff --git a/configs/example_config.yaml b/configs/example_config.yaml
@@ -0,0 +1,47 @@
+# Пример конфигурационного файла для Doom Benchmark
+
+# Список моделей для оценки
+model_list:
+  - gpt-4o-mini  # Пример модели OpenAI
+  - gigachat-pro # Пример модели GigaChat
+  # - llama3-70b-local # Пример локально запущенной модели 
+
+# --- Общие настройки (применяются ко всем моделям, если не переопределены) ---
+
+# num_examples: 100 # Опционально: Ограничить количество примеров для каждого датасета.
+                   # Если закомментировано или отсутствует, используются ВСЕ примеры.
+# debug: false      # Опционально: Включить режим отладки для подробного вывода (по умолчанию false).
+
+# --- Конфигурация для конкретных моделей ---
+
+gpt-4o-mini:
+  model_name: gpt-4o-mini # Имя модели, как оно будет отображаться в результатах
+  endpoints:
+    - api_base: "https://api.openai.com/v1" # URL эндпоинта API
+      api_key: "YOUR_OPENAI_API_KEY"       # Ваш API ключ OpenAI (нужно заменить!)
+  api_type: openai        # Тип API (openai, gigachat)
+  parallel: 2             # Количество параллельных запросов к API для этой модели
+  system_prompt: "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." # Системный промпт
+  max_tokens: 32000       # Максимальное количество токенов в ответе модели
+  # num_examples: 50      # Опционально: Переопределить количество примеров только для этой модели
+
+gigachat-pro:
+  model_name: GigaChat Pro # Имя модели для отображения
+  endpoints:
+    - base_url: "https://gigachat.devices.sberbank.ru/api/v1" # URL эндпоинта GigaChat API
+      credentials: "YOUR_GIGACHAT_API_CREDENTIALS" # Ваши данные для использования GigaChat (нужно заменить!)
+  api_type: gigachat
+  parallel: 1
+  system_prompt: "Реши предоставленную задачу по математике или физике. Отвечай на русском языке."
+  max_tokens: 8000
+  verify_ssl_certs: false # Опционально: Отключить проверку SSL-сертификата (если необходимо)
+
+# llama3-70b-local:
+#   model_name: Llama3-70B (Local VLLM)
+#   endpoints:
+#     - api_base: "http://localhost:8000/v1" # URL вашего локального VLLM сервера
+#       api_key: "dummy-key"                 # Ключ API (может быть любым для VLLM по умолчанию)
+#   api_type: openai
+#   parallel: 4
+#   system_prompt: "You are a helpful assistant. Answer in Russian." # Промпт может быть на английском, если модель лучше его понимает
+#   max_tokens: 8192
diff --git a/readme.md b/readme.md
diff --git a/src/mat_boy.py b/src/mat_boy.py
@@ -30,7 +30,7 @@ class RussianMathEval(Eval):
     def __init__(
         self,
         equality_checker: SamplerBase,
-        num_examples: Optional[int] = 5,
+        num_examples: Optional[int] = None,
         n_repeats: int = 1,
         debug: bool = False,
     ) -> None:
@@ -51,8 +51,6 @@ def __init__(
 
         if num_examples and num_examples > 0:
             examples = examples[:num_examples]
-        else:
-            examples = examples[:5]
 
         self.examples: List[Dict[str, str]] = examples * n_repeats
         self.equality_checker: SamplerBase = equality_checker
@@ -145,7 +143,7 @@ class RussianPhysicsEval(Eval):
     def __init__(
         self,
         equality_checker: SamplerBase,
-        num_examples: Optional[int] = 5,
+        num_examples: Optional[int] = None,
         n_repeats: int = 1,
         debug: bool = False,
     ) -> None:
@@ -165,8 +163,6 @@ def __init__(
 
         if num_examples and num_examples > 0:
             examples = examples[:num_examples]
-        else:
-            examples = examples[:5]
 
         self.examples: List[Dict[str, str]] = examples * n_repeats
         self.equality_checker: SamplerBase = equality_checker
@@ -257,7 +253,10 @@ class MathDemonEval(Eval):
     """
 
     def __init__(
-        self, subset_name: str, num_examples: Optional[int] = 1, debug: bool = False
+        self,
+        subset_name: str,
+        num_examples: Optional[int] = None,
+        debug: bool = False, 
     ) -> None:
         """
         Инициализирует оценку на подсетах MathDemon_Demidovich.
@@ -275,8 +274,6 @@ def __init__(
 
         if num_examples and num_examples > 0:
             examples = examples[:num_examples]
-        else:
-            examples = examples[:5]
 
         self.examples: List[Dict[str, str]] = examples
         self.debug: bool = debug