You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
После запуска сервер будет готов принимать запросы по адресу `http://<host_address>:<port_number>`.
74
74
75
-
## 3. Использование с бенчмарком DeathMath
75
+
## 3. Использование с бенчмарком Doom
76
76
77
77
Этот бенчмарк использует конфигурационный файл (`configs/run.yaml`) для определения моделей и их API-эндпоинтов. Чтобы добавить вашу локально запущенную модель через VLLM в бенчмарк:
DeathMath - бенчмарк для оценки качества языковых моделей на математических и физических задачах на русском языке.
13
+
Doom - бенчмарк для оценки качества языковых моделей на математических и физических задачах на русском языке.
14
14
15
15
## 📖 О проекте
16
16
17
-
DeathMath - это инструмент для тестирования и оценки способности языковых моделей (LLM) решать задачи по математике и физике. Бенчмарк позволяет:
17
+
Doom - это инструмент для тестирования и оценки способности языковых моделей (LLM) решать задачи по математике и физике. Бенчмарк позволяет:
18
18
19
19
- Измерять точность решения математических задач
20
20
- Оценивать понимание физических концепций и способность решать задачи по физике
@@ -99,6 +99,10 @@ model_list:
99
99
- gpt-4o
100
100
- claude-3-opus-20240229
101
101
102
+
# Общие настройки (применяются ко всем моделям, если не переопределены)
103
+
# num_examples: 100 # Опционально: Ограничить количество примеров для каждого датасета (по умолчанию используются все)
104
+
# debug: false # Опционально: Включить режим отладки
105
+
102
106
gpt-4o:
103
107
model_name: gpt-4o
104
108
endpoints:
@@ -108,8 +112,28 @@ gpt-4o:
108
112
parallel: 1
109
113
system_prompt: "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
110
114
max_tokens: 32000
115
+
# num_examples: 50 # Опционально: Переопределить количество примеров для этой модели
116
+
117
+
claude-3-opus-20240229:
118
+
# ... конфигурация для Claude ...
111
119
```
112
120
121
+
**Описание параметров конфигурации:**
122
+
123
+
*`model_list`: Список моделей для оценки.
124
+
*`[model_name]`: Блок конфигурации для конкретной модели. Имя блока должно совпадать с именем в `model_list`.
125
+
*`model_name`: Имя модели (может отличаться от ключа блока, например, для локальных моделей).
126
+
*`endpoints`: Список эндпоинтов API.
127
+
*`api_base` / `base_url`: URL API.
128
+
*`api_key` / `credentials`: Ключ API или учетные данные (зависит от `api_type`).
129
+
*`api_type`: Тип API (`openai`, `gigachat` и т.д.).
130
+
*`parallel`: Количество параллельных запросов к API для этой модели.
131
+
*`system_prompt`: Системный промпт для модели.
132
+
*`max_tokens`: Максимальное количество токенов в ответе.
133
+
*`num_examples` (Опционально): Количество примеров для оценки этой модели. Переопределяет глобальное значение `num_examples`. **По умолчанию используются все доступные примеры из датасета.**
134
+
*`num_examples` (Глобально, Опционально): Количество примеров для оценки для всех моделей, если не переопределено в блоке модели. **По умолчанию используются все доступные примеры из датасета.**
135
+
*`debug` (Глобально, Опционально): Включить режим отладки для вывода дополнительной информации.
136
+
113
137
## 📝 Результаты тестирования
114
138
115
139
После запуска оценки автоматически будет сгенерирована таблица лидеров.
@@ -139,7 +163,7 @@ gpt-4o:
139
163
140
164
## 🧪 Тестирование собственной модели
141
165
142
-
Чтобы протестировать собственную модель на бенчмарке DeathMath:
166
+
Чтобы протестировать собственную модель на бенчмарке Doom:
143
167
144
168
1. Разверните свою модель локально или через API
145
169
2. Добавьте конфигурацию вашей модели в `configs/run.yaml`
@@ -162,4 +186,4 @@ gpt-4o:
162
186
163
187
## 📄 Лицензия
164
188
165
-
Проект распространяется под лицензией Apache 2.0. См. файл LICENSE для получения дополнительной информации.
189
+
Проект распространяется под лицензией Apache 2.0. См. файл LICENSE для получения дополнительной информации.
0 commit comments