You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: raport/README.md
+98-1Lines changed: 98 additions & 1 deletion
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -145,9 +145,106 @@ Wyniki z naszego *Project Benchmark* (Zdolność LLM do odtworzenia poprawnego s
145
145
146
146

147
147
148
-
149
148
Format **TOON uzyskał imponujące 82.7%**, zostawiając JSON (73.5%) daleko w tyle. Jeszcze ciekawszy jest **LogicML**, który zużywa średnio zaledwie 245 tokenów na plik (10-krotnie mniej niż JSON!), a nadal utrzymuje wynik powyżej 76%.
150
149
150
+
#### Jak działa Project Benchmark
151
+
152
+
**Project Benchmark** to test, który ocenia jak dobrze różne formaty (YAML, TOON, LogicML) potrafią **reprodukować kod z całego projektu**. Test działa w czterech krokach:
153
+
154
+
1.**Analiza projektu** - Bierze 20 plików z `tests/samples/`
155
+
2.**Ekstrakcja specyfikacji** - Dla każdego formatu tworzy specyfikację (np. YAML, TOON, LogicML)
156
+
3.**Reprodukcja kodu** - Używa LLM do odtworzenia kodu na podstawie specyfikacji
157
+
4.**Porównanie** - Mierzy podobieństwo oryginalnego kodu do odtworzonego
158
+
159
+
**Wyniki oznaczają:**
160
+
-**toon: 62.56%** - Format TOON najlepiej odtworzył kod projektu z 20 plików testowych
161
+
-**yaml: 59.87%** - Format YAML był drugi w jakości reprodukcji
162
+
-**logicml: 59.17%** - Format LogicML miał najniższą skuteczność
163
+
164
+
**Score** to wskaźnik jakości (składnia, struktura, semantyka), **similarity** to podobieństwo tekstowe. TOON wygrał, bo lepiej zachowuje strukturę i informacje o typach w kompaktowej formie.
165
+
166
+
#### Jak uruchamiane są benchmarki i używany model LLM
167
+
168
+
Wszystkie benchmarki są uruchamiane automatycznie przez komendę `make benchmark`, która wykonuje serię testów:
169
+
170
+
```bash
171
+
# Format Benchmark (porównanie jakości reprodukcji kodu)
172
+
poetry run python examples/15_unified_benchmark.py \
-**`toon` (62.2%)** - Format project-level TOON zawierający klasy, moduły, funkcje i pełną strukturę projektu. Wyższy wynik, bo zawiera więcej kontekstu strukturalnego. **Rozmiar pliku: 71KB**
223
+
-**`function.toon` (45.8%)** - Specjalizowany format function-logic TOON skupiony tylko na logice funkcji, bez kontekstu klas i modułów. Niższy wynik, bo mniejszy kontekst utrudnia LLM odtworzenie pełnej struktury. **Rozmiar pliku: 233KB**
224
+
225
+
**Rzeczywiste wielkości plików dla całego projektu:**
**Konfiguracja:** Benchmarki używają domyślnej konfiguracji z 3 workerami równoległymi i limitem 4000 tokenów na generację kodu. Wyniki są zapisywane do plików JSON w `examples/output/` i agregowane w raporcie `BENCHMARK_REPORT.md`.
247
+
151
248
## Wnioski i wyzwania na przyszłość
152
249
153
250
Dane z benchmarków pokazały nam drogę, ale obnażyły też obszary do natychmiastowej poprawy:
0 commit comments