Switch judge evaluator from GPT-4o to Claude to avoid OpenAI quota limits

sattensil · sattensil · commit 1c6560f75454 · 2025-10-28T12:08:10.000-07:00
The judge evaluator was using GPT-4o (OpenAI) which hit quota limits during testing.
Switching to Claude 3.5 Sonnet (Anthropic) to continue running CI tests without interruption.

Changes:
- Added --judge-model claude-3-5-sonnet-20241022 flag
- Added --judge-provider anthropic flag
- Judge evaluations will now use Claude instead of GPT-4o

Benefits:
- Avoids OpenAI API quota limits
- Uses available Anthropic credits
- Same evaluation quality (both are frontier models)
diff --git a/.github/workflows/ai-config-validation.yml b/.github/workflows/ai-config-validation.yml
@@ -294,6 +294,8 @@ jobs:
             --api-url http://localhost:8000 \
             --endpoint /chat \
             --minimal-payload \
+            --judge-model claude-3-5-sonnet-20241022 \
+            --judge-provider anthropic \
             --report test-report.json
 
           TEST_EXIT_CODE=$?