refactor: simplify model names to Model-A and Model-B for E2E testing

yossiovadia · claude · yossiovadia · commit cb3e3044e354 · 2025-09-29T10:26:24.000-07:00
- Update LLM Katan configuration to use simplified model names - Simplify 00-client-request-test.py to use Model-A as default - Update documentation to reflect math → Model-B, creative → Model-A routing - Improve test readability and maintainability 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com> Signed-off-by: Yossi Ovadia <yovadia@redhat.com>
diff --git a/config/config.e2e.yaml b/config/config.e2e.yaml
@@ -43,27 +43,27 @@ vllm_endpoints:
     address: "127.0.0.1"
     port: 8000
     models:
-      - "Qwen/Qwen2-0.5B-Instruct"
+      - "Model-A"
     weight: 1
     health_check_path: "/health"
   - name: "tinyllama-endpoint"
     address: "127.0.0.1"
     port: 8001
     models:
-      - "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - "Model-B"
     weight: 1
     health_check_path: "/health"
 
 model_config:
 
-  "Qwen/Qwen2-0.5B-Instruct":
+  "Model-A":
     use_reasoning: false
     reasoning_family: "qwen3"  # This model uses Qwen reasoning syntax
     preferred_endpoints: ["qwen-endpoint"]
     pii_policy:
       allow_by_default: true
       pii_types_allowed: ["EMAIL_ADDRESS", "PERSON", "GPE", "PHONE_NUMBER"]
-  "TinyLlama/TinyLlama-1.1B-Chat-v1.0":
+  "Model-B":
     use_reasoning: false
     preferred_endpoints: ["tinyllama-endpoint"]
     pii_policy:
@@ -90,191 +90,191 @@ categories:
     reasoning_description: "Business content is typically conversational"
     reasoning_effort: low  # Business conversations need low reasoning effort
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.4
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.2
         use_reasoning: false
   - name: law
     use_reasoning: false
     reasoning_description: "Legal content is typically explanatory"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.4
         use_reasoning: false
   - name: psychology
     use_reasoning: false
     reasoning_description: "Psychology content is usually explanatory"
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.4
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.4
         use_reasoning: false
   - name: biology
     use_reasoning: true
     reasoning_description: "Biological processes benefit from structured analysis"
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.2
         use_reasoning: false
   - name: chemistry
     use_reasoning: true
     reasoning_description: "Chemical reactions and formulas require systematic thinking"
     reasoning_effort: high  # Chemistry requires high reasoning effort
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: true
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
   - name: history
     use_reasoning: false
     reasoning_description: "Historical content is narrative-based"
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.4
         use_reasoning: false
   - name: other
     use_reasoning: false
     reasoning_description: "General content doesn't require reasoning"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
   - name: health
     use_reasoning: false
     reasoning_description: "Health information is typically informational"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
   - name: economics
     use_reasoning: false
     reasoning_description: "Economic discussions are usually explanatory"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.1
         use_reasoning: false
   - name: math
     use_reasoning: true
     reasoning_description: "Mathematical problems require step-by-step reasoning"
     reasoning_effort: high  # Math problems need high reasoning effort
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 1.0
         use_reasoning: true
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.9
         use_reasoning: true
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.8
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.6
         use_reasoning: false
   - name: physics
     use_reasoning: true
     reasoning_description: "Physics concepts need logical analysis"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.4
         use_reasoning: true
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.4
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.4
         use_reasoning: false
   - name: computer science
     use_reasoning: true
     reasoning_description: "Programming and algorithms need logical reasoning"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.1
         use_reasoning: false
   - name: philosophy
     use_reasoning: false
     reasoning_description: "Philosophical discussions are conversational"
     model_scores:
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.2
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.2
         use_reasoning: false
   - name: engineering
     use_reasoning: true
     reasoning_description: "Engineering problems require systematic problem-solving"
     model_scores:
-      - model: "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+      - model: "Model-B"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.6
         use_reasoning: false
-      - model: "Qwen/Qwen2-0.5B-Instruct"
+      - model: "Model-A"
         score: 0.2
         use_reasoning: false
 
-default_model: "Qwen/Qwen2-0.5B-Instruct"
+default_model: "Model-A"
 
 # API Configuration
 api:
diff --git a/e2e-tests/00-client-request-test.py b/e2e-tests/00-client-request-test.py
@@ -23,7 +23,7 @@
 ENVOY_URL = "http://localhost:8801"
 OPENAI_ENDPOINT = "/v1/chat/completions"
 DEFAULT_MODEL = (
-    "Qwen/Qwen2-0.5B-Instruct"  # Use configured model that matches router config
+    "Model-A"  # Use configured model that matches router config
 )
 MAX_RETRIES = 3
 RETRY_DELAY = 2
diff --git a/e2e-tests/README.md b/e2e-tests/README.md
@@ -8,7 +8,7 @@ This test suite provides a progressive approach to testing the Semantic Router,
    - Tests sending requests to the Envoy proxy
    - Verifies basic request formatting and endpoint availability
    - Tests malformed request validation
-   - Tests content-based smart routing (math → TinyLlama, creative → Qwen)
+   - Tests content-based smart routing (math → Model-B, creative → Model-A)
 
 2. **01-envoy-extproc-test.py** - TBD (To Be Developed)
    - Tests that Envoy correctly forwards requests to the ExtProc
@@ -48,8 +48,8 @@ For fast development and testing with real tiny models (no GPU required):
 ./e2e-tests/start-llm-katan.sh
 
 # Or manually start individual servers:
-llm-katan --model Qwen/Qwen3-0.6B --port 8000 --served-model-name "Qwen/Qwen2-0.5B-Instruct"
-llm-katan --model Qwen/Qwen3-0.6B --port 8001 --served-model-name "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+llm-katan --model Qwen/Qwen3-0.6B --port 8000 --served-model-name "Model-A"
+llm-katan --model Qwen/Qwen3-0.6B --port 8001 --served-model-name "Model-B"
 
 # Terminal 2: Start Envoy proxy
 make run-envoy
diff --git a/e2e-tests/start-llm-katan.sh b/e2e-tests/start-llm-katan.sh
@@ -16,8 +16,8 @@ PIDS_FILE="$E2E_DIR/llm_katan_pids.txt"
 # Model configurations for LLM Katan servers
 # Format: "port:real_model::served_model_name"
 LLM_KATAN_MODELS=(
-    "8000:Qwen/Qwen3-0.6B::Qwen/Qwen2-0.5B-Instruct"
-    "8001:Qwen/Qwen3-0.6B::TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+    "8000:Qwen/Qwen3-0.6B::Model-A"
+    "8001:Qwen/Qwen3-0.6B::Model-B"
 )
 
 # Function to check if LLM Katan is available

Original file line number	Diff line number	Diff line change
`@@ -23,7 +23,7 @@`
`23`	`23`	`ENVOY_URL = "http://localhost:8801"`
`24`	`24`	`OPENAI_ENDPOINT = "/v1/chat/completions"`
`25`	`25`	`DEFAULT_MODEL = (`
`26`		`- "Qwen/Qwen2-0.5B-Instruct" # Use configured model that matches router config`
	`26`	`+ "Model-A" # Use configured model that matches router config`
`27`	`27`	`)`
`28`	`28`	`MAX_RETRIES = 3`
`29`	`29`	`RETRY_DELAY = 2`