feat: implement decision-based routing with plugin architecture

Xunzhuo · Xunzhuo · commit 4cda6162411f · 2025-11-18T11:38:00.000+08:00
Signed-off-by: bitliu &lt;bitliu@tencent.com&gt;
diff --git a/deploy/helm/semantic-router/values.yaml b/deploy/helm/semantic-router/values.yaml
@@ -152,6 +152,11 @@ initContainer:
       repo: LLM-Semantic-Router/jailbreak_classifier_modernbert-base_model
     - name: pii_classifier_modernbert-base_presidio_token_model
       repo: LLM-Semantic-Router/pii_classifier_modernbert-base_presidio_token_model
+    # Embedding models for semantic cache and tools
+    - name: Qwen3-Embedding-0.6B
+      repo: Qwen/Qwen3-Embedding-0.6B
+    - name: embeddinggemma-300m
+      repo: google/embeddinggemma-300m
 
 # Autoscaling configuration
 autoscaling:
diff --git a/deploy/kubernetes/ai-gateway/semantic-router-values/values.yaml b/deploy/kubernetes/ai-gateway/semantic-router-values/values.yaml
@@ -63,7 +63,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "business"
+            name: "business"
       modelRefs:
         - model: base-model
           lora_name: social-expert
@@ -82,7 +82,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "law"
+            name: "law"
       modelRefs:
         - model: base-model
           lora_name: law-expert
@@ -101,7 +101,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "psychology"
+            name: "psychology"
       modelRefs:
         - model: base-model
           lora_name: humanities-expert
@@ -124,7 +124,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "biology"
+            name: "biology"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -143,7 +143,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "chemistry"
+            name: "chemistry"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -162,7 +162,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "history"
+            name: "history"
       modelRefs:
         - model: base-model
           lora_name: humanities-expert
@@ -181,7 +181,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "health"
+            name: "health"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -204,7 +204,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "economics"
+            name: "economics"
       modelRefs:
         - model: base-model
           lora_name: social-expert
@@ -223,7 +223,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "math"
+            name: "math"
       modelRefs:
         - model: base-model
           lora_name: math-expert
@@ -242,7 +242,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "physics"
+            name: "physics"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -261,7 +261,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "computer_science"
+            name: "computer_science"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -280,7 +280,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "philosophy"
+            name: "philosophy"
       modelRefs:
         - model: base-model
           lora_name: humanities-expert
@@ -299,7 +299,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "engineering"
+            name: "engineering"
       modelRefs:
         - model: base-model
           lora_name: science-expert
@@ -337,7 +337,7 @@ config:
         operator: "OR"
         conditions:
           - type: "domain"
-            category: "other"
+            name: "other"
       modelRefs:
         - model: base-model
           lora_name: general-expert
@@ -505,9 +505,9 @@ config:
           [0.001, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1, 2.5, 5, 10, 30]
         size_buckets: [1, 2, 5, 10, 20, 50, 100, 200]
 
-  # Embedding Models Configuration
+  # Embedding Models Configuration (Optional)
   # These models provide intelligent embedding generation with automatic routing:
-  # - Qwen3-Embedding-0.6B: Up to 32K context, high quality,
+  # - Qwen3-Embedding-0.6B: Up to 32K context, high quality, 1024-dim embeddings
   # - EmbeddingGemma-300M: Up to 8K context, fast inference, Matryoshka support (768/512/256/128)
   embedding_models:
     qwen3_model_path: "models/Qwen3-Embedding-0.6B"