feat: implement decision-based routing with plugin architecture

Xunzhuo · Xunzhuo · commit b88d6051b57f · 2025-11-17T16:08:12.000+08:00
Signed-off-by: bitliu &lt;bitliu@tencent.com&gt;
diff --git a/src/semantic-router/pkg/extproc/processor_req_body.go b/src/semantic-router/pkg/extproc/processor_req_body.go
@@ -66,14 +66,14 @@ func (r *OpenAIRouter) handleRequestBody(v *ext_proc.ProcessingRequest_RequestBo
 
 	// Perform decision evaluation and model selection once at the beginning
 	// Use decision-based routing if decisions are configured, otherwise fall back to category-based
-	categoryName, classificationConfidence, reasoningDecision, selectedModel := r.performDecisionEvaluationAndModelSelection(originalModel, userContent, nonUserMessages, ctx)
+	decisionName, classificationConfidence, reasoningDecision, selectedModel := r.performDecisionEvaluationAndModelSelection(originalModel, userContent, nonUserMessages, ctx)
 
-	// Perform security checks with category-specific settings
-	if response, shouldReturn := r.performSecurityChecks(ctx, userContent, nonUserMessages, categoryName); shouldReturn {
+	// Perform security checks with decision-specific settings
+	if response, shouldReturn := r.performSecurityChecks(ctx, userContent, nonUserMessages, decisionName); shouldReturn {
 		return response, nil
 	}
 
-	// Perform PII detection and policy check (if PII policy is enabled for the category)
+	// Perform PII detection and policy check (if PII policy is enabled for the decision)
 	// For auto models: this may modify selectedModel if the initially selected model violates PII policy
 	// For non-auto models: this checks if the specified model passes PII policy
 	isAutoModel := r.Config != nil && r.Config.IsAutoModelName(originalModel)
@@ -83,7 +83,7 @@ func (r *OpenAIRouter) handleRequestBody(v *ext_proc.ProcessingRequest_RequestBo
 		modelToCheck = originalModel
 	}
 
-	allowedModel, piiResponse := r.performPIIDetection(ctx, userContent, nonUserMessages, categoryName, modelToCheck, isAutoModel)
+	allowedModel, piiResponse := r.performPIIDetection(ctx, userContent, nonUserMessages, decisionName, modelToCheck, isAutoModel)
 	if piiResponse != nil {
 		// PII policy violation - return error response
 		return piiResponse, nil
@@ -93,18 +93,18 @@ func (r *OpenAIRouter) handleRequestBody(v *ext_proc.ProcessingRequest_RequestBo
 		selectedModel = allowedModel
 	}
 
-	// Handle caching with category-specific settings
-	if response, shouldReturn := r.handleCaching(ctx, categoryName); shouldReturn {
+	// Handle caching with decision-specific settings
+	if response, shouldReturn := r.handleCaching(ctx, decisionName); shouldReturn {
 		return response, nil
 	}
 
 	// Handle model selection and routing with pre-computed classification results and selected model
-	return r.handleModelRouting(openAIRequest, originalModel, categoryName, classificationConfidence, reasoningDecision, selectedModel, ctx)
+	return r.handleModelRouting(openAIRequest, originalModel, decisionName, classificationConfidence, reasoningDecision, selectedModel, ctx)
 }
 
 // handleModelRouting handles model selection and routing logic
-// categoryName, classificationConfidence, reasoningDecision, and selectedModel are pre-computed from ProcessRequest
-func (r *OpenAIRouter) handleModelRouting(openAIRequest *openai.ChatCompletionNewParams, originalModel string, categoryName string, classificationConfidence float64, reasoningDecision entropy.ReasoningDecision, selectedModel string, ctx *RequestContext) (*ext_proc.ProcessingResponse, error) {
+// decisionName, classificationConfidence, reasoningDecision, and selectedModel are pre-computed from ProcessRequest
+func (r *OpenAIRouter) handleModelRouting(openAIRequest *openai.ChatCompletionNewParams, originalModel string, decisionName string, classificationConfidence float64, reasoningDecision entropy.ReasoningDecision, selectedModel string, ctx *RequestContext) (*ext_proc.ProcessingResponse, error) {
 	response := &ext_proc.ProcessingResponse{
 		Response: &ext_proc.ProcessingResponse_RequestBody{
 			RequestBody: &ext_proc.BodyResponse{
@@ -118,7 +118,7 @@ func (r *OpenAIRouter) handleModelRouting(openAIRequest *openai.ChatCompletionNe
 	isAutoModel := r.Config != nil && r.Config.IsAutoModelName(originalModel)
 
 	if isAutoModel && selectedModel != "" {
-		return r.handleAutoModelRouting(openAIRequest, originalModel, categoryName, reasoningDecision, selectedModel, ctx, response)
+		return r.handleAutoModelRouting(openAIRequest, originalModel, decisionName, reasoningDecision, selectedModel, ctx, response)
 	} else if !isAutoModel {
 		return r.handleSpecifiedModelRouting(openAIRequest, originalModel, ctx)
 	}
@@ -129,9 +129,9 @@ func (r *OpenAIRouter) handleModelRouting(openAIRequest *openai.ChatCompletionNe
 }
 
 // handleAutoModelRouting handles routing for auto model selection
-func (r *OpenAIRouter) handleAutoModelRouting(openAIRequest *openai.ChatCompletionNewParams, originalModel string, categoryName string, reasoningDecision entropy.ReasoningDecision, selectedModel string, ctx *RequestContext, response *ext_proc.ProcessingResponse) (*ext_proc.ProcessingResponse, error) {
-	logging.Infof("Using Auto Model Selection (model=%s), category=%s, selected=%s",
-		originalModel, categoryName, selectedModel)
+func (r *OpenAIRouter) handleAutoModelRouting(openAIRequest *openai.ChatCompletionNewParams, originalModel string, decisionName string, reasoningDecision entropy.ReasoningDecision, selectedModel string, ctx *RequestContext, response *ext_proc.ProcessingResponse) (*ext_proc.ProcessingResponse, error) {
+	logging.Infof("Using Auto Model Selection (model=%s), decision=%s, selected=%s",
+		originalModel, decisionName, selectedModel)
 
 	matchedModel := selectedModel
 
@@ -142,10 +142,10 @@ func (r *OpenAIRouter) handleAutoModelRouting(openAIRequest *openai.ChatCompleti
 	}
 
 	// Record routing decision with tracing
-	r.recordRoutingDecision(ctx, categoryName, originalModel, matchedModel, reasoningDecision)
+	r.recordRoutingDecision(ctx, decisionName, originalModel, matchedModel, reasoningDecision)
 
 	// Track VSR decision information
-	r.trackVSRDecision(ctx, categoryName, matchedModel, reasoningDecision.UseReasoning)
+	r.trackVSRDecision(ctx, decisionName, matchedModel, reasoningDecision.UseReasoning)
 
 	// Track model routing metrics
 	metrics.RecordModelRouting(originalModel, matchedModel)
@@ -154,7 +154,7 @@ func (r *OpenAIRouter) handleAutoModelRouting(openAIRequest *openai.ChatCompleti
 	selectedEndpoint := r.selectEndpointForModel(ctx, matchedModel)
 
 	// Modify request body with new model, reasoning mode, and system prompt
-	modifiedBody, err := r.modifyRequestBodyForAutoRouting(openAIRequest, matchedModel, categoryName, reasoningDecision.UseReasoning, ctx)
+	modifiedBody, err := r.modifyRequestBodyForAutoRouting(openAIRequest, matchedModel, decisionName, reasoningDecision.UseReasoning, ctx)
 	if err != nil {
 		return nil, err
 	}
@@ -163,7 +163,7 @@ func (r *OpenAIRouter) handleAutoModelRouting(openAIRequest *openai.ChatCompleti
 	response = r.createRoutingResponse(matchedModel, selectedEndpoint, modifiedBody, ctx)
 
 	// Log routing decision
-	r.logRoutingDecision(ctx, "auto_routing", originalModel, matchedModel, categoryName, reasoningDecision.UseReasoning, selectedEndpoint)
+	r.logRoutingDecision(ctx, "auto_routing", originalModel, matchedModel, decisionName, reasoningDecision.UseReasoning, selectedEndpoint)
 
 	// Handle route cache clearing
 	if r.shouldClearRouteCache() {
@@ -242,7 +242,7 @@ func (r *OpenAIRouter) selectEndpointForModel(ctx *RequestContext, model string)
 }
 
 // modifyRequestBodyForAutoRouting modifies the request body for auto routing
-func (r *OpenAIRouter) modifyRequestBodyForAutoRouting(openAIRequest *openai.ChatCompletionNewParams, matchedModel string, categoryName string, useReasoning bool, ctx *RequestContext) ([]byte, error) {
+func (r *OpenAIRouter) modifyRequestBodyForAutoRouting(openAIRequest *openai.ChatCompletionNewParams, matchedModel string, decisionName string, useReasoning bool, ctx *RequestContext) ([]byte, error) {
 	// Modify the model in the request
 	openAIRequest.Model = matchedModel
 
@@ -254,19 +254,19 @@ func (r *OpenAIRouter) modifyRequestBodyForAutoRouting(openAIRequest *openai.Cha
 		return nil, status.Errorf(codes.Internal, "error serializing modified request: %v", err)
 	}
 
-	if categoryName == "" {
+	if decisionName == "" {
 		return modifiedBody, nil
 	}
 	// Set reasoning mode
-	modifiedBody, err = r.setReasoningModeToRequestBody(modifiedBody, useReasoning, categoryName)
+	modifiedBody, err = r.setReasoningModeToRequestBody(modifiedBody, useReasoning, decisionName)
 	if err != nil {
 		logging.Errorf("Error setting reasoning mode %v to request: %v", useReasoning, err)
 		metrics.RecordRequestError(matchedModel, "serialization_error")
 		return nil, status.Errorf(codes.Internal, "error setting reasoning mode: %v", err)
 	}
 
-	// Add category-specific system prompt if configured
-	modifiedBody, err = r.addSystemPromptIfConfigured(modifiedBody, categoryName, matchedModel, ctx)
+	// Add decision-specific system prompt if configured
+	modifiedBody, err = r.addSystemPromptIfConfigured(modifiedBody, decisionName, matchedModel, ctx)
 	if err != nil {
 		return nil, err
 	}
diff --git a/src/semantic-router/pkg/extproc/recorder.go b/src/semantic-router/pkg/extproc/recorder.go
@@ -13,18 +13,18 @@ import (
 )
 
 // logRoutingDecision logs routing decision with structured logging
-func (r *OpenAIRouter) logRoutingDecision(ctx *RequestContext, reasonCode string, originalModel string, selectedModel string, categoryName string, reasoningEnabled bool, endpoint string) {
+func (r *OpenAIRouter) logRoutingDecision(ctx *RequestContext, reasonCode string, originalModel string, selectedModel string, decisionName string, reasoningEnabled bool, endpoint string) {
 	effortForMetrics := ""
-	if reasoningEnabled && categoryName != "" {
-		effortForMetrics = r.getReasoningEffort(categoryName, selectedModel)
+	if reasoningEnabled && decisionName != "" {
+		effortForMetrics = r.getReasoningEffort(decisionName, selectedModel)
 	}
 
 	logging.LogEvent("routing_decision", map[string]interface{}{
 		"reason_code":        reasonCode,
 		"request_id":         ctx.RequestID,
 		"original_model":     originalModel,
 		"selected_model":     selectedModel,
-		"category":           categoryName,
+		"decision":           decisionName,
 		"reasoning_enabled":  reasoningEnabled,
 		"reasoning_effort":   effortForMetrics,
 		"selected_endpoint":  endpoint,
@@ -34,15 +34,15 @@ func (r *OpenAIRouter) logRoutingDecision(ctx *RequestContext, reasonCode string
 }
 
 // recordRoutingDecision records routing decision with tracing
-func (r *OpenAIRouter) recordRoutingDecision(ctx *RequestContext, categoryName string, originalModel string, matchedModel string, reasoningDecision entropy.ReasoningDecision) {
+func (r *OpenAIRouter) recordRoutingDecision(ctx *RequestContext, decisionName string, originalModel string, matchedModel string, reasoningDecision entropy.ReasoningDecision) {
 	routingCtx, routingSpan := tracing.StartSpan(ctx.TraceContext, tracing.SpanRoutingDecision)
 
 	useReasoning := reasoningDecision.UseReasoning
 	logging.Infof("Entropy-based reasoning decision for this query: %v on [%s] model (confidence: %.3f, reason: %s)",
 		useReasoning, matchedModel, reasoningDecision.Confidence, reasoningDecision.DecisionReason)
 
-	effortForMetrics := r.getReasoningEffort(categoryName, matchedModel)
-	metrics.RecordReasoningDecision(categoryName, matchedModel, useReasoning, effortForMetrics)
+	effortForMetrics := r.getReasoningEffort(decisionName, matchedModel)
+	metrics.RecordReasoningDecision(decisionName, matchedModel, useReasoning, effortForMetrics)
 
 	tracing.SetSpanAttributes(routingSpan,
 		attribute.String(tracing.AttrRoutingStrategy, "auto"),
@@ -57,8 +57,8 @@ func (r *OpenAIRouter) recordRoutingDecision(ctx *RequestContext, categoryName s
 }
 
 // trackVSRDecision tracks VSR decision information in context
-func (r *OpenAIRouter) trackVSRDecision(ctx *RequestContext, categoryName string, matchedModel string, useReasoning bool) {
-	ctx.VSRSelectedCategory = categoryName
+func (r *OpenAIRouter) trackVSRDecision(ctx *RequestContext, decisionName string, matchedModel string, useReasoning bool) {
+	ctx.VSRSelectedCategory = decisionName
 	ctx.VSRSelectedModel = matchedModel
 	if useReasoning {
 		ctx.VSRReasoningMode = "on"
diff --git a/src/semantic-router/pkg/extproc/req_filter_classification.go b/src/semantic-router/pkg/extproc/req_filter_classification.go
@@ -7,63 +7,6 @@ import (
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/utils/entropy"
 )
 
-// extractUserAndNonUserContent extracts user and non-user messages from the request
-
-// performClassificationAndModelSelection performs classification and model selection once
-// Returns (categoryName, confidence, reasoningDecision, selectedModel)
-func (r *OpenAIRouter) performClassificationAndModelSelection(originalModel string, userContent string, nonUserMessages []string) (string, float64, entropy.ReasoningDecision, string) {
-	var categoryName string
-	var classificationConfidence float64
-	var reasoningDecision entropy.ReasoningDecision
-	var selectedModel string
-
-	// Only perform classification for auto models with content
-	if !r.Config.IsAutoModelName(originalModel) {
-		return "", 0.0, entropy.ReasoningDecision{}, ""
-	}
-
-	if len(nonUserMessages) == 0 && userContent == "" {
-		return "", 0.0, entropy.ReasoningDecision{}, ""
-	}
-
-	// Determine text to use for classification
-	classificationText := userContent
-	if classificationText == "" && len(nonUserMessages) > 0 {
-		classificationText = strings.Join(nonUserMessages, " ")
-	}
-
-	if classificationText == "" {
-		return "", 0.0, entropy.ReasoningDecision{}, ""
-	}
-
-	// Perform entropy-based classification once
-	catName, confidence, reasoningDec, err := r.Classifier.ClassifyCategoryWithEntropy(classificationText)
-	if err != nil {
-		logging.Errorf("Entropy-based classification error: %v, using empty category", err)
-		categoryName = ""
-		classificationConfidence = 0.0
-		reasoningDecision = entropy.ReasoningDecision{}
-	} else {
-		categoryName = catName
-		classificationConfidence = confidence
-		reasoningDecision = reasoningDec
-		logging.Infof("Classification Result: category=%s, confidence=%.3f, reasoning=%v",
-			categoryName, classificationConfidence, reasoningDecision.UseReasoning)
-	}
-
-	// Select best model for this category
-	if categoryName != "" {
-		selectedModel = r.Classifier.SelectBestModelForCategory(categoryName)
-		logging.Infof("Selected model for category %s: %s", categoryName, selectedModel)
-	} else {
-		// No category found, use default model
-		selectedModel = r.Config.DefaultModel
-		logging.Infof("No category classified, using default model: %s", selectedModel)
-	}
-
-	return categoryName, classificationConfidence, reasoningDecision, selectedModel
-}
-
 // performDecisionEvaluationAndModelSelection performs decision evaluation using DecisionEngine
 // Returns (decisionName, confidence, reasoningDecision, selectedModel)
 // This is the new approach that uses Decision-based routing with AND/OR rule combinations
@@ -84,8 +27,8 @@ func (r *OpenAIRouter) performDecisionEvaluationAndModelSelection(originalModel
 
 	// Check if decisions are configured
 	if len(r.Config.Decisions) == 0 {
-		logging.Warnf("No decisions configured, falling back to legacy classification")
-		return r.performClassificationAndModelSelection(originalModel, userContent, nonUserMessages)
+		logging.Warnf("No decisions configured, using default model")
+		return "", 0.0, entropy.ReasoningDecision{}, r.Config.DefaultModel
 	}
 
 	// Determine text to use for evaluation
@@ -101,8 +44,8 @@ func (r *OpenAIRouter) performDecisionEvaluationAndModelSelection(originalModel
 	// Perform decision evaluation using DecisionEngine
 	result, err := r.Classifier.EvaluateDecisionWithEngine(evaluationText)
 	if err != nil {
-		logging.Errorf("Decision evaluation error: %v, falling back to legacy classification", err)
-		return r.performClassificationAndModelSelection(originalModel, userContent, nonUserMessages)
+		logging.Errorf("Decision evaluation error: %v, using default model", err)
+		return "", 0.0, entropy.ReasoningDecision{}, r.Config.DefaultModel
 	}
 
 	if result == nil || result.Decision == nil {