vllm-project
diff --git a/‎ENSEMBLE_IMPLEMENTATION.md‎
Lines changed: 22 additions & 16 deletions b/‎ENSEMBLE_IMPLEMENTATION.md‎
Lines changed: 22 additions & 16 deletions
diff --git a/‎config/ensemble/README.md‎
Lines changed: 28 additions & 1 deletion b/‎config/ensemble/README.md‎
Lines changed: 28 additions & 1 deletion
diff --git a/‎src/semantic-router/cmd/main.go‎
Lines changed: 14 additions & 0 deletions b/‎src/semantic-router/cmd/main.go‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎src/semantic-router/pkg/ensemble/factory.go‎
Lines changed: 10 additions & 0 deletions b/‎src/semantic-router/pkg/ensemble/factory.go‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎src/semantic-router/pkg/ensembleserver/server.go‎
Lines changed: 189 additions & 0 deletions b/‎src/semantic-router/pkg/ensembleserver/server.go‎
Lines changed: 189 additions & 0 deletions
diff --git a/‎src/semantic-router/pkg/extproc/processor_req_body.go‎
Lines changed: 0 additions & 5 deletions b/‎src/semantic-router/pkg/extproc/processor_req_body.go‎
Lines changed: 0 additions & 5 deletions
@@ -4,6 +4,19 @@
 
 This document summarizes the implementation of ensemble orchestration support in the semantic-router. The feature enables parallel model inference with configurable aggregation strategies, allowing improved reliability, accuracy, and flexible cost-performance trade-offs.
 
+## Architecture
+
+The ensemble service is implemented as an **independent OpenAI-compatible API server** that runs alongside the semantic router. This design allows:
+- Clean separation of concerns (extproc doesn't handle multiple downstream endpoints)
+- Scalable deployment (ensemble service can be scaled independently)
+- Flexibility (can be used standalone or integrated with semantic router)
+
+```
+Client → Semantic Router ExtProc → Ensemble Service (Port 8081) → Model Endpoints
+              ↓                            ↓
+        (Set Headers)              (Parallel Query + Aggregation)
+```
+
 ## Implementation Summary
 
 ### Files Created
@@ -17,14 +30,17 @@ This document summarizes the implementation of ensemble orchestration support in
    - Parallel model querying with semaphore-based concurrency control
    - Multiple aggregation strategies implementation
    - Authentication header forwarding
+   - Helper methods for default values
 
 3. **src/semantic-router/pkg/ensemble/factory_test.go**
    - Comprehensive test suite covering all factory operations
    - 100% test coverage for core ensemble functionality
 
-4. **src/semantic-router/pkg/extproc/req_filter_ensemble.go**
-   - Request filter for ensemble orchestration in extproc flow
-   - Integration with OpenAIRouter
+4. **src/semantic-router/pkg/ensembleserver/server.go**
+   - Independent HTTP server for ensemble orchestration
+   - OpenAI-compatible /v1/chat/completions endpoint
+   - Health check endpoint
+   - Header-based control of ensemble behavior
 
 5. **config/ensemble/ensemble-example.yaml**
    - Example configuration file demonstrating all ensemble options
@@ -46,19 +62,9 @@ This document summarizes the implementation of ensemble orchestration support in
 3. **config/config.yaml**
    - Added ensemble configuration section (disabled by default)
 
-4. **src/semantic-router/pkg/extproc/router.go**
-   - Added EnsembleFactory field to OpenAIRouter
-   - Initialize ensemble factory from configuration
-
-5. **src/semantic-router/pkg/extproc/processor_req_header.go**
-   - Parse ensemble headers from incoming requests
-   - Added ensemble fields to RequestContext
-
-6. **src/semantic-router/pkg/extproc/processor_req_body.go**
-   - Integrate ensemble request handling into request flow
-
-7. **src/semantic-router/pkg/extproc/processor_res_header.go**
-   - Add ensemble metadata to response headers
+4. **src/semantic-router/cmd/main.go**
+   - Start ensemble server when enabled in configuration
+   - Support for -ensemble-port flag (default: 8081)
 
 ## Key Features
 
 
@@ -9,6 +9,16 @@ The ensemble orchestration feature allows you to:
 - Combine their outputs using various aggregation strategies
 - Improve reliability, accuracy, and cost-performance trade-offs
 
+## Architecture
+
+The ensemble service runs as an **independent OpenAI-compatible API server** (default port: 8081). The semantic router extproc sets ensemble headers and routes requests to this service, which then queries multiple model endpoints and returns the aggregated response.
+
+```
+Client Request → Semantic Router ExtProc → Ensemble Service → Model Endpoints
+                        ↓                           ↓
+                 (Set Headers)              (Parallel Queries + Aggregation)
+```
+
 ## Configuration
 
 ### Basic Setup
@@ -52,10 +62,27 @@ Control ensemble behavior using HTTP headers:
 | `x-ensemble-strategy` | Aggregation strategy | `voting` |
 | `x-ensemble-min-responses` | Minimum responses required | `2` |
 
+### Service Startup
+
+When ensemble is enabled, the router automatically starts the ensemble service:
+
+```bash
+# Start the router (includes ensemble service on port 8081 if enabled)
+./bin/router -config=config/config.yaml
+```
+
+To specify a custom ensemble port:
+
+```bash
+./bin/router -config=config/config.yaml -ensemble-port=8082
+```
+
 ### Example Request
 
+Send requests directly to the ensemble service:
+
 ```bash
-curl -X POST http://localhost:8080/v1/chat/completions \
+curl -X POST http://localhost:8081/v1/chat/completions \
   -H "Content-Type: application/json" \
   -H "x-ensemble-enable: true" \
   -H "x-ensemble-models: model-a,model-b,model-c" \
 
@@ -15,6 +15,7 @@ import (
 	candle_binding "github.com/vllm-project/semantic-router/candle-binding"
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/apiserver"
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/config"
+	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/ensembleserver"
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/extproc"
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/k8s"
 	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/observability/logging"
@@ -157,6 +158,19 @@ func main() {
 		}()
 	}
 
+	// Start Ensemble server if enabled in configuration
+	ensemblePort := flag.Int("ensemble-port", 8081, "Port to listen on for Ensemble API")
+	flag.Parse() // Re-parse to pick up ensemble-port
+	
+	if cfg.Ensemble.Enabled {
+		go func() {
+			logging.Infof("Starting Ensemble server on port %d", *ensemblePort)
+			if err := ensembleserver.Init(cfg, *ensemblePort); err != nil {
+				logging.Errorf("Start Ensemble server error: %v", err)
+			}
+		}()
+	}
+
 	// Start Kubernetes controller if ConfigSource is kubernetes
 	if cfg.ConfigSource == config.ConfigSourceKubernetes {
 		logging.Infof("ConfigSource is kubernetes, starting Kubernetes controller")
 
@@ -56,6 +56,16 @@ func (f *Factory) RegisterEndpoint(modelName, endpointURL string) {
 	logging.Infof("Registered ensemble endpoint: %s -> %s", modelName, endpointURL)
 }
 
+// GetDefaultStrategy returns the configured default strategy
+func (f *Factory) GetDefaultStrategy() Strategy {
+	return f.config.DefaultStrategy
+}
+
+// GetDefaultMinResponses returns the configured default minimum responses
+func (f *Factory) GetDefaultMinResponses() int {
+	return f.config.DefaultMinResponses
+}
+
 // Execute performs ensemble orchestration for the given request
 func (f *Factory) Execute(req *Request) *Response {
 	if !f.config.Enabled {
 
@@ -0,0 +1,189 @@
+package ensembleserver
+
+import (
+	"encoding/json"
+	"fmt"
+	"io"
+	"net/http"
+	"strconv"
+	"strings"
+	"time"
+
+	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/config"
+	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/ensemble"
+	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/headers"
+	"github.com/vllm-project/semantic-router/src/semantic-router/pkg/observability/logging"
+)
+
+// EnsembleServer handles OpenAI-compatible ensemble requests
+type EnsembleServer struct {
+	factory *ensemble.Factory
+	config  *config.RouterConfig
+}
+
+// Init starts the ensemble API server
+func Init(cfg *config.RouterConfig, port int) error {
+	if cfg == nil {
+		return fmt.Errorf("configuration not initialized")
+	}
+
+	if !cfg.Ensemble.Enabled {
+		logging.Infof("Ensemble service is disabled in configuration")
+		return nil
+	}
+
+	// Initialize ensemble factory
+	ensembleConfig := &ensemble.Config{
+		Enabled:               cfg.Ensemble.Enabled,
+		DefaultStrategy:       ensemble.Strategy(cfg.Ensemble.DefaultStrategy),
+		DefaultMinResponses:   cfg.Ensemble.DefaultMinResponses,
+		TimeoutSeconds:        cfg.Ensemble.TimeoutSeconds,
+		MaxConcurrentRequests: cfg.Ensemble.MaxConcurrentRequests,
+	}
+	factory := ensemble.NewFactory(ensembleConfig)
+
+	// Register endpoint mappings from config
+	for modelName, endpoint := range cfg.Ensemble.EndpointMappings {
+		factory.RegisterEndpoint(modelName, endpoint)
+	}
+
+	server := &EnsembleServer{
+		factory: factory,
+		config:  cfg,
+	}
+
+	// Create HTTP server
+	mux := server.setupRoutes()
+	httpServer := &http.Server{
+		Addr:         fmt.Sprintf(":%d", port),
+		Handler:      mux,
+		ReadTimeout:  60 * time.Second,
+		WriteTimeout: 60 * time.Second,
+		IdleTimeout:  120 * time.Second,
+	}
+
+	logging.Infof("Ensemble API server listening on port %d", port)
+	return httpServer.ListenAndServe()
+}
+
+// setupRoutes configures HTTP routes
+func (s *EnsembleServer) setupRoutes() *http.ServeMux {
+	mux := http.NewServeMux()
+	
+	// OpenAI-compatible endpoints
+	mux.HandleFunc("/v1/chat/completions", s.handleChatCompletions)
+	mux.HandleFunc("/health", s.handleHealth)
+	
+	return mux
+}
+
+// handleHealth returns service health status
+func (s *EnsembleServer) handleHealth(w http.ResponseWriter, r *http.Request) {
+	w.Header().Set("Content-Type", "application/json")
+	w.WriteHeader(http.StatusOK)
+	json.NewEncoder(w).Encode(map[string]interface{}{
+		"status": "healthy",
+		"service": "ensemble",
+	})
+}
+
+// handleChatCompletions processes OpenAI chat completion requests with ensemble
+func (s *EnsembleServer) handleChatCompletions(w http.ResponseWriter, r *http.Request) {
+	if r.Method != http.MethodPost {
+		http.Error(w, "Method not allowed", http.StatusMethodNotAllowed)
+		return
+	}
+
+	// Read request body
+	body, err := io.ReadAll(r.Body)
+	if err != nil {
+		logging.Errorf("Failed to read request body: %v", err)
+		http.Error(w, "Failed to read request body", http.StatusBadRequest)
+		return
+	}
+	defer r.Body.Close()
+
+	// Parse ensemble headers
+	ensembleEnabled := strings.ToLower(r.Header.Get(headers.EnsembleEnable)) == "true"
+	if !ensembleEnabled {
+		http.Error(w, "Ensemble not enabled in request headers", http.StatusBadRequest)
+		return
+	}
+
+	// Parse models list
+	modelsHeader := r.Header.Get(headers.EnsembleModels)
+	if modelsHeader == "" {
+		http.Error(w, "No models specified in ensemble header", http.StatusBadRequest)
+		return
+	}
+	
+	var models []string
+	for _, model := range strings.Split(modelsHeader, ",") {
+		trimmedModel := strings.TrimSpace(model)
+		if trimmedModel != "" {
+			models = append(models, trimmedModel)
+		}
+	}
+
+	if len(models) == 0 {
+		http.Error(w, "No valid models specified", http.StatusBadRequest)
+		return
+	}
+
+	// Parse strategy
+	strategy := ensemble.Strategy(r.Header.Get(headers.EnsembleStrategy))
+	if strategy == "" {
+		strategy = s.factory.GetDefaultStrategy()
+	}
+
+	// Parse min responses
+	minResponses := s.factory.GetDefaultMinResponses()
+	if minRespHeader := r.Header.Get(headers.EnsembleMinResponses); minRespHeader != "" {
+		if parsed, err := strconv.Atoi(minRespHeader); err == nil && parsed > 0 {
+			minResponses = parsed
+		}
+	}
+
+	logging.Infof("Ensemble request: models=%v, strategy=%s, minResponses=%d", models, strategy, minResponses)
+
+	// Forward headers for authentication
+	headerMap := make(map[string]string)
+	for key, values := range r.Header {
+		if len(values) > 0 {
+			headerMap[key] = values[0]
+		}
+	}
+
+	// Build ensemble request
+	ensembleReq := &ensemble.Request{
+		Models:           models,
+		Strategy:         strategy,
+		MinResponses:     minResponses,
+		OriginalRequest:  body,
+		Headers:          headerMap,
+		Context:          r.Context(),
+	}
+
+	// Execute ensemble orchestration
+	ensembleResp := s.factory.Execute(ensembleReq)
+
+	// Check for errors
+	if ensembleResp.Error != nil {
+		logging.Errorf("Ensemble execution failed: %v", ensembleResp.Error)
+		http.Error(w, fmt.Sprintf("Ensemble orchestration failed: %v", ensembleResp.Error), http.StatusInternalServerError)
+		return
+	}
+
+	// Add ensemble metadata headers
+	w.Header().Set(headers.VSREnsembleUsed, "true")
+	w.Header().Set(headers.VSREnsembleModelsQueried, strconv.Itoa(ensembleResp.ModelsQueried))
+	w.Header().Set(headers.VSREnsembleResponsesReceived, strconv.Itoa(ensembleResp.ResponsesReceived))
+	w.Header().Set("Content-Type", "application/json")
+
+	// Return the aggregated response
+	logging.Infof("Ensemble execution successful: queried=%d, received=%d, strategy=%s",
+		ensembleResp.ModelsQueried, ensembleResp.ResponsesReceived, ensembleResp.Strategy)
+
+	w.WriteHeader(http.StatusOK)
+	w.Write(ensembleResp.FinalResponse)
+}
@@ -61,11 +61,6 @@ func (r *OpenAIRouter) handleRequestBody(v *ext_proc.ProcessingRequest_RequestBo
 		ctx.RequestModel = originalModel
 	}
 
-	// Check if ensemble mode is requested
-	if response, shouldReturn := r.handleEnsembleRequest(ctx); shouldReturn {
-		return response, nil
-	}
-
 	// Get content from messages
 	userContent, nonUserMessages := extractUserAndNonUserContent(openAIRequest)