fix: resolve syntax errors after rebase

rootfs · rootfs · commit 0c81a7ae3ec0 · 2025-10-23T14:53:05.000Z
Signed-off-by: Huamin Chen &lt;hchen@redhat.com&gt;
diff --git a/src/semantic-router/cmd/main.go b/src/semantic-router/cmd/main.go
@@ -111,6 +111,38 @@ func main() {
 
 	observability.Infof("Starting vLLM Semantic Router ExtProc with config: %s", *configPath)
 
+<<<<<<< HEAD
+=======
+	// Initialize embedding models if configured (Long-context support)
+	cfg, err = config.LoadConfig(*configPath)
+	if err != nil {
+		observability.Warnf("Failed to load config for embedding models: %v", err)
+	} else if cfg.EmbeddingModels.Qwen3ModelPath != "" || cfg.EmbeddingModels.GemmaModelPath != "" {
+		observability.Infof("Initializing embedding models...")
+		observability.Infof("  Qwen3 model: %s", cfg.EmbeddingModels.Qwen3ModelPath)
+		observability.Infof("  Gemma model: %s", cfg.EmbeddingModels.GemmaModelPath)
+		observability.Infof("  Use CPU: %v", cfg.EmbeddingModels.UseCPU)
+
+		if err := candle_binding.InitEmbeddingModels(
+			cfg.EmbeddingModels.Qwen3ModelPath,
+			cfg.EmbeddingModels.GemmaModelPath,
+			cfg.EmbeddingModels.UseCPU,
+		); err != nil {
+			observability.Errorf("Failed to initialize embedding models: %v", err)
+			observability.Warnf("Embedding API endpoints will return placeholder embeddings")
+		} else {
+			observability.Infof("Embedding models initialized successfully")
+		}
+	} else {
+		observability.Infof("No embedding models configured, skipping initialization")
+		observability.Infof("To enable embedding models, add to config.yaml:")
+		observability.Infof("  embedding_models:")
+		observability.Infof("    qwen3_model_path: 'models/Qwen3-Embedding-0.6B'")
+		observability.Infof("    gemma_model_path: 'models/embeddinggemma-300m'")
+		observability.Infof("    use_cpu: true")
+	}
+
+>>>>>>> f9802f0 (fix: resolve syntax errors after rebase)
 	// Start API server if enabled
 	if *enableAPI {
 		go func() {
diff --git a/src/semantic-router/pkg/api/server.go b/src/semantic-router/pkg/api/server.go
@@ -1239,4 +1239,245 @@ func (s *ClassificationAPIServer) handleUpdateSystemPrompts(w http.ResponseWrite
 		http.Error(w, "Failed to encode response", http.StatusInternalServerError)
 		return
 	}
+<<<<<<< HEAD
+=======
+}
+
+// handleEmbeddings handles embedding generation requests
+func (s *ClassificationAPIServer) handleEmbeddings(w http.ResponseWriter, r *http.Request) {
+	// Parse request
+	var req EmbeddingRequest
+	if err := s.parseJSONRequest(r, &req); err != nil {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", err.Error())
+		return
+	}
+
+	// Validate input
+	if len(req.Texts) == 0 {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", "texts array cannot be empty")
+		return
+	}
+
+	// Set defaults
+	if req.Model == "" {
+		req.Model = "auto"
+	}
+	if req.Dimension == 0 {
+		req.Dimension = 768 // Default to full dimension
+	}
+	if req.QualityPriority == 0 && req.LatencyPriority == 0 {
+		req.QualityPriority = 0.5
+		req.LatencyPriority = 0.5
+	}
+
+	// Validate dimension
+	validDimensions := map[int]bool{128: true, 256: true, 512: true, 768: true, 1024: true}
+	if !validDimensions[req.Dimension] {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_DIMENSION",
+			fmt.Sprintf("dimension must be one of: 128, 256, 512, 768, 1024 (got %d)", req.Dimension))
+		return
+	}
+
+	// Generate embeddings for each text
+	results := make([]EmbeddingResult, 0, len(req.Texts))
+	var totalProcessingTime int64
+
+	for _, text := range req.Texts {
+		var output *candle_binding.EmbeddingOutput
+		var err error
+
+		// Choose between manual model selection or automatic routing
+		if req.Model == "auto" || req.Model == "" {
+			// Automatic routing based on quality/latency priorities
+			output, err = candle_binding.GetEmbeddingWithMetadata(
+				text,
+				req.QualityPriority,
+				req.LatencyPriority,
+				req.Dimension,
+			)
+		} else {
+			// Manual model selection ("qwen3" or "gemma")
+			output, err = candle_binding.GetEmbeddingWithModelType(
+				text,
+				req.Model,
+				req.Dimension,
+			)
+		}
+
+		if err != nil {
+			s.writeErrorResponse(w, http.StatusInternalServerError, "EMBEDDING_GENERATION_FAILED",
+				fmt.Sprintf("failed to generate embedding: %v", err))
+			return
+		}
+
+		// Use metadata directly from Rust layer
+		processingTime := int64(output.ProcessingTimeMs)
+
+		results = append(results, EmbeddingResult{
+			Text:             text,
+			Embedding:        output.Embedding,
+			Dimension:        len(output.Embedding),
+			ModelUsed:        output.ModelType,
+			ProcessingTimeMs: processingTime,
+		})
+
+		totalProcessingTime += processingTime
+	}
+
+	// Calculate statistics
+	avgProcessingTime := float64(totalProcessingTime) / float64(len(req.Texts))
+
+	response := EmbeddingResponse{
+		Embeddings:            results,
+		TotalCount:            len(results),
+		TotalProcessingTimeMs: totalProcessingTime,
+		AvgProcessingTimeMs:   avgProcessingTime,
+	}
+
+	observability.Infof("Generated %d embeddings in %dms (avg: %.2fms)",
+		len(results), totalProcessingTime, avgProcessingTime)
+
+	s.writeJSONResponse(w, http.StatusOK, response)
+}
+
+// handleSimilarity handles text similarity calculation requests
+func (s *ClassificationAPIServer) handleSimilarity(w http.ResponseWriter, r *http.Request) {
+	// Parse request
+	var req SimilarityRequest
+	if err := s.parseJSONRequest(r, &req); err != nil {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", err.Error())
+		return
+	}
+
+	// Validate input
+	if req.Text1 == "" || req.Text2 == "" {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", "both text1 and text2 must be provided")
+		return
+	}
+
+	// Set defaults
+	if req.Model == "" {
+		req.Model = "auto"
+	}
+	if req.Dimension == 0 {
+		req.Dimension = 768 // Default to full dimension
+	}
+	if req.Model == "auto" && req.QualityPriority == 0 && req.LatencyPriority == 0 {
+		req.QualityPriority = 0.5
+		req.LatencyPriority = 0.5
+	}
+
+	// Validate dimension
+	validDimensions := map[int]bool{128: true, 256: true, 512: true, 768: true, 1024: true}
+	if !validDimensions[req.Dimension] {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_DIMENSION",
+			fmt.Sprintf("dimension must be one of: 128, 256, 512, 768, 1024 (got %d)", req.Dimension))
+		return
+	}
+
+	// Calculate similarity
+	result, err := candle_binding.CalculateEmbeddingSimilarity(
+		req.Text1,
+		req.Text2,
+		req.Model,
+		req.Dimension,
+	)
+
+	if err != nil {
+		s.writeErrorResponse(w, http.StatusInternalServerError, "SIMILARITY_CALCULATION_FAILED",
+			fmt.Sprintf("failed to calculate similarity: %v", err))
+		return
+	}
+
+	response := SimilarityResponse{
+		Similarity:       result.Similarity,
+		ModelUsed:        result.ModelType,
+		ProcessingTimeMs: result.ProcessingTimeMs,
+	}
+
+	observability.Infof("Calculated similarity: %.4f (model: %s, took: %.2fms)",
+		result.Similarity, result.ModelType, result.ProcessingTimeMs)
+
+	s.writeJSONResponse(w, http.StatusOK, response)
+}
+
+// handleBatchSimilarity handles batch similarity matching requests
+func (s *ClassificationAPIServer) handleBatchSimilarity(w http.ResponseWriter, r *http.Request) {
+	// Parse request
+	var req BatchSimilarityRequest
+	if err := s.parseJSONRequest(r, &req); err != nil {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", err.Error())
+		return
+	}
+
+	// Validate input
+	if req.Query == "" {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", "query must be provided")
+		return
+	}
+	if len(req.Candidates) == 0 {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_INPUT", "candidates array cannot be empty")
+		return
+	}
+
+	// Set defaults
+	if req.Model == "" {
+		req.Model = "auto"
+	}
+	if req.Dimension == 0 {
+		req.Dimension = 768 // Default to full dimension
+	}
+	if req.TopK == 0 {
+		req.TopK = len(req.Candidates) // Default to all candidates
+	}
+	if req.Model == "auto" && req.QualityPriority == 0 && req.LatencyPriority == 0 {
+		req.QualityPriority = 0.5
+		req.LatencyPriority = 0.5
+	}
+
+	// Validate dimension
+	validDimensions := map[int]bool{128: true, 256: true, 512: true, 768: true, 1024: true}
+	if !validDimensions[req.Dimension] {
+		s.writeErrorResponse(w, http.StatusBadRequest, "INVALID_DIMENSION",
+			fmt.Sprintf("dimension must be one of: 128, 256, 512, 768, 1024 (got %d)", req.Dimension))
+		return
+	}
+
+	// Calculate batch similarity
+	result, err := candle_binding.CalculateSimilarityBatch(
+		req.Query,
+		req.Candidates,
+		req.TopK,
+		req.Model,
+		req.Dimension,
+	)
+
+	if err != nil {
+		s.writeErrorResponse(w, http.StatusInternalServerError, "BATCH_SIMILARITY_FAILED",
+			fmt.Sprintf("failed to calculate batch similarity: %v", err))
+		return
+	}
+
+	// Build response with matched text included
+	matches := make([]BatchSimilarityMatch, len(result.Matches))
+	for i, match := range result.Matches {
+		matches[i] = BatchSimilarityMatch{
+			Index:      match.Index,
+			Similarity: match.Similarity,
+			Text:       req.Candidates[match.Index],
+		}
+	}
+
+	response := BatchSimilarityResponse{
+		Matches:          matches,
+		TotalCandidates:  len(req.Candidates),
+		ModelUsed:        result.ModelType,
+		ProcessingTimeMs: result.ProcessingTimeMs,
+	}
+
+	observability.Infof("Calculated batch similarity: query='%s', %d candidates, top-%d matches (model: %s, took: %.2fms)",
+		req.Query, len(req.Candidates), len(matches), result.ModelType, result.ProcessingTimeMs)
+
+	s.writeJSONResponse(w, http.StatusOK, response)
+>>>>>>> f9802f0 (fix: resolve syntax errors after rebase)
 }