update testcase

samzong · samzong · commit 53d4ad4c372f · 2025-11-21T17:43:02.000+08:00
Signed-off-by: samzong &lt;samzong.lu@gmail.com&gt;
diff --git a/e2e/testcases/llmd_auto_routing.go b/e2e/testcases/llmd_auto_routing.go
@@ -1,12 +1,8 @@
 package testcases
 
 import (
-	"bytes"
 	"context"
-	"encoding/json"
 	"fmt"
-	"io"
-	"net/http"
 	"time"
 
 	pkgtestcases "github.com/vllm-project/semantic-router/e2e/pkg/testcases"
@@ -28,53 +24,30 @@ func llmdAutoRouting(ctx context.Context, client *kubernetes.Clientset, opts pkg
 	}
 	defer stop()
 
-	type caseItem struct {
+	cases := []struct {
 		prompt string
-		want   string
-	}
-	cases := []caseItem{
-		{"What is 2+2?", "math"},
-		{"Explain TCP three-way handshake", "computer science"},
+		model  string
+	}{
+		{prompt: "What is 2+2?", model: "phi4-mini"},
+		{prompt: "Explain TCP three-way handshake", model: "llama3-8b"},
 	}
+
 	for _, c := range cases {
-		category, err := classifyOnce(ctx, localPort, c.prompt)
+		res, err := doLLMDChat(ctx, localPort, "auto", c.prompt, 45*time.Second)
 		if err != nil {
 			return err
 		}
-		if category != c.want {
-			return fmt.Errorf("expected category %s got %s", c.want, category)
+		selected := getSelectedModel(res.headers)
+		pod := getInferencePod(res.headers)
+		if selected != c.model {
+			return fmt.Errorf("prompt '%s' expected model %s got %s", c.prompt, c.model, selected)
+		}
+		if pod == "" {
+			return fmt.Errorf("missing x-inference-pod for prompt '%s'", c.prompt)
 		}
 	}
 	if opts.SetDetails != nil {
-		opts.SetDetails(map[string]interface{}{
-			"cases": len(cases),
-		})
+		opts.SetDetails(map[string]interface{}{"cases": len(cases)})
 	}
 	return nil
 }
-
-func classifyOnce(ctx context.Context, port, prompt string) (string, error) {
-	body := map[string]interface{}{
-		"model": "auto",
-		"messages": []map[string]string{
-			{"role": "user", "content": prompt},
-		},
-	}
-	data, _ := json.Marshal(body)
-	req, err := http.NewRequestWithContext(ctx, "POST", fmt.Sprintf("http://localhost:%s/v1/chat/completions", port), bytes.NewBuffer(data))
-	if err != nil {
-		return "", err
-	}
-	req.Header.Set("Content-Type", "application/json")
-	client := &http.Client{Timeout: 30 * time.Second}
-	resp, err := client.Do(req)
-	if err != nil {
-		return "", err
-	}
-	defer resp.Body.Close()
-	b, _ := io.ReadAll(resp.Body)
-	if resp.StatusCode != http.StatusOK {
-		return "", fmt.Errorf("request failed: %d %s", resp.StatusCode, string(b))
-	}
-	return resp.Header.Get("x-vsr-selected-category"), nil
-}
diff --git a/e2e/testcases/llmd_distributed_inference.go b/e2e/testcases/llmd_distributed_inference.go
@@ -3,6 +3,8 @@ package testcases
 import (
 	"context"
 	"fmt"
+	"sync"
+	"time"
 
 	pkgtestcases "github.com/vllm-project/semantic-router/e2e/pkg/testcases"
 	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
@@ -18,17 +20,15 @@ func init() {
 }
 
 func llmdDistributed(ctx context.Context, client *kubernetes.Clientset, opts pkgtestcases.TestCaseOptions) error {
-	counts := map[string]int{}
-	names := []string{"vllm-llama3-8b-instruct", "phi4-mini"}
-	for _, name := range names {
+	backendDeploys := []string{"vllm-llama3-8b-instruct", "phi4-mini"}
+	for _, name := range backendDeploys {
 		dep, err := client.AppsV1().Deployments("default").Get(ctx, name, metav1.GetOptions{})
 		if err != nil {
 			return err
 		}
 		if dep.Status.ReadyReplicas < 2 {
 			return fmt.Errorf("%s ready replicas %d < 2", name, dep.Status.ReadyReplicas)
 		}
-		counts[name] = int(dep.Status.ReadyReplicas)
 	}
 
 	localPort, stop, err := setupServiceConnection(ctx, client, opts)
@@ -37,21 +37,60 @@ func llmdDistributed(ctx context.Context, client *kubernetes.Clientset, opts pkg
 	}
 	defer stop()
 
-	success := 0
-	total := 10
+	const total = 30
+	var (
+		success int
+		mu      sync.Mutex
+		podHits = map[string]int{}
+	)
+	var wg sync.WaitGroup
+
 	for i := 0; i < total; i++ {
-		if err := simpleChat(ctx, localPort, "llama3-8b", fmt.Sprintf("req-%d", i)); err == nil {
+		i := i
+		wg.Add(1)
+		go func() {
+			defer wg.Done()
+			res, err := doLLMDChat(ctx, localPort, "llama3-8b", fmt.Sprintf("req-%d", i), 45*time.Second)
+			if err != nil {
+				return
+			}
+			pod := getInferencePod(res.headers)
+			if pod == "" {
+				return
+			}
+			mu.Lock()
 			success++
+			podHits[pod]++
+			mu.Unlock()
+		}()
+	}
+
+	wg.Wait()
+
+	successRate := float64(success) / float64(total)
+	if successRate < 0.98 {
+		return fmt.Errorf("success rate %.2f below 0.98", successRate)
+	}
+	if len(podHits) < 2 {
+		return fmt.Errorf("expected hits on >=2 pods, got %d", len(podHits))
+	}
+	var max, min int
+	for _, c := range podHits {
+		if c > max {
+			max = c
+		}
+		if min == 0 || c < min {
+			min = c
 		}
 	}
-	if success != total {
-		return fmt.Errorf("distributed calls success %d/%d", success, total)
+	if min == 0 || float64(max)/float64(min) > 2.0 {
+		return fmt.Errorf("pod hit imbalance max/min=%d/%d", max, min)
 	}
 	if opts.SetDetails != nil {
 		opts.SetDetails(map[string]interface{}{
-			"ready_llama": counts["vllm-llama3-8b-instruct"],
-			"ready_phi4":  counts["phi4-mini"],
-			"requests":    total,
+			"success_rate": successRate,
+			"total":        total,
+			"pod_hits":     podHits,
 		})
 	}
 	return nil
diff --git a/e2e/testcases/llmd_failover_recovery.go b/e2e/testcases/llmd_failover_recovery.go
@@ -23,39 +23,66 @@ func llmdFailover(ctx context.Context, client *kubernetes.Clientset, opts pkgtes
 	if err != nil {
 		return err
 	}
-	if len(pods.Items) < 1 {
-		return fmt.Errorf("no phi4-mini pods")
+	if len(pods.Items) < 2 {
+		return fmt.Errorf("need >=2 phi4-mini pods for failover, got %d", len(pods.Items))
 	}
 	target := pods.Items[0].Name
 	if err := client.CoreV1().Pods("default").Delete(ctx, target, metav1.DeleteOptions{}); err != nil {
 		return err
 	}
+	deleteTime := time.Now()
 
-	time.Sleep(10 * time.Second)
+	time.Sleep(5 * time.Second)
 
 	localPort, stop, err := setupServiceConnection(ctx, client, opts)
 	if err != nil {
 		return err
 	}
 	defer stop()
 
-	total := 20
+	deadline := time.Now().Add(60 * time.Second)
+	total := 0
 	success := 0
-	for i := 0; i < total; i++ {
-		if err := simpleChat(ctx, localPort, "phi4-mini", fmt.Sprintf("failover-%d", i)); err == nil {
+	podHits := map[string]int{}
+	var recoveredAt time.Time
+
+	for time.Now().Before(deadline) {
+		total++
+		res, err := doLLMDChat(ctx, localPort, "phi4-mini", fmt.Sprintf("failover-%d", total), 45*time.Second)
+		if err == nil {
 			success++
+			pod := getInferencePod(res.headers)
+			if pod == target {
+				return fmt.Errorf("traffic routed to deleted pod %s", target)
+			}
+			if pod != "" {
+				podHits[pod]++
+			}
+			if recoveredAt.IsZero() {
+				recoveredAt = time.Now()
+			}
 		}
-		time.Sleep(2 * time.Second)
+		time.Sleep(1 * time.Second)
 	}
 	rate := float64(success) / float64(total)
 	if rate < 0.95 {
 		return fmt.Errorf("success rate %.2f below 0.95", rate)
 	}
+	if len(podHits) == 0 {
+		return fmt.Errorf("no successful hits after deletion")
+	}
+	recoverySeconds := time.Since(deleteTime).Seconds()
+	if !recoveredAt.IsZero() {
+		recoverySeconds = recoveredAt.Sub(deleteTime).Seconds()
+	}
 	if opts.SetDetails != nil {
 		opts.SetDetails(map[string]interface{}{
-			"deleted_pod": target,
-			"success":     success,
-			"total":       total,
+			"deleted_pod":      target,
+			"success":          success,
+			"total":            total,
+			"success_rate":     rate,
+			"pod_hits":         podHits,
+			"recovery_seconds": recoverySeconds,
 		})
 	}
 	return nil
diff --git a/e2e/testcases/llmd_health_check.go b/e2e/testcases/llmd_health_check.go
@@ -1,16 +1,13 @@
 package testcases
 
 import (
-	"bytes"
 	"context"
-	"encoding/json"
 	"fmt"
-	"io"
-	"net/http"
 	"time"
 
 	pkgtestcases "github.com/vllm-project/semantic-router/e2e/pkg/testcases"
 	"k8s.io/apimachinery/pkg/apis/meta/v1"
+	"k8s.io/apimachinery/pkg/util/wait"
 	"k8s.io/client-go/kubernetes"
 )
 
@@ -24,6 +21,16 @@ func init() {
 
 func llmdHealth(ctx context.Context, client *kubernetes.Clientset, opts pkgtestcases.TestCaseOptions) error {
 	ns := "default"
+	crdGVs := []string{
+		"gateway.networking.k8s.io/v1",
+		"inference.networking.k8s.io/v1",
+	}
+	for _, gv := range crdGVs {
+		if err := ensureGroupVersion(ctx, client, gv); err != nil {
+			return err
+		}
+	}
+
 	required := []struct {
 		ns  string
 		dep string
@@ -36,7 +43,7 @@ func llmdHealth(ctx context.Context, client *kubernetes.Clientset, opts pkgtestc
 		{ns, "phi4-mini"},
 	}
 	for _, r := range required {
-		if err := waitDeploymentReady(ctx, client, r.ns, r.dep); err != nil {
+		if err := waitDeploymentReady(ctx, client, r.ns, r.dep, 1); err != nil {
 			return err
 		}
 	}
@@ -47,51 +54,37 @@ func llmdHealth(ctx context.Context, client *kubernetes.Clientset, opts pkgtestc
 	}
 	defer stop()
 
-	if err := simpleChat(ctx, localPort, "llama3-8b", "ping"); err != nil {
+	res, err := doLLMDChat(ctx, localPort, "llama3-8b", "ping", 30*time.Second)
+	if err != nil {
 		return err
 	}
 
 	if opts.SetDetails != nil {
 		opts.SetDetails(map[string]interface{}{
-			"deployments": len(required),
+			"deployments":      len(required),
+			"crds":             crdGVs,
+			"latency_ms":       res.duration.Milliseconds(),
+			"x-selected-model": getSelectedModel(res.headers),
+			"x-inference-pod":  getInferencePod(res.headers),
 		})
 	}
 	return nil
 }
 
-func waitDeploymentReady(ctx context.Context, client *kubernetes.Clientset, ns, name string) error {
-	dep, err := client.AppsV1().Deployments(ns).Get(ctx, name, v1.GetOptions{})
-	if err != nil {
-		return err
-	}
-	if dep.Status.ReadyReplicas < 1 {
-		return fmt.Errorf("deployment %s/%s not ready", ns, name)
-	}
-	return nil
+func waitDeploymentReady(ctx context.Context, client *kubernetes.Clientset, ns, name string, want int32) error {
+	return wait.PollUntilContextTimeout(ctx, 2*time.Second, 5*time.Minute, true, func(ctx context.Context) (bool, error) {
+		dep, err := client.AppsV1().Deployments(ns).Get(ctx, name, v1.GetOptions{})
+		if err != nil {
+			return false, err
+		}
+		return dep.Status.ReadyReplicas >= want, nil
+	})
 }
 
-func simpleChat(ctx context.Context, port, model, content string) error {
-	body := map[string]interface{}{
-		"model": model,
-		"messages": []map[string]string{
-			{"role": "user", "content": content},
-		},
-	}
-	data, _ := json.Marshal(body)
-	req, err := http.NewRequestWithContext(ctx, "POST", fmt.Sprintf("http://localhost:%s/v1/chat/completions", port), bytes.NewBuffer(data))
+func ensureGroupVersion(ctx context.Context, client *kubernetes.Clientset, gv string) error {
+	_, err := client.Discovery().ServerResourcesForGroupVersion(gv)
 	if err != nil {
-		return err
-	}
-	req.Header.Set("Content-Type", "application/json")
-	client := &http.Client{Timeout: 30 * time.Second}
-	resp, err := client.Do(req)
-	if err != nil {
-		return err
-	}
-	defer resp.Body.Close()
-	b, _ := io.ReadAll(resp.Body)
-	if resp.StatusCode != http.StatusOK {
-		return fmt.Errorf("chat failed: %d %s", resp.StatusCode, string(b))
+		return fmt.Errorf("CRD groupVersion %s not present: %w", gv, err)
 	}
 	return nil
 }
diff --git a/e2e/testcases/llmd_helpers.go b/e2e/testcases/llmd_helpers.go
diff --git a/e2e/testcases/llmd_performance_baseline.go b/e2e/testcases/llmd_performance_baseline.go