volcano-sh
diff --git a/‎test/e2e/testdata/kthena-router/Gateway.yaml‎
Lines changed: 11 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/Gateway.yaml‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/HTTPRoute.yaml‎
Lines changed: 19 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/HTTPRoute.yaml‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/InferencePool.yaml‎
Lines changed: 16 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/InferencePool.yaml‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/LLM-Mock-ds1.5b-Canary.yaml‎
Lines changed: 60 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/LLM-Mock-ds1.5b-Canary.yaml‎
Lines changed: 60 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/LLM-Mock-ds1.5b.yaml‎
Lines changed: 31 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/LLM-Mock-ds1.5b.yaml‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/LLM-Mock-ds7b.yaml‎
Lines changed: 30 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/LLM-Mock-ds7b.yaml‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/LLM-Mock.yaml‎
Lines changed: 58 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/LLM-Mock.yaml‎
Lines changed: 58 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/ModelRoute-binding-gateway.yaml‎
Lines changed: 15 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/ModelRoute-binding-gateway.yaml‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/ModelRoute-prefill-decode-disaggregation.yaml‎
Lines changed: 11 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/ModelRoute-prefill-decode-disaggregation.yaml‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎test/e2e/testdata/kthena-router/ModelRouteLora.yaml‎
Lines changed: 13 additions & 0 deletions b/‎test/e2e/testdata/kthena-router/ModelRouteLora.yaml‎
Lines changed: 13 additions & 0 deletions
@@ -0,0 +1,11 @@
+apiVersion: gateway.networking.k8s.io/v1
+kind: Gateway
+metadata:
+  name: kthena-gateway
+  namespace: kthena-system
+spec:
+  gatewayClassName: kthena-router
+  listeners:
+  - name: http
+    port: 8081
+    protocol: HTTP
@@ -0,0 +1,19 @@
+apiVersion: gateway.networking.k8s.io/v1
+kind: HTTPRoute
+metadata:
+  name: llm-route
+spec:
+  parentRefs:
+  - group: gateway.networking.k8s.io
+    kind: Gateway
+    name: default
+    namespace: kthena-system
+  rules:
+  - backendRefs:
+    - group: inference.networking.k8s.io
+      kind: InferencePool
+      name: deepseek-r1-1-5b
+    matches:
+    - path:
+        type: PathPrefix
+        value: /
@@ -0,0 +1,16 @@
+apiVersion: inference.networking.k8s.io/v1
+kind: InferencePool
+metadata:
+  name: deepseek-r1-1-5b
+spec:
+  targetPorts:
+    - number: 8000
+  selector:
+    matchLabels:
+      app: deepseek-r1-1-5b
+  # Kthena Router natively supports Gateway Inference Extension and does not require the Endpoint Picker Extension.
+  # It's just a placeholder for API validation.
+  endpointPickerRef:
+    name: deepseek-r1-1-5b
+    port:
+      number: 8080
@@ -0,0 +1,60 @@
+# This example shows how to deploy a DS1.5B model server.
+# The DS1.5B server will provide inference services for the DS1.5B model.
+#
+# NOTE: Update the image to the correct DS1.5B model image once it's available.
+
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: deepseek-r1-1-5b-v1
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: deepseek-r1-1-5b
+      version: v1
+  template:
+    metadata:
+      labels:
+        app: deepseek-r1-1-5b
+        version: v1
+    spec:
+      containers:
+        - name: llm-engine
+          image: ghcr.io/yaozengzeng/vllm-mock:latest
+          imagePullPolicy: IfNotPresent
+          env:
+            # specify the model name to mock
+            - name: MODEL_NAME
+              value: "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B-v1"
+          command:
+            - python3
+            - app.py
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: deepseek-r1-1-5b-v2
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: deepseek-r1-1-5b
+      version: v2
+  template:
+    metadata:
+      labels:
+        app: deepseek-r1-1-5b
+        version: v2
+    spec:
+      containers:
+        - name: llm-engine
+          image: ghcr.io/yaozengzeng/vllm-mock:latest
+          imagePullPolicy: IfNotPresent
+          env:
+            # specify the model name to mock
+            - name: MODEL_NAME
+              value: "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B-v2"
+          command:
+            - python3
+            - app.py
@@ -0,0 +1,31 @@
+# This example shows how to deploy a DS1.5B model server.
+# The DS1.5B server will provide inference services for the DS1.5B model.
+#
+# NOTE: Update the image to the correct DS1.5B model image once it's available.
+
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: deepseek-r1-1-5b
+spec:
+  replicas: 3
+  selector:
+    matchLabels:
+      app: deepseek-r1-1-5b
+  template:
+    metadata:
+      labels:
+        app: deepseek-r1-1-5b
+    spec:
+      containers:
+        - name: llm-engine
+          image: ghcr.io/yaozengzeng/vllm-mock:latest
+          imagePullPolicy: IfNotPresent
+          env:
+            # specify the model name to mock
+            - name: MODEL_NAME
+              value: "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
+          command:
+            - python3
+            - app.py
+
@@ -0,0 +1,30 @@
+# This example shows how to deploy a DS7B model server.
+# The DS7B server will provide inference services for the DS7B model.
+#
+# NOTE: Update the image to the correct DS7B model image once it's available.
+
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: deepseek-r1-7b
+spec:
+  replicas: 3
+  selector:
+    matchLabels:
+      app: deepseek-r1-7b
+  template:
+    metadata:
+      labels:
+        app: deepseek-r1-7b
+    spec:
+      containers:
+        - name: llm-engine
+          image: ghcr.io/yaozengzeng/vllm-mock:latest
+          imagePullPolicy: IfNotPresent
+          env:
+            # specify the model name to mock
+            - name: MODEL_NAME
+              value: "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
+          command:
+            - python3
+            - app.py
@@ -0,0 +1,58 @@
+# This example shows how to deploy a mock vLLM server for testing.
+# The mock server will return a fixed response for any input.
+# You can use this mock server to test the inference router without deploying a real LLM server.
+#
+# NOTE: `ghcr.io/yaozengzeng/vllm-mock:latest` is built based on `https://github.com/YaoZengzeng/aibrix/tree/vllm-mock`.
+# Move the image to kthena registry once it's public.
+
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: vllm-llama3-8b-instruct
+spec:
+  replicas: 3
+  selector:
+    matchLabels:
+      app: vllm-llama3-8b-instruct
+  template:
+    metadata:
+      labels:
+        app: vllm-llama3-8b-instruct
+    spec:
+      containers:
+        - name: llm-engine
+          image: ghcr.io/yaozengzeng/vllm-mock:latest
+          imagePullPolicy: IfNotPresent
+          env:
+            # specify the model name to mock
+            - name: MODEL_NAME
+              value: "meta-llama/Llama-3.1-8B-Instruct"
+          command:
+            - python3
+            - app.py
+---
+apiVersion: networking.serving.volcano.sh/v1alpha1
+kind: ModelRoute
+metadata:
+  name: llama
+spec:
+  modelName: "Llama-3.1"
+  rules:
+  - name: "default"
+    targetModels:
+    - modelServerName: "llama"
+---
+apiVersion: networking.serving.volcano.sh/v1alpha1
+kind: ModelServer
+metadata:
+  name: llama
+spec:
+  workloadSelector:
+    matchLabels:
+      app: vllm-llama3-8b-instruct
+  workloadPort:
+    port: 8000
+  model: "meta-llama/Llama-3.1-8B-Instruct"
+  inferenceEngine: "vLLM"
+  trafficPolicy:
+    timeout: 10s
@@ -0,0 +1,15 @@
+apiVersion: networking.serving.volcano.sh/v1alpha1
+kind: ModelRoute
+metadata:
+  name: deepseek-binding-gateway
+  namespace: default
+spec:
+  modelName: "deepseek-binding-gateway"
+  parentRefs:
+  - name: "default"
+    namespace: "kthena-system"
+    kind: "Gateway"
+  rules:
+  - name: "default"
+    targetModels:
+    - modelServerName: "deepseek-r1-1-5b"
@@ -0,0 +1,11 @@
+apiVersion: networking.serving.volcano.sh/v1alpha1
+kind: ModelRoute
+metadata:
+  name: deepseek-v2
+  namespace: dev
+spec:
+  modelName: "deepseek-ai/DeepSeekV2"
+  rules:
+    - name: "default"
+      targetModels:
+        - modelServerName: "deepseek-v2"
@@ -0,0 +1,13 @@
+apiVersion: networking.serving.volcano.sh/v1alpha1
+kind: ModelRoute
+metadata:
+  name: deepseek-lora
+  namespace: default
+spec:
+  loraAdapters:
+  - "lora-A"
+  - "lora-B"
+  rules:
+  - name: "lora-route"
+    targetModels:
+    - modelServerName: "deepseek-r1-1-5b"