add helm chart

kaushikmitr · kaushikmitr · commit 4420525b1d1d · 2025-11-05T22:43:15.000Z
diff --git a/config/manifests/epp-with-predictor-helm-chart/Chart.yaml b/config/manifests/epp-with-predictor-helm-chart/Chart.yaml
@@ -0,0 +1,13 @@
+apiVersion: v2
+name: epp-latency-predictor
+description: A Helm chart for EPP deployment with configurable prediction servers
+type: application
+version: 1.0.0
+appVersion: "1.0"
+keywords:
+  - kubernetes
+  - gateway-api
+  - inference
+  - latency-prediction
+maintainers:
+  - name: kaushikmitra
diff --git a/config/manifests/epp-with-predictor-helm-chart/README.md b/config/manifests/epp-with-predictor-helm-chart/README.md
@@ -0,0 +1,19 @@
+## 🔧 Quick Deploy Commands
+
+### Using Helm Chart:
+
+The Helm chart updates the EPP infrastructure with configurable prediction servers deployed as sidecars.
+
+**Prerequisites:** These Helm charts assume you already have the EPP deployed with a working inference gateway. These charts just update the EPP deployment to include prediction sidecars and SLO-aware routing that incorporates predicted latencies for routing signals.
+
+```bash
+cd epp-with-predictor-helm-chart
+helm install epp ./ --set predictionServers.count=10
+```
+
+### Cleanup:
+
+```bash
+helm uninstall epp
+```
+
diff --git a/config/manifests/epp-with-predictor-helm-chart/templates/deployment.yaml b/config/manifests/epp-with-predictor-helm-chart/templates/deployment.yaml
@@ -0,0 +1,281 @@
+{{- /*
+Helper template to generate prediction server URLs for EPP environment variable
+*/ -}}
+{{- define "epp.predictionServerUrls" -}}
+{{- $urls := list -}}
+{{- range $i := until (int .Values.predictionServers.count) -}}
+{{- $port := add $.Values.predictionServers.basePort $i -}}
+{{- $urls = append $urls (printf "http://localhost:%d" $port) -}}
+{{- end -}}
+{{- join "," $urls -}}
+{{- end -}}
+
+# --- ServiceAccount (needed by the Deployment) ---
+apiVersion: v1
+kind: ServiceAccount
+metadata:
+  name: {{ .Values.inferencePool.name }}-epp
+  namespace: {{ .Values.inferencePool.namespace }}
+---
+# --- ConfigMaps (all first) ---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: latency-predictor-config
+  namespace: {{ .Values.inferencePool.namespace }}
+data:
+  LATENCY_RETRAINING_INTERVAL_SEC: {{ .Values.latencyPredictor.config.retrainingIntervalSec | quote }}
+  LATENCY_MIN_SAMPLES_FOR_RETRAIN: {{ .Values.latencyPredictor.config.minSamplesForRetrain | quote }}
+  LATENCY_TTFT_MODEL_PATH: "/models/ttft.joblib"
+  LATENCY_TPOT_MODEL_PATH: "/models/tpot.joblib"
+  LATENCY_TTFT_SCALER_PATH: "/models/ttft_scaler.joblib"
+  LATENCY_TPOT_SCALER_PATH: "/models/tpot_scaler.joblib"
+  LATENCY_MODEL_TYPE: {{ .Values.latencyPredictor.config.modelType | quote }}
+  LATENCY_MAX_TRAINING_DATA_SIZE_PER_BUCKET: {{ .Values.latencyPredictor.config.maxTrainingDataSizePerBucket | quote }}
+  LATENCY_QUANTILE_ALPHA: {{ .Values.latencyPredictor.config.quantileAlpha | quote }}
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: prediction-server-config
+  namespace: {{ .Values.inferencePool.namespace }}
+data:
+  LATENCY_MODEL_TYPE: {{ .Values.latencyPredictor.config.modelType | quote }}
+  PREDICT_HOST: "0.0.0.0"
+  LOCAL_TTFT_MODEL_PATH: "/server_models/ttft.joblib"
+  LOCAL_TPOT_MODEL_PATH: "/server_models/tpot.joblib"
+  LOCAL_TTFT_SCALER_PATH: "/server_models/ttft_scaler.joblib"
+  LOCAL_TPOT_SCALER_PATH: "/server_models/tpot_scaler.joblib"
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: plugins-config
+  namespace: {{ .Values.inferencePool.namespace }}
+data:
+  default-plugins.yaml: |
+    apiVersion: inference.networking.x-k8s.io/v1alpha1
+    kind: EndpointPickerConfig
+    plugins:
+    - type: queue-scorer
+    - type: kv-cache-utilization-scorer
+    - type: slo-aware-routing
+    - type: slo-aware-profile-handler
+    - type: max-score-picker
+    - type: prefix-cache-scorer
+    schedulingProfiles:
+    - name: default
+      plugins:
+      - pluginRef: slo-aware-routing
+        weight: 0
+      - pluginRef: queue-scorer
+      - pluginRef: kv-cache-utilization-scorer
+      - pluginRef: prefix-cache-scorer
+      - pluginRef: max-score-picker
+    - name: slo
+      plugins:
+      - pluginRef: prefix-cache-scorer
+        weight: 0
+      - pluginRef: slo-aware-routing
+      - pluginRef: max-score-picker
+---
+# --- EPP Deployment ---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: {{ .Values.inferencePool.name }}-epp
+  namespace: {{ .Values.inferencePool.namespace }}
+  labels:
+    app: {{ .Values.inferencePool.name }}-epp
+spec:
+  replicas: {{ .Values.deployment.replicas }}
+  selector:
+    matchLabels:
+      app: {{ .Values.inferencePool.name }}-epp
+  template:
+    metadata:
+      labels:
+        app: {{ .Values.inferencePool.name }}-epp
+    spec:
+      serviceAccountName: {{ .Values.inferencePool.name }}-epp
+      containers:
+      - name: epp
+        image: {{ .Values.epp.image }}
+        imagePullPolicy: {{ .Values.epp.imagePullPolicy }}
+        args:
+        - -pool-name
+        - {{ .Values.inferencePool.name | quote }}
+        - "-pool-namespace"
+        - {{ .Values.inferencePool.namespace | quote }}
+        - --pool-group
+        - "inference.networking.x-k8s.io"
+        - -v
+        - {{ .Values.epp.verbosity | quote }}
+        - --zap-encoder
+        - "json"
+        - -grpc-port
+        - {{ .Values.epp.grpcPort | quote }}
+        - -grpc-health-port
+        - {{ .Values.epp.grpcHealthPort | quote }}
+        - "--config-file"
+        - "/config/default-plugins.yaml"
+        - "-enable-latency-predictor"
+        env:
+        - name: PREDICTION_SERVER_URL
+          value: {{ include "epp.predictionServerUrls" . | quote }}
+        - name: TRAINING_SERVER_URL
+          value: "http://localhost:{{ .Values.trainingServer.port }}"
+        - name: LATENCY_MAX_SAMPLE_SIZE
+          value: {{ .Values.latencyPredictor.maxSampleSize | quote }}
+        ports:
+        - containerPort: {{ .Values.epp.grpcPort }}
+        - containerPort: {{ .Values.epp.grpcHealthPort }}
+        - name: metrics
+          containerPort: {{ .Values.epp.metricsPort }}
+        livenessProbe:
+          grpc:
+            port: {{ .Values.epp.grpcHealthPort }}
+            service: inference-extension
+          initialDelaySeconds: 5
+          periodSeconds: 10
+        readinessProbe:
+          grpc:
+            port: {{ .Values.epp.grpcHealthPort }}
+            service: inference-extension
+          initialDelaySeconds: 5
+          periodSeconds: 10
+        volumeMounts:
+        - name: plugins-config-volume
+          mountPath: "/config"
+      - name: training-server
+        image: {{ .Values.trainingServer.image }}
+        imagePullPolicy: {{ .Values.trainingServer.imagePullPolicy }}
+        ports:
+        - containerPort: {{ .Values.trainingServer.port }}
+          name: training-port
+        livenessProbe:
+          httpGet:
+            path: /healthz
+            port: {{ .Values.trainingServer.port }}
+          initialDelaySeconds: {{ .Values.trainingServer.livenessProbe.initialDelaySeconds }}
+          periodSeconds: {{ .Values.trainingServer.livenessProbe.periodSeconds }}
+        readinessProbe:
+          httpGet:
+            path: /readyz
+            port: {{ .Values.trainingServer.port }}
+          initialDelaySeconds: {{ .Values.trainingServer.readinessProbe.initialDelaySeconds }}
+          periodSeconds: {{ .Values.trainingServer.readinessProbe.periodSeconds }}
+        resources:
+          requests:
+            cpu: {{ .Values.trainingServer.resources.requests.cpu | quote }}
+            memory: {{ .Values.trainingServer.resources.requests.memory | quote }}
+          limits:
+            cpu: {{ .Values.trainingServer.resources.limits.cpu | quote }}
+            memory: {{ .Values.trainingServer.resources.limits.memory | quote }}
+        envFrom:
+        - configMapRef:
+            name: latency-predictor-config
+        env:
+        - name: POD_NAME
+          valueFrom:
+            fieldRef:
+              fieldPath: metadata.name
+        - name: SERVER_TYPE
+          value: "training"
+        volumeMounts:
+        - name: training-server-storage
+          mountPath: /models
+      {{- range $i := until (int .Values.predictionServers.count) }}
+      {{- $port := add $.Values.predictionServers.basePort $i }}
+      {{- $serverNum := add $i 1 }}
+      - name: prediction-server-{{ $serverNum }}
+        image: {{ $.Values.predictionServers.image }}
+        imagePullPolicy: {{ $.Values.predictionServers.imagePullPolicy }}
+        command: ["uvicorn"]
+        args: ["prediction_server:app", "--host", "0.0.0.0", "--port", "{{ $port }}"]
+        ports:
+        - containerPort: {{ $port }}
+          name: predict-port-{{ $serverNum }}
+        livenessProbe:
+          httpGet:
+            path: /healthz
+            port: {{ $port }}
+          initialDelaySeconds: {{ $.Values.predictionServers.livenessProbe.initialDelaySeconds }}
+          periodSeconds: {{ $.Values.predictionServers.livenessProbe.periodSeconds }}
+        readinessProbe:
+          httpGet:
+            path: /readyz
+            port: {{ $port }}
+          initialDelaySeconds: {{ $.Values.predictionServers.readinessProbe.initialDelaySeconds }}
+          periodSeconds: {{ $.Values.predictionServers.readinessProbe.periodSeconds }}
+          failureThreshold: {{ $.Values.predictionServers.readinessProbe.failureThreshold }}
+        resources:
+          requests:
+            cpu: {{ $.Values.predictionServers.resources.requests.cpu | quote }}
+            memory: {{ $.Values.predictionServers.resources.requests.memory | quote }}
+          limits:
+            cpu: {{ $.Values.predictionServers.resources.limits.cpu | quote }}
+            memory: {{ $.Values.predictionServers.resources.limits.memory | quote }}
+        envFrom:
+        - configMapRef:
+            name: prediction-server-config
+        env:
+        - name: PREDICT_PORT
+          value: "{{ $port }}"
+        - name: POD_NAME
+          valueFrom:
+            fieldRef:
+              fieldPath: metadata.name
+        - name: SERVER_TYPE
+          value: "prediction-{{ $serverNum }}"
+        - name: TRAINING_SERVER_URL
+          value: "http://localhost:{{ $.Values.trainingServer.port }}"
+        volumeMounts:
+        - name: prediction-server-{{ $serverNum }}-storage
+          mountPath: /server_models
+      {{- end }}
+      volumes:
+      - name: training-server-storage
+        emptyDir:
+          sizeLimit: {{ .Values.trainingServer.storage.sizeLimit | quote }}
+      {{- range $i := until (int .Values.predictionServers.count) }}
+      {{- $serverNum := add $i 1 }}
+      - name: prediction-server-{{ $serverNum }}-storage
+        emptyDir:
+          sizeLimit: {{ $.Values.predictionServers.storage.sizeLimit | quote }}
+      {{- end }}
+      - name: plugins-config-volume
+        configMap:
+          name: plugins-config
+---
+# --- EPP Service ---
+apiVersion: v1
+kind: Service
+metadata:
+  name: {{ .Values.inferencePool.name }}-epp
+  namespace: {{ .Values.inferencePool.namespace }}
+spec:
+  selector:
+    app: {{ .Values.inferencePool.name }}-epp
+  ports:
+    - name: epp-grpc
+      protocol: TCP
+      port: {{ .Values.epp.grpcPort }}
+      targetPort: {{ .Values.epp.grpcPort }}
+      appProtocol: http2
+    - name: latency-predictor-training
+      protocol: TCP
+      port: {{ .Values.trainingServer.port }}
+      targetPort: {{ .Values.trainingServer.port }}
+    {{- range $i := until (int .Values.predictionServers.count) }}
+    {{- $port := add $.Values.predictionServers.basePort $i }}
+    - name: latency-predictor-{{ add $i 1 }}
+      protocol: TCP
+      port: {{ $port }}
+      targetPort: {{ $port }}
+    {{- end }}
+    - name: prometheus
+      protocol: TCP
+      port: {{ .Values.epp.metricsPort }}
+      targetPort: {{ .Values.epp.metricsPort }}
+  type: LoadBalancer
diff --git a/config/manifests/epp-with-predictor-helm-chart/values.yaml b/config/manifests/epp-with-predictor-helm-chart/values.yaml
@@ -0,0 +1,77 @@
+# Helm values for configurable EPP deployment
+
+# Number of prediction server sidecars (1-20 recommended)
+predictionServers:
+  count: 10
+  image: us-docker.pkg.dev/kaushikmitra-gke-dev/kaushikmitra-docker-repo/latencypredictor-v3-prediction-server:latest
+  imagePullPolicy: Always
+  basePort: 8001  # First prediction server will use this port, subsequent ones increment
+  resources:
+    requests:
+      cpu: "500m"
+      memory: "1Gi"
+    limits:
+      cpu: "1000m"
+      memory: "2Gi"
+  storage:
+    sizeLimit: "10Gi"
+  livenessProbe:
+    initialDelaySeconds: 15
+    periodSeconds: 15
+  readinessProbe:
+    initialDelaySeconds: 10
+    periodSeconds: 5
+    failureThreshold: 10
+
+# Training server configuration
+trainingServer:
+  image: us-docker.pkg.dev/kaushikmitra-gke-dev/kaushikmitra-docker-repo/latencypredictor-v3-training-server:latest
+  imagePullPolicy: Always
+  port: 8000
+  resources:
+    requests:
+      cpu: "2000m"
+      memory: "4Gi"
+    limits:
+      cpu: "4000m"
+      memory: "8Gi"
+  storage:
+    sizeLimit: "20Gi"
+  livenessProbe:
+    initialDelaySeconds: 30
+    periodSeconds: 20
+  readinessProbe:
+    initialDelaySeconds: 45
+    periodSeconds: 10
+
+# EPP container configuration
+epp:
+  image: us-docker.pkg.dev/kaushikmitra-gke-dev/kaushikmitra-docker-repo/epp-wlp-latencypredictor-v2
+  imagePullPolicy: Always
+  grpcPort: 9002
+  grpcHealthPort: 9003
+  metricsPort: 9090
+  verbosity: 4
+
+# InferencePool configuration
+inferencePool:
+  name: vllm-llama3-8b-instruct
+  namespace: default
+  targetPortNumber: 8000
+
+# Latency predictor configuration
+latencyPredictor:
+  config:
+    retrainingIntervalSec: "1"
+    minSamplesForRetrain: "100"
+    modelType: "xgboost"
+    maxTrainingDataSizePerBucket: "5000"
+    quantileAlpha: "0.9"
+  maxSampleSize: "10000"
+
+# Deployment configuration
+deployment:
+  replicas: 1
+
+
+