vllm-project
diff --git a/‎.github/values-06-session-routing.yaml‎
Lines changed: 27 additions & 53 deletions b/‎.github/values-06-session-routing.yaml‎
Lines changed: 27 additions & 53 deletions
diff --git a/‎.github/values-07-prefix-routing.yaml‎
Lines changed: 27 additions & 53 deletions b/‎.github/values-07-prefix-routing.yaml‎
Lines changed: 27 additions & 53 deletions
diff --git a/‎.github/values-08-roundrobin-routing.yaml‎
Lines changed: 27 additions & 53 deletions b/‎.github/values-08-roundrobin-routing.yaml‎
Lines changed: 27 additions & 53 deletions
@@ -3,68 +3,30 @@ servingEngineSpec:
     type: Recreate
   runtimeClassName: ""
   modelSpec:
-    # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "opt125m"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "v0.3.9post2"
       modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
+      replicaCount: 2
+      requestCPU: 6
       requestMemory: "30Gi"
-      # requestGPU: 1
+      requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
         enablePrefixCaching: true
         maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        gpuMemoryUtilization: 0.8
       lmcacheConfig:
-        cudaVisibleDevices: "0"
         enabled: true
-        kvRole: "kv_producer"
-        enableNixl: true
-        nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-        cpuOffloadingBufferSize: 0
-      labels:
-        model: "opt125m-prefill"
-      chatTemplate: "chat.jinja2"
-      chatTemplateConfigMap: |-
-        {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
-        {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
-    # Decode node configuration
-    - name: "opt125m-decode"
-      repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
-      modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
-      requestMemory: "30Gi"
-      # requestGPU: 1
-      pvcStorage: "50Gi"
-      vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-      lmcacheConfig:
-        cudaVisibleDevices: "1"
-        enabled: true
-        kvRole: "kv_consumer"  # Set decode node as consumer
-        enableNixl: true
-        nixlRole: "receiver"
-        nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-      labels:
-        model: "opt125m-decode"
+        cpuOffloadingBufferSize: "10"
+        enableController: true
+        controllerPort: 9000
+        workerPorts: "8001"
+        p2pHost: "localhost"
+        p2pInitPorts: "30081"
+      env:
+        - name: LMCACHE_LOG_LEVEL
+          value: "DEBUG"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -81,7 +43,19 @@ routerSpec:
     type: Recreate
   enableRouter: true
   routingLogic: "session"
+  resources:
+    requests:
+      cpu: "1"
+      memory: "2G"
+    limits:
+      cpu: "1"
+      memory: "2G"
+  lmcacheControllerPort: 9000
   sessionKey: "x-user-id"
   extraArgs:
     - "--log-level"
     - "info"
+  startupProbe:
+    initialDelaySeconds: 20
+    periodSeconds: 5
+    failureThreshold: 3
@@ -3,68 +3,30 @@ servingEngineSpec:
     type: Recreate
   runtimeClassName: ""
   modelSpec:
-    # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "opt125m"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "v0.3.9post2"
       modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
+      replicaCount: 2
+      requestCPU: 6
       requestMemory: "30Gi"
-      # requestGPU: 1
+      requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
         enablePrefixCaching: true
         maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        gpuMemoryUtilization: 0.8
       lmcacheConfig:
-        cudaVisibleDevices: "0"
         enabled: true
-        kvRole: "kv_producer"
-        enableNixl: true
-        nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-        cpuOffloadingBufferSize: 0
-      labels:
-        model: "opt125m-prefill"
-      chatTemplate: "chat.jinja2"
-      chatTemplateConfigMap: |-
-        {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
-        {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
-    # Decode node configuration
-    - name: "opt125m-decode"
-      repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
-      modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
-      requestMemory: "30Gi"
-      # requestGPU: 1
-      pvcStorage: "50Gi"
-      vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-      lmcacheConfig:
-        cudaVisibleDevices: "1"
-        enabled: true
-        kvRole: "kv_consumer"  # Set decode node as consumer
-        enableNixl: true
-        nixlRole: "receiver"
-        nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-      labels:
-        model: "opt125m-decode"
+        cpuOffloadingBufferSize: "10"
+        enableController: true
+        controllerPort: 9000
+        workerPorts: "8001"
+        p2pHost: "localhost"
+        p2pInitPorts: "30081"
+      env:
+        - name: LMCACHE_LOG_LEVEL
+          value: "DEBUG"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -79,8 +41,20 @@ routerSpec:
   imagePullPolicy: "IfNotPresent"
   strategy:
     type: Recreate
+  resources:
+    requests:
+      cpu: "1"
+      memory: "2G"
+    limits:
+      cpu: "1"
+      memory: "2G"
   enableRouter: true
   routingLogic: "prefixaware"
   extraArgs:
     - "--log-level"
     - "info"
+  lmcacheControllerPort: 9000
+  startupProbe:
+    initialDelaySeconds: 20
+    periodSeconds: 5
+    failureThreshold: 3
@@ -3,68 +3,30 @@ servingEngineSpec:
     type: Recreate
   runtimeClassName: ""
   modelSpec:
-    # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "opt125m"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "v0.3.9post2"
       modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
+      replicaCount: 2
+      requestCPU: 6
       requestMemory: "30Gi"
-      # requestGPU: 1
+      requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
         enablePrefixCaching: true
         maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        gpuMemoryUtilization: 0.8
       lmcacheConfig:
-        cudaVisibleDevices: "0"
         enabled: true
-        kvRole: "kv_producer"
-        enableNixl: true
-        nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-        cpuOffloadingBufferSize: 0
-      labels:
-        model: "opt125m-prefill"
-      chatTemplate: "chat.jinja2"
-      chatTemplateConfigMap: |-
-        {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
-        {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
-    # Decode node configuration
-    - name: "opt125m-decode"
-      repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
-      modelURL: "facebook/opt-125m"
-      replicaCount: 1
-      requestCPU: 8
-      requestMemory: "30Gi"
-      # requestGPU: 1
-      pvcStorage: "50Gi"
-      vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-      lmcacheConfig:
-        cudaVisibleDevices: "1"
-        enabled: true
-        kvRole: "kv_consumer"  # Set decode node as consumer
-        enableNixl: true
-        nixlRole: "receiver"
-        nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
-        nixlBufferDevice: "cuda"
-        nixlEnableGc: true
-        enablePD: true
-      labels:
-        model: "opt125m-decode"
+        cpuOffloadingBufferSize: "10"
+        enableController: true
+        controllerPort: 9000
+        workerPorts: "8001"
+        p2pHost: "localhost"
+        p2pInitPorts: "30081"
+      env:
+        - name: LMCACHE_LOG_LEVEL
+          value: "DEBUG"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -84,3 +46,15 @@ routerSpec:
   extraArgs:
     - "--log-level"
     - "info"
+  resources:
+    requests:
+      cpu: "1"
+      memory: "2G"
+    limits:
+      cpu: "1"
+      memory: "2G"
+  lmcacheControllerPort: 9000
+  startupProbe:
+    initialDelaySeconds: 20
+    periodSeconds: 5
+    failureThreshold: 3