mwaykole
diff --git a/‎config/configmap/inferenceservice.yaml‎
Lines changed: 32 additions & 16 deletions b/‎config/configmap/inferenceservice.yaml‎
Lines changed: 32 additions & 16 deletions
diff --git a/‎docs/apis/v1beta1/ROLLOUT_STRATEGY_API.md‎
Lines changed: 195 additions & 0 deletions b/‎docs/apis/v1beta1/ROLLOUT_STRATEGY_API.md‎
Lines changed: 195 additions & 0 deletions
diff --git a/‎docs/samples/rollout-strategy/rollout-strategy-example.yaml‎
Lines changed: 89 additions & 0 deletions b/‎docs/samples/rollout-strategy/rollout-strategy-example.yaml‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎pkg/apis/serving/v1beta1/configmap.go‎
Lines changed: 19 additions & 1 deletion b/‎pkg/apis/serving/v1beta1/configmap.go‎
Lines changed: 19 additions & 1 deletion
@@ -537,22 +537,38 @@ data:
            "imagePullSecrets": ["docker-secret"]
        }
      
-     # ====================================== DEPLOYMENT CONFIGURATION ======================================
-     # Example
-     deploy: |-
-       {
-         "defaultDeploymentMode": "Serverless"
-       }
-     deploy: |-
-       {
-         # defaultDeploymentMode specifies the default deployment mode of the kserve. The supported values are
-         # Serverless, RawDeployment and ModelMesh. Users can override the deployment mode at service level
-         # by adding the annotation serving.kserve.io/deploymentMode.For more info on deployment mode visit
-         # Serverless https://kserve.github.io/website/master/admin/serverless/serverless/
-         # RawDeployment https://kserve.github.io/website/master/admin/kubernetes_deployment/
-         # ModelMesh https://kserve.github.io/website/master/admin/modelmesh/
-         "defaultDeploymentMode": "Serverless"
-       }
+    # ====================================== DEPLOYMENT CONFIGURATION ======================================
+    # Example
+    deploy: |-
+      {
+        "defaultDeploymentMode": "Serverless",
+        "deploymentRolloutStrategy": {
+          "defaultRollout": {
+            "maxSurge": "1",
+            "maxUnavailable": "1"
+          }
+        }
+      }
+
+    deploy: |-
+      {
+        # defaultDeploymentMode specifies the default deployment mode of the kserve. The supported values are
+        # Standard and Knative. Users can override the deployment mode at service level
+        # by adding the annotation serving.kserve.io/deploymentMode.
+        # "defaultDeploymentMode": "Standard",
+        # deploymentRolloutStrategy specifies the default rollout strategy for the Standard deployment mode
+        # "deploymentRolloutStrategy": {
+          # defaultRollout specifies the default rollout configuration using Kubernetes deployment strategy
+          # "defaultRollout": {
+            # maxSurge specifies the maximum number of pods that can be created above the desired replica count
+            # Can be an absolute number (ex: 5) or a percentage of desired pods (ex: 10%)
+            # "maxSurge": "1",
+            # maxUnavailable specifies the maximum number of pods that can be unavailable during the update
+            # Can be an absolute number (ex: 5) or a percentage of desired pods (ex: 10%)
+            # "maxUnavailable": "1"
+          # }
+        # }
+      }
 
      # ====================================== SERVICE CONFIGURATION ======================================
      # Example
 
@@ -0,0 +1,195 @@
+# Rollout Strategy API Reference
+
+## Overview
+
+This document describes the API fields for rollout strategy configuration in KServe v1beta1. Rollout strategies can be configured through ConfigMap defaults or directly using Kubernetes `DeploymentStrategy`.
+
+## ComponentExtensionSpec
+
+The `ComponentExtensionSpec` supports two approaches for rollout strategy configuration:
+
+### Fields
+
+| Field | Type | Description | Required |
+|-------|------|-------------|----------|
+| `deploymentStrategy` | `appsv1.DeploymentStrategy` | Direct Kubernetes deployment strategy (highest priority) | No |
+
+### Configuration Priority
+
+1. **deploymentStrategy** - User-defined Kubernetes deployment strategy (highest priority)
+2. **ConfigMap rollout strategy** - Fallback when `defaultDeploymentMode` is `"Standard"`
+
+## RolloutSpec (ConfigMap Configuration)
+
+Defines the rollout strategy configuration for ConfigMap defaults. Users can configure different rollout modes by setting appropriate `maxSurge` and `maxUnavailable` values:
+
+**Availability Mode (Zero Downtime)**:
+- Set `maxUnavailable: "0"` and `maxSurge` to desired value/percentage
+- New pods are created before old pods are terminated
+
+**ResourceAware Mode (Resource Efficient)**:
+- Set `maxSurge: "0"` and `maxUnavailable` to desired value/percentage  
+- Old pods are terminated before new pods are created
+
+### Fields
+
+| Field | Type | Description | Required | Default |
+|-------|------|-------------|----------|---------|
+| `maxSurge` | `string` | Maximum number of pods that can be created above desired replica count (e.g., `"1"`, `"25%"`) | Yes | - |
+| `maxUnavailable` | `string` | Maximum number of pods that can be unavailable during update (e.g., `"1"`, `"25%"`) | Yes | - |
+
+
+
+## DeployConfig
+
+The `DeployConfig` includes configuration for default rollout strategies.
+
+### Fields
+
+| Field | Type | Description | Required |
+|-------|------|-------------|----------|
+| `deploymentRolloutStrategy` | `DeploymentRolloutStrategy` | Default rollout strategy for deployments | No |
+
+## DeploymentRolloutStrategy
+
+Defines the default rollout strategy configuration for deployments.
+
+### Fields
+
+| Field | Type | Description | Required |
+|-------|------|-------------|----------|
+| `defaultRollout` | `RolloutSpec` | Default rollout configuration | No |
+
+## Example ConfigMap
+
+```yaml
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: inferenceservice-config
+  namespace: kserve
+data:
+  deploy: |-
+    {
+      "defaultDeploymentMode": "Standard",
+      "deploymentRolloutStrategy": {
+        "defaultRollout": {
+          "maxSurge": "1",        # For Availability mode: set maxUnavailable: "0" 
+          "maxUnavailable": "1"   # For ResourceAware mode: set maxSurge: "0"
+        }
+      }
+    }
+```
+
+## Example InferenceService (Direct DeploymentStrategy)
+
+### Availability Mode Example:
+```yaml
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: availability-mode-example
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: sklearn
+      storageUri: "s3://my-bucket/model"
+    # Availability mode: maxUnavailable = 0, maxSurge = desired value
+    deploymentStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        maxUnavailable: "0"    # Zero downtime
+        maxSurge: "1"          # Allow one extra pod
+```
+
+### ResourceAware Mode Example:
+```yaml
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: resource-aware-example
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: sklearn
+      storageUri: "s3://my-bucket/model"
+    # ResourceAware mode: maxSurge = 0, maxUnavailable = desired value
+    deploymentStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        maxSurge: "0"          # Resource efficient
+        maxUnavailable: "1"    # Allow one pod unavailable
+```
+
+## Example InferenceService (Using ConfigMap Defaults)
+
+```yaml
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: example-configmap-defaults
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: sklearn
+      storageUri: "s3://my-bucket/model"
+    # No deploymentStrategy specified - uses ConfigMap defaults
+```
+
+## Validation Rules
+
+### For ConfigMap Configuration:
+1. **maxSurge Validation**: Must be a valid number or percentage string
+   - Valid percentages: `"25%"`, `"50%"`, `"100%"`
+   - Valid numbers: `"1"`, `"2"`, `"5"`
+2. **maxUnavailable Validation**: Same format as maxSurge
+
+### For Direct DeploymentStrategy:
+1. **type**: Must be `"RollingUpdate"`
+2. **rollingUpdate.maxSurge**: Same validation as ConfigMap maxSurge
+3. **rollingUpdate.maxUnavailable**: Same validation as ConfigMap maxUnavailable
+
+## Priority Order
+
+When configuring rollout strategies, the following priority order applies:
+
+1. **Multinode deployment override** (HIGHEST priority) - automatic for Ray workloads with `RAY_NODE_COUNT` environment variable
+2. **User-defined deploymentStrategy** (high priority) - specified in component extension spec
+3. **ConfigMap rollout strategy** (fallback) - only applies when `defaultDeploymentMode` is `"Standard"`
+4. **KServe default values** (if no configuration is provided)
+
+**Important**: The ConfigMap rollout strategy only applies when:
+- No user-defined `deploymentStrategy` is specified in the component spec
+- The `defaultDeploymentMode` in the ConfigMap is set to `"Standard"`
+
+## Default Values
+
+### KServe Defaults
+When no rollout strategy is specified anywhere, KServe applies these defaults:
+- **maxUnavailable**: `25%`
+- **maxSurge**: `25%`
+
+### Multinode Deployment Override
+For multinode deployments (Ray workloads), KServe automatically overrides ALL rollout strategy configurations with:
+- **maxUnavailable**: `0%`
+- **maxSurge**: `100%`
+
+This override takes precedence over all other configurations, including user-defined `deploymentStrategy`.
+
+### Default Values Summary
+
+| Configuration | maxUnavailable | maxSurge | Notes |
+|---------------|----------------|----------|-------|
+| **No rollout strategy specified** | `25%` | `25%` | KServe defaults |
+| **Multinode deployment** | `0%` | `100%` | Overrides ALL other configurations |
+| **Availability mode** | `0` | `<ratio>` | From rollout spec |
+| **ResourceAware mode** | `<ratio>` | `0` | From rollout spec | 
@@ -0,0 +1,89 @@
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: rollout-strategy-example
+  namespace: default
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: sklearn
+      storageUri: "s3://my-bucket/model"
+    # Example 1: Availability Mode - Direct deployment strategy for high availability
+    # Configuration: maxUnavailable = 0, maxSurge = desired value
+    # Behavior: New pods are created first, then old pods are terminated (zero downtime)
+    deploymentStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        maxUnavailable: "0"      # No pods unavailable during rollout
+        maxSurge: "50%"          # Can create 50% more pods during rollout
+    
+  transformer:
+    custom:
+      container:
+        image: my-transformer:latest
+        env:
+          - name: MODEL_NAME
+            value: "my-model"
+    # Example 2: ResourceAware Mode - Resource-efficient deployment strategy  
+    # Configuration: maxSurge = 0, maxUnavailable = desired value
+    # Behavior: Old pods are terminated first, then new pods are created (resource efficient)
+    deploymentStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        maxSurge: "0"            # No extra pods during rollout
+        maxUnavailable: "25%"    # Up to 25% of pods can be unavailable
+
+---
+# Example 3: Using ConfigMap defaults (no deploymentStrategy specified)
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: configmap-defaults-example
+  namespace: default
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: sklearn
+      storageUri: "s3://my-bucket/model"
+    # No deploymentStrategy specified - will use ConfigMap global defaults  
+    # when defaultDeploymentMode is "Standard"
+    # Allows administrators to set organization-wide rollout policies
+
+---
+# Example 4: Multinode deployment (Ray workload)
+# Note: KServe will automatically override ANY rollout strategy to:
+# maxUnavailable: "0%", maxSurge: "100%" for multinode deployments
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: multinode-example
+  namespace: default
+  annotations:
+    serving.kserve.io/deploymentMode: "Standard"
+spec:
+  predictor:
+    model:
+      modelFormat:
+        name: huggingface
+      storageUri: "s3://my-bucket/llm-model"
+    containers:
+    - name: kserve-container
+      image: my-ray-model-server:latest
+      env:
+      - name: RAY_NODE_COUNT    # This triggers multinode deployment
+        value: "4"              # 1 head + 3 worker nodes
+      - name: REQUEST_GPU_COUNT
+        value: "8"
+    # Even if you specify a different rollout strategy, KServe will override it
+    # for multinode deployments to ensure Ray cluster stability
+    deploymentStrategy:
+      type: RollingUpdate
+      rollingUpdate:
+        maxUnavailable: "50%"  # This will be overridden to "0%"
+        maxSurge: "25%"        # This will be overridden to "100%" 
@@ -129,7 +129,25 @@ type IngressConfig struct {
 
 // +kubebuilder:object:generate=false
 type DeployConfig struct {
-	DefaultDeploymentMode string `json:"defaultDeploymentMode,omitempty"`
+	DefaultDeploymentMode     string                     `json:"defaultDeploymentMode,omitempty"`
+	DeploymentRolloutStrategy *DeploymentRolloutStrategy `json:"deploymentRolloutStrategy,omitempty"`
+}
+
+// DeploymentRolloutStrategy defines the rollout strategy configuration for deployments
+type DeploymentRolloutStrategy struct {
+	// DefaultRollout specifies the default rollout configuration
+	// +optional
+	DefaultRollout *RolloutSpec `json:"defaultRollout,omitempty"`
+}
+
+// RolloutSpec defines the rollout strategy configuration using Kubernetes deployment strategy
+type RolloutSpec struct {
+	// MaxSurge specifies the maximum number of pods that can be created above the desired replica count.
+	// Can be an absolute number (ex: 5) or a percentage of desired pods (ex: 10%).
+	MaxSurge string `json:"maxSurge"`
+	// MaxUnavailable specifies the maximum number of pods that can be unavailable during the update.
+	// Can be an absolute number (ex: 5) or a percentage of desired pods (ex: 10%).
+	MaxUnavailable string `json:"maxUnavailable"`
 }
 
 // +kubebuilder:object:generate=false