opendatahub-io
diff --git a/‎examples/kft-v2/dist/kubeflow_trainer_api-2.0.0-py3-none-any.whl‎
715 KB b/‎examples/kft-v2/dist/kubeflow_trainer_api-2.0.0-py3-none-any.whl‎
715 KB
diff --git a/‎examples/kft-v2/docs/jobs.png‎
182 KB b/‎examples/kft-v2/docs/jobs.png‎
182 KB
diff --git a/‎examples/kft-v2/docs/trainjob_pods.png‎
91 KB b/‎examples/kft-v2/docs/trainjob_pods.png‎
91 KB
diff --git a/‎examples/kft-v2/docs/trainjobs_jobsets.png‎
106 KB b/‎examples/kft-v2/docs/trainjobs_jobsets.png‎
106 KB
diff --git a/‎examples/kft-v2/manifests/cluster_training_runtime.yaml‎
Lines changed: 135 additions & 0 deletions b/‎examples/kft-v2/manifests/cluster_training_runtime.yaml‎
Lines changed: 135 additions & 0 deletions
diff --git a/‎examples/kft-v2/manifests/shared_pvc.yaml‎
Lines changed: 12 additions & 0 deletions b/‎examples/kft-v2/manifests/shared_pvc.yaml‎
Lines changed: 12 additions & 0 deletions
@@ -0,0 +1,135 @@
+apiVersion: trainer.kubeflow.org/v1alpha1
+kind: ClusterTrainingRuntime
+metadata:
+  name: pytorch-cpu
+spec:
+  mlPolicy:
+    numNodes: 2
+    torch:
+      numProcPerNode: 1
+  template:
+    metadata: {}
+    spec:
+      replicatedJobs:
+        - name: dataset-initializer
+          replicas: 1
+          template:
+            metadata:
+              labels:
+                trainer.kubeflow.org/trainjob-ancestor-step: dataset-initializer
+            spec:
+              template:
+                spec:
+                  containers:
+                    - env:
+                        - name: HF_HOME
+                          value: /workspace/cache
+                        - name: DATASET_NAME
+                          value: tatsu-lab/alpaca
+                        - name: DATASET_CONFIG
+                          value: main
+                        - name: DATASET_SPLIT
+                          value: 'train[:500]'
+                        - name: DATASET_FORMAT
+                          value: json
+                      image: 'ghcr.io/kubeflow/trainer/dataset-initializer:v2.0.0'
+                      name: dataset-initializer
+                      resources:
+                        limits:
+                          cpu: '2'
+                          memory: 4Gi
+                        requests:
+                          cpu: '1'
+                          memory: 2Gi
+                      volumeMounts:
+                        - mountPath: /workspace
+                          name: shared-workspace
+                  restartPolicy: Never
+                  volumes:
+                    - name: shared-workspace
+                      persistentVolumeClaim:
+                        claimName: shared-checkpoint-storage
+        - dependsOn:
+            - name: dataset-initializer
+              status: Complete
+          name: model-initializer
+          replicas: 1
+          template:
+            metadata:
+              labels:
+                trainer.kubeflow.org/trainjob-ancestor-step: model-initializer
+            spec:
+              template:
+                spec:
+                  containers:
+                    - env:
+                        - name: HF_HOME
+                          value: /workspace/cache
+                        - name: MODEL_NAME
+                          value: gpt2
+                        - name: MODEL_REVISION
+                          value: main
+                        - name: DOWNLOAD_MODE
+                          value: force_redownload
+                      image: 'ghcr.io/kubeflow/trainer/model-initializer:v2.0.0'
+                      name: model-initializer
+                      resources:
+                        limits:
+                          cpu: '2'
+                          memory: 4Gi
+                        requests:
+                          cpu: '1'
+                          memory: 2Gi
+                      volumeMounts:
+                        - mountPath: /workspace
+                          name: shared-workspace
+                  restartPolicy: Never
+                  volumes:
+                    - name: shared-workspace
+                      persistentVolumeClaim:
+                        claimName: shared-checkpoint-storage
+        - dependsOn:
+            - name: model-initializer
+              status: Complete
+          name: node
+          replicas: 1
+          template:
+            metadata:
+              labels:
+                trainer.kubeflow.org/trainjob-ancestor-step: trainer
+            spec:
+              template:
+                metadata: {}
+                spec:
+                  containers:
+                    - env:
+                        - name: PYTHONUNBUFFERED
+                          value: '1'
+                        - name: NCCL_DEBUG
+                          value: INFO
+                        - name: NCCL_SOCKET_IFNAME
+                          value: eth0
+                        - name: NCCL_IB_DISABLE
+                          value: '1'
+                        - name: NCCL_P2P_DISABLE
+                          value: '1'
+                        - name: TRAINJOB_PROGRESSION_FILE_PATH
+                          value: /tmp/training_progression.json
+                        - name: CHECKPOINT_DIR
+                          value: /workspace/checkpoints
+                      image: 'pytorch/pytorch:2.1.0-cuda11.8-cudnn8-runtime'
+                      name: node
+                      resources:
+                        limits:
+                          cpu: '2'
+                          memory: 4Gi
+                        requests:
+                          cpu: '1'
+                          memory: 2Gi
+                      volumeMounts:
+                        - mountPath: /workspace
+                          name: shared-workspace
+                  volumes:
+                    - name: shared-workspace
+                      persistentVolumeClaim:
+                        claimName: fashion-mnist-storage
@@ -0,0 +1,12 @@
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: shared-checkpoint-storage
+spec:
+  accessModes:
+    - ReadWriteMany
+  resources:
+    requests:
+      storage: 50Gi
+  storageClassName: nfs-csi
+  volumeMode: Filesystem