@@ -42,6 +42,11 @@ func TestPyTorchJobSingleNodeSingleGpuWithCudaPyTorch251(t *testing.T) {
4242 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch251Image (), NVIDIA , 1 , 0 )
4343}
4444
45+ func TestPyTorchJobSingleNodeSingleGpuWithCudaPyTorch28 (t * testing.T ) {
46+ Tags (t , Tier1 , Gpu (NVIDIA ))
47+ runKFTOPyTorchJob (t , GetTrainingCudaPyTorch28Image (), NVIDIA , 1 , 0 )
48+ }
49+
4550func TestPyTorchJobSingleNodeMultiGpuWithCudaPyTorch241 (t * testing.T ) {
4651 Tags (t , KftoCuda )
4752 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch241Image (), NVIDIA , 2 , 0 )
@@ -52,6 +57,11 @@ func TestPyTorchJobSingleNodeMultiGpuWithCudaPyTorch251(t *testing.T) {
5257 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch251Image (), NVIDIA , 2 , 0 )
5358}
5459
60+ func TestPyTorchJobSingleNodeMultiGpuWithCudaPyTorch28 (t * testing.T ) {
61+ Tags (t , KftoCuda )
62+ runKFTOPyTorchJob (t , GetTrainingCudaPyTorch28Image (), NVIDIA , 2 , 0 )
63+ }
64+
5565func TestPyTorchJobMultiNodeSingleGpuWithCudaPyTorch241 (t * testing.T ) {
5666 Tags (t , KftoCuda )
5767 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch241Image (), NVIDIA , 1 , 1 )
@@ -62,6 +72,11 @@ func TestPyTorchJobMultiNodeSingleGpuWithCudaPyTorch251(t *testing.T) {
6272 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch251Image (), NVIDIA , 1 , 1 )
6373}
6474
75+ func TestPyTorchJobMultiNodeSingleGpuWithCudaPyTorch28 (t * testing.T ) {
76+ Tags (t , KftoCuda )
77+ runKFTOPyTorchJob (t , GetTrainingCudaPyTorch28Image (), NVIDIA , 1 , 1 )
78+ }
79+
6580func TestPyTorchJobMultiNodeMultiGpuWithCudaPyTorch241 (t * testing.T ) {
6681 Tags (t , KftoCuda )
6782 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch241Image (), NVIDIA , 2 , 1 )
@@ -72,6 +87,11 @@ func TestPyTorchJobMultiNodeMultiGpuWithCudaPyTorch251(t *testing.T) {
7287 runKFTOPyTorchJob (t , GetTrainingCudaPyTorch251Image (), NVIDIA , 2 , 1 )
7388}
7489
90+ func TestPyTorchJobMultiNodeMultiGpuWithCudaPyTorch28 (t * testing.T ) {
91+ Tags (t , KftoCuda )
92+ runKFTOPyTorchJob (t , GetTrainingCudaPyTorch28Image (), NVIDIA , 2 , 1 )
93+ }
94+
7595func TestPyTorchJobSingleNodeSingleGpuWithROCmPyTorch241 (t * testing.T ) {
7696 Tags (t , Tier1 , Gpu (AMD ))
7797 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch241Image (), AMD , 1 , 0 )
@@ -82,6 +102,11 @@ func TestPyTorchJobSingleNodeSingleGpuWithROCmPyTorch251(t *testing.T) {
82102 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch251Image (), AMD , 1 , 0 )
83103}
84104
105+ func TestPyTorchJobSingleNodeSingleGpuWithROCmPyTorch28 (t * testing.T ) {
106+ Tags (t , Tier1 , Gpu (AMD ))
107+ runKFTOPyTorchJob (t , GetTrainingRocmPyTorch28Image (), AMD , 1 , 0 )
108+ }
109+
85110func TestPyTorchJobSingleNodeMultiGpuWithROCmPyTorch241 (t * testing.T ) {
86111 Tags (t , KftoRocm )
87112 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch241Image (), AMD , 2 , 0 )
@@ -92,6 +117,11 @@ func TestPyTorchJobSingleNodeMultiGpuWithROCmPyTorch251(t *testing.T) {
92117 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch251Image (), AMD , 2 , 0 )
93118}
94119
120+ func TestPyTorchJobSingleNodeMultiGpuWithROCmPyTorch28 (t * testing.T ) {
121+ Tags (t , KftoRocm )
122+ runKFTOPyTorchJob (t , GetTrainingRocmPyTorch28Image (), AMD , 2 , 0 )
123+ }
124+
95125func TestPyTorchJobMultiNodeSingleGpuWithROCmPyTorch241 (t * testing.T ) {
96126 Tags (t , KftoRocm )
97127 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch241Image (), AMD , 1 , 1 )
@@ -102,6 +132,11 @@ func TestPyTorchJobMultiNodeSingleGpuWithROCmPyTorch251(t *testing.T) {
102132 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch251Image (), AMD , 1 , 1 )
103133}
104134
135+ func TestPyTorchJobMultiNodeSingleGpuWithROCmPyTorch28 (t * testing.T ) {
136+ Tags (t , KftoRocm )
137+ runKFTOPyTorchJob (t , GetTrainingRocmPyTorch28Image (), AMD , 1 , 1 )
138+ }
139+
105140func TestPyTorchJobMultiNodeMultiGpuWithROCmPyTorch241 (t * testing.T ) {
106141 Tags (t , KftoRocm )
107142 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch241Image (), AMD , 2 , 1 )
@@ -112,6 +147,11 @@ func TestPyTorchJobMultiNodeMultiGpuWithROCmPyTorch251(t *testing.T) {
112147 runKFTOPyTorchJob (t , GetTrainingROCmPyTorch251Image (), AMD , 2 , 1 )
113148}
114149
150+ func TestPyTorchJobMultiNodeMultiGpuWithROCmPyTorch28 (t * testing.T ) {
151+ Tags (t , KftoRocm )
152+ runKFTOPyTorchJob (t , GetTrainingRocmPyTorch28Image (), AMD , 2 , 1 )
153+ }
154+
115155func runKFTOPyTorchJob (t * testing.T , image string , gpu Accelerator , numGpus , numberOfWorkerNodes int ) {
116156 test := With (t )
117157
@@ -263,7 +303,7 @@ func createKFTOPyTorchJob(test Test, namespace string, config corev1.ConfigMap,
263303 {
264304 Name : "pytorch" ,
265305 Image : baseImage ,
266- ImagePullPolicy : corev1 .PullIfNotPresent ,
306+ ImagePullPolicy : corev1 .PullAlways ,
267307 Command : []string {
268308 "/bin/bash" , "-c" ,
269309 `torchrun /etc/config/hf_llm_training.py \
@@ -432,7 +472,7 @@ func createKFTOPyTorchJob(test Test, namespace string, config corev1.ConfigMap,
432472 {
433473 Name : "pytorch" ,
434474 Image : baseImage ,
435- ImagePullPolicy : corev1 .PullIfNotPresent ,
475+ ImagePullPolicy : corev1 .PullAlways ,
436476 Command : []string {
437477 "/bin/bash" , "-c" ,
438478 `torchrun /etc/config/hf_llm_training.py \
0 commit comments