Use newer SDK parameters to set Ray head requests and limits

astefanutti · openshift-merge-bot[bot] · commit 83f04f8872f5 · 2024-10-18T06:34:35.000Z
diff --git a/examples/ray-finetune-llm-deepspeed/ray_finetune_llm_deepspeed.ipynb b/examples/ray-finetune-llm-deepspeed/ray_finetune_llm_deepspeed.ipynb
@@ -63,10 +63,12 @@
     "    num_workers=7,\n",
     "    worker_cpu_requests=16,\n",
     "    worker_cpu_limits=16,\n",
-    "    head_cpus=16,\n",
+    "    head_cpu_requests=16,\n",
+    "    head_cpu_limits=16,\n",
     "    worker_memory_requests=128,\n",
     "    worker_memory_limits=256,\n",
-    "    head_memory=128,\n",
+    "    head_memory_requests=128,\n",
+    "    head_memory_limits=256,\n",
     "    # Use the following parameters with NVIDIA GPUs\n",
     "    image=\"quay.io/rhoai/ray:2.35.0-py39-cu121-torch24-fa26\",\n",
     "    head_extended_resource_requests={'nvidia.com/gpu':1},\n",
diff --git a/tests/odh/ray_finetune_llm_deepspeed_test.go b/tests/odh/ray_finetune_llm_deepspeed_test.go
@@ -59,14 +59,16 @@ func rayFinetuneLlmDeepspeed(t *testing.T, numGpus int, modelName string, modelC
 		"token = ''":                                fmt.Sprintf("token = '%s'", userToken),
 		"server = ''":                               fmt.Sprintf("server = '%s'", GetOpenShiftApiUrl(test)),
 		"namespace='ray-finetune-llm-deepspeed'":    fmt.Sprintf("namespace='%s'", namespace.Name),
-		"head_cpus=16":                              "head_cpus=2",
+		"head_cpu_requests=16":                      "head_cpu_requests=2",
+		"head_cpu_limits=16":                        "head_cpu_limits=2",
 		"head_extended_resource_requests=1":         "head_extended_resource_requests=0",
 		"num_workers=7":                             "num_workers=1",
 		"worker_cpu_requests=16":                    "worker_cpu_requests=4",
 		"worker_cpu_limits=16":                      "worker_cpu_limits=4",
 		"worker_memory_requests=128":                "worker_memory_requests=64",
 		"worker_memory_limits=256":                  "worker_memory_limits=128",
-		"head_memory=128":                           "head_memory=48",
+		"head_memory_requests=128":                  "head_memory_requests=48",
+		"head_memory_limits=256":                    "head_memory_limits=48",
 		"client = cluster.job_client":               "ray_dashboard = cluster.cluster_dashboard_uri()\\n\",\n\t\"header = {\\\"Authorization\\\": \\\"Bearer " + userToken + "\\\"}\\n\",\n\t\"client = RayJobClient(address=ray_dashboard, headers=header, verify=False)\\n",
 		"--num-devices=8":                           fmt.Sprintf("--num-devices=%d", numGpus),
 		"--num-epochs=3":                            fmt.Sprintf("--num-epochs=%d", 1),