Additional bug fixes for tests

aviruthen · aviruthen · commit 5608040e52d0 · 2025-12-08T15:52:38.000-08:00
diff --git a/sagemaker-core/pyproject.toml b/sagemaker-core/pyproject.toml
@@ -37,6 +37,7 @@ dependencies = [
     # Remote function dependencies
     "cloudpickle>=2.0.0",
     "paramiko>=2.11.0",
+    "tblib>=1.7.0",
 ]
 requires-python = ">=3.9"
 classifiers = [
diff --git a/sagemaker-serve/tests/integ/test_model_customization_deployment.py b/sagemaker-serve/tests/integ/test_model_customization_deployment.py
@@ -577,13 +577,15 @@ def training_job(self, setup_region):
             session=session,
             region="us-east-1")
 
+    @pytest.mark.skip(reason="Bedrock Nova deployment test skipped per team decision")
     def test_bedrock_model_builder_creation(self, training_job):
         """Test BedrockModelBuilder creation with Nova model."""
         bedrock_builder = BedrockModelBuilder(model=training_job)
         assert bedrock_builder is not None
         assert bedrock_builder.model == training_job
         assert bedrock_builder.s3_model_artifacts is not None
 
+    @pytest.mark.skip(reason="Bedrock Nova deployment test skipped per team decision")
     @pytest.mark.slow
     def test_nova_model_deployment(self, training_job):
         """Test Nova model deployment to Bedrock."""
diff --git a/sagemaker-train/src/sagemaker/train/evaluate/benchmark_evaluator.py b/sagemaker-train/src/sagemaker/train/evaluate/benchmark_evaluator.py
@@ -360,13 +360,7 @@ def _validate_subtasks(cls, v, values):
                             f"Subtask list cannot be empty for benchmark '{benchmark.value}'. "
                             f"Provide at least one subtask or use 'ALL'."
                         )
-                    if len(v) > 1 :
-                        raise ValueError(
-                            f"Currently only one subtask is supported for benchmark '{benchmark.value}'. "
-                            f"Provide only one subtask or use 'ALL'."
-                        )
 
-                    # TODO : Should support list of subtasks.
                     # Validate each subtask in the list
                     for subtask in v:
                         if not isinstance(subtask, str):
@@ -509,7 +503,7 @@ def _resolve_subtask_for_evaluation(self, subtask: Optional[Union[str, List[str]
         # Use provided subtask or fall back to constructor subtasks
         eval_subtask = subtask if subtask is not None else self.subtasks
 
-        if eval_subtask is None or eval_subtask.upper() == "ALL":
+        if eval_subtask is None or (isinstance(eval_subtask, str) and eval_subtask.upper() == "ALL"):
             #TODO : Check All Vs None subtask for evaluation
             return None
 
@@ -528,11 +522,13 @@ def _resolve_subtask_for_evaluation(self, subtask: Optional[Union[str, List[str]
                         f"Subtask list cannot be empty for benchmark '{self.benchmark.value}'. "
                         f"Provide at least one subtask or use 'ALL'."
                     )
-                if len(eval_subtask) > 1:
-                    raise ValueError(
-                        f"Currently only one subtask is supported for benchmark '{self.benchmark.value}'. "
-                        f"Provide only one subtask or use 'ALL'."
-                    )
+                # Validate each subtask in the list
+                for st in eval_subtask:
+                    if config.get("subtasks") and st not in config["subtasks"]:
+                        raise ValueError(
+                            f"Invalid subtask '{st}' for benchmark '{self.benchmark.value}'. "
+                            f"Available subtasks: {', '.join(config['subtasks'])}"
+                        )
 
         
         return eval_subtask
@@ -568,6 +564,9 @@ def _get_benchmark_template_additions(self, eval_subtask: Optional[Union[str, Li
         
         if isinstance(eval_subtask, str):
             benchmark_context['subtask'] = eval_subtask
+        elif isinstance(eval_subtask, list):
+            # Convert list to comma-separated string
+            benchmark_context['subtask'] = ','.join(eval_subtask)
 
         # Add all configured hyperparameters
         for key in configured_params.keys():

Original file line number	Diff line number	Diff line change
`@@ -37,6 +37,7 @@ dependencies = [`
`37`	`37`	`# Remote function dependencies`
`38`	`38`	`"cloudpickle>=2.0.0",`
`39`	`39`	`"paramiko>=2.11.0",`
	`40`	`+ "tblib>=1.7.0",`
`40`	`41`	`]`
`41`	`42`	`requires-python = ">=3.9"`
`42`	`43`	`classifiers = [`