Add support for configurable pod scheduling options when transformer workers are launched

BenGalewsky · BenGalewsky · commit 4220caa0f6c3 · 2026-01-30T16:04:49.000-06:00
diff --git a/docs/deployment/reference.md b/docs/deployment/reference.md
@@ -132,6 +132,10 @@ parameters for the [rabbitMQ](https://github.com/bitnami/charts/tree/master/bitn
 | `transformer.autoscaler.minReplicas`         | Minimum number of transformer pods per request                                                                                                                                                                                     | 1                                              |
 | `transformer.autoscaler.maxReplicas`         | Maximum number of transformer pods per request                                                                                                                                                                                     | 20                                             |
 | `transformer.priorityClassName`              | priorityClassName for transformer pods (Not setting it means getting global default)                                                                                                                                               | Not Set                                        |
+| `transformer.nodeSelector`                   | Kubernetes nodeSelector for transformer pod scheduling                                                                                                                                                                             | `{}`                                           |
+| `transformer.tolerations`                    | Kubernetes tolerations for transformer pod scheduling                                                                                                                                                                              | `[]`                                           |
+| `transformer.affinity`                       | Kubernetes affinity rules for transformer pod scheduling                                                                                                                                                                           | `{}`                                           |
+| `transformer.podAnnotations`                 | Additional annotations to add to transformer pods                                                                                                                                                                                  | `{}`                                           |
 | `transformer.cpuLimit`                       | Set CPU resource limit for pod in number of cores                                                                                                                                                                                  | 1                                              |
 | `transformer.memoryLimit`                    | Set memory resource limit for pod (use Kubernetes units, e.g. [the Kubernetes documentation](https://kubernetes.io/docs/concepts/configuration/manage-resources-containers/#meaning-of-memory))                                    | 2Gi                                            |
 | `transformer.cpuRequest`                     | Set CPU resource request for pod in number of cores                                                                                                                                                                                | 500m                                           |
diff --git a/helm/servicex/templates/app/configmap.yaml b/helm/servicex/templates/app/configmap.yaml
@@ -129,6 +129,11 @@ data:
     TRANSFORMER_PERSISTENCE_PROVIDED_CLAIM = "{{ .Values.transformer.persistence.existingClaim }}"
     TRANSFORMER_PERSISTENCE_SUBDIR = "{{ .Values.transformer.persistence.subdir}}"
 
+    TRANSFORMER_NODE_SELECTOR = {{ .Values.transformer.nodeSelector | toJson }}
+    TRANSFORMER_TOLERATIONS = {{ .Values.transformer.tolerations | toJson }}
+    TRANSFORMER_AFFINITY = {{ .Values.transformer.affinity | toJson }}
+    TRANSFORMER_POD_ANNOTATIONS = {{ .Values.transformer.podAnnotations | toJson }}
+
 
     {{ if .Values.objectStore.enabled }}
     OBJECT_STORE_ENABLED = True
diff --git a/helm/servicex/values.yaml b/helm/servicex/values.yaml
@@ -387,6 +387,10 @@ transformer:
     existingClaim: null
     subdir: null
   priorityClassName: null
+  nodeSelector: {}
+  tolerations: []
+  affinity: {}
+  podAnnotations: {}
 x509Secrets:
   image: sslhep/x509-secrets
   initImage: alpine:3.6
diff --git a/servicex_app/servicex_app/transformer_manager.py b/servicex_app/servicex_app/transformer_manager.py
@@ -339,14 +339,35 @@ def create_job_object(
         )
 
         # Create and Configure a spec section
+        pod_annotations = current_app.config.get("TRANSFORMER_POD_ANNOTATIONS", {})
+        node_selector = current_app.config.get("TRANSFORMER_NODE_SELECTOR", {})
+        tolerations_config = current_app.config.get("TRANSFORMER_TOLERATIONS", [])
+        affinity_config = current_app.config.get("TRANSFORMER_AFFINITY", {})
+
+        # Convert tolerations from config dicts to V1Toleration objects
+        tolerations = None
+        if tolerations_config:
+            tolerations = [client.V1Toleration(**t) for t in tolerations_config]
+
+        # Convert affinity from config dict to V1Affinity object
+        affinity = None
+        if affinity_config:
+            affinity = client.V1Affinity(**affinity_config)
+
         template = client.V1PodTemplateSpec(
-            metadata=client.V1ObjectMeta(labels={"app": "transformer-" + request_id}),
+            metadata=client.V1ObjectMeta(
+                labels={"app": "transformer-" + request_id},
+                annotations=pod_annotations if pod_annotations else None,
+            ),
             spec=client.V1PodSpec(
                 restart_policy="Always",
                 termination_grace_period_seconds=TransformerManager.POD_TERMINATION_GRACE_PERIOD,
                 priority_class_name=current_app.config.get(
                     "TRANSFORMER_PRIORITY_CLASS", None
                 ),
+                node_selector=node_selector if node_selector else None,
+                tolerations=tolerations,
+                affinity=affinity,
                 containers=[
                     sidecar,
                     science_container,
diff --git a/servicex_app/servicex_app_test/test_transformer_manager.py b/servicex_app/servicex_app_test/test_transformer_manager.py
@@ -1095,3 +1095,154 @@ def test_get_all_hpas(self, mocker, mock_kubernetes):
         with client.application.app_context():
             hpas = transformer_manager.get_all_transformer_hpas()
             assert hpas == [mock_hpa]
+
+    def test_launch_transformer_with_pod_scheduling_options(self, mocker):
+        import kubernetes
+
+        mocker.patch.object(kubernetes.config, "load_kube_config")
+        mock_kubernetes = mocker.patch.object(kubernetes.client, "AppsV1Api")
+
+        mock_autoscaling = mocker.Mock()
+        mocker.patch.object(
+            kubernetes.client, "AutoscalingV1Api", return_value=mock_autoscaling
+        )
+
+        transformer = TransformerManager("external-kubernetes")
+        transformer.persistent_volume_claim_exists = mocker.Mock(return_value=True)
+
+        node_selector = {"disktype": "ssd", "region": "us-west"}
+        tolerations = [
+            {
+                "key": "dedicated",
+                "operator": "Equal",
+                "value": "servicex",
+                "effect": "NoSchedule",
+            },
+            {
+                "key": "gpu",
+                "operator": "Exists",
+                "effect": "NoExecute",
+                "toleration_seconds": 3600,
+            },
+        ]
+        affinity = {
+            "node_affinity": {
+                "required_during_scheduling_ignored_during_execution": {
+                    "node_selector_terms": [
+                        {
+                            "match_expressions": [
+                                {
+                                    "key": "topology.kubernetes.io/zone",
+                                    "operator": "In",
+                                    "values": ["us-west-1a", "us-west-1b"],
+                                }
+                            ]
+                        }
+                    ]
+                }
+            }
+        }
+        pod_annotations = {
+            "prometheus.io/scrape": "true",
+            "prometheus.io/port": "8080",
+        }
+
+        client = self._test_client(
+            extra_config=make_config(
+                TRANSFORMER_AUTOSCALE_ENABLED=False,
+                TRANSFORMER_NODE_SELECTOR=node_selector,
+                TRANSFORMER_TOLERATIONS=tolerations,
+                TRANSFORMER_AFFINITY=affinity,
+                TRANSFORMER_POD_ANNOTATIONS=pod_annotations,
+            ),
+            transformation_manager=transformer,
+        )
+
+        with client.application.app_context():
+            transformer.launch_transformer_jobs(
+                image="sslhep/servicex-transformer:pytest",
+                request_id="1234",
+                workers=17,
+                max_workers=17,
+                rabbitmq_uri="ampq://test.com",
+                namespace="my-ns",
+                result_destination="object-store",
+                result_format="arrow",
+                x509_secret="x509",
+                generated_code_cm=None,
+                transformer_language="scala",
+                transformer_command="echo",
+            )
+            called_deployment = mock_kubernetes.mock_calls[1][2]["body"]
+            template = called_deployment.spec.template
+
+            # Verify pod annotations
+            assert template.metadata.annotations == pod_annotations
+
+            # Verify node selector
+            assert template.spec.node_selector == node_selector
+
+            # Verify tolerations
+            assert len(template.spec.tolerations) == 2
+            assert template.spec.tolerations[0].key == "dedicated"
+            assert template.spec.tolerations[0].operator == "Equal"
+            assert template.spec.tolerations[0].value == "servicex"
+            assert template.spec.tolerations[0].effect == "NoSchedule"
+            assert template.spec.tolerations[1].key == "gpu"
+            assert template.spec.tolerations[1].operator == "Exists"
+            assert template.spec.tolerations[1].effect == "NoExecute"
+            assert template.spec.tolerations[1].toleration_seconds == 3600
+
+            # Verify affinity
+            assert template.spec.affinity is not None
+            assert template.spec.affinity.node_affinity is not None
+
+    def test_launch_transformer_with_empty_pod_scheduling_options(self, mocker):
+        import kubernetes
+
+        mocker.patch.object(kubernetes.config, "load_kube_config")
+        mock_kubernetes = mocker.patch.object(kubernetes.client, "AppsV1Api")
+
+        mock_autoscaling = mocker.Mock()
+        mocker.patch.object(
+            kubernetes.client, "AutoscalingV1Api", return_value=mock_autoscaling
+        )
+
+        transformer = TransformerManager("external-kubernetes")
+        transformer.persistent_volume_claim_exists = mocker.Mock(return_value=True)
+
+        # Test with empty/default values
+        client = self._test_client(
+            extra_config=make_config(
+                TRANSFORMER_AUTOSCALE_ENABLED=False,
+                TRANSFORMER_NODE_SELECTOR={},
+                TRANSFORMER_TOLERATIONS=[],
+                TRANSFORMER_AFFINITY={},
+                TRANSFORMER_POD_ANNOTATIONS={},
+            ),
+            transformation_manager=transformer,
+        )
+
+        with client.application.app_context():
+            transformer.launch_transformer_jobs(
+                image="sslhep/servicex-transformer:pytest",
+                request_id="1234",
+                workers=17,
+                max_workers=17,
+                rabbitmq_uri="ampq://test.com",
+                namespace="my-ns",
+                result_destination="object-store",
+                result_format="arrow",
+                x509_secret="x509",
+                generated_code_cm=None,
+                transformer_language="scala",
+                transformer_command="echo",
+            )
+            called_deployment = mock_kubernetes.mock_calls[1][2]["body"]
+            template = called_deployment.spec.template
+
+            # Verify empty values result in None (not empty dicts/lists)
+            assert template.metadata.annotations is None
+            assert template.spec.node_selector is None
+            assert template.spec.tolerations is None
+            assert template.spec.affinity is None