Reapply "Revert 'Adds X-Request-LightspeedUser to WCA requests"

mabashian · web-flow · commit aab6c21cb240 · 2025-06-05T16:36:04.000-04:00
Adds more healthcheck request testing
Removes api_key from infer_from_parameters
diff --git a/ansible_ai_connect/ai/api/model_pipelines/dummy/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/dummy/pipelines.py
@@ -83,7 +83,7 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         response_body["model_id"] = "_"
         return response_body
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> HealthCheckSummary:
diff --git a/ansible_ai_connect/ai/api/model_pipelines/http/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/http/pipelines.py
@@ -122,7 +122,7 @@ def self_test(self) -> HealthCheckSummary:
             )
         return summary
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
 
diff --git a/ansible_ai_connect/ai/api/model_pipelines/langchain/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/langchain/pipelines.py
@@ -233,7 +233,7 @@ def self_test(self) -> HealthCheckSummary:
     def get_chat_model(self, model_id):
         raise NotImplementedError
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
 
diff --git a/ansible_ai_connect/ai/api/model_pipelines/llamacpp/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/llamacpp/pipelines.py
@@ -126,7 +126,7 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         except requests.exceptions.Timeout:
             raise ModelTimeoutError
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> HealthCheckSummary:
diff --git a/ansible_ai_connect/ai/api/model_pipelines/nop/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/nop/pipelines.py
@@ -64,7 +64,7 @@ def __init__(self, config: NopConfiguration):
     def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         raise FeatureNotAvailable
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> HealthCheckSummary:
diff --git a/ansible_ai_connect/ai/api/model_pipelines/ollama/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/ollama/pipelines.py
@@ -53,7 +53,7 @@ class OllamaCompletionsPipeline(LangchainCompletionsPipeline[OllamaConfiguration
     def __init__(self, config: OllamaConfiguration):
         super().__init__(config=config)
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> HealthCheckSummary:
diff --git a/ansible_ai_connect/ai/api/model_pipelines/pipelines.py b/ansible_ai_connect/ai/api/model_pipelines/pipelines.py
@@ -335,7 +335,7 @@ def alias():
         return "model-server"
 
     @abstractmethod
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
 
diff --git a/ansible_ai_connect/ai/api/model_pipelines/tests/test_wca_client.py b/ansible_ai_connect/ai/api/model_pipelines/tests/test_wca_client.py
@@ -58,6 +58,7 @@
 from ansible_ai_connect.ai.api.model_pipelines.tests import mock_pipeline_config
 from ansible_ai_connect.ai.api.model_pipelines.wca.pipelines_base import (
     WCA_REQUEST_ID_HEADER,
+    WCA_REQUEST_USER_UUID_HEADER,
     ibm_cloud_identity_token_hist,
     ibm_cloud_identity_token_retry_counter,
     wca_codegen_hist,
@@ -846,6 +847,7 @@ def _do_inference(
     ):
         model_id = "zavala"
         api_key = "abc123"
+        user_uuid = str(uuid.uuid4())
         context = ""
         prompt = prompt if prompt else "- name: install ffmpeg on Red Hat Enterprise Linux"
 
@@ -874,13 +876,14 @@ def _do_inference(
         response = MockResponse(
             json=predictions,
             status_code=200,
-            headers={WCA_REQUEST_ID_HEADER: request_id},
+            headers={WCA_REQUEST_ID_HEADER: request_id, WCA_REQUEST_USER_UUID_HEADER: user_uuid},
         )
 
         requestHeaders = {
             "Content-Type": "application/json",
             "Authorization": f"Bearer {token['access_token']}",
             WCA_REQUEST_ID_HEADER: suggestion_id,
+            WCA_REQUEST_USER_UUID_HEADER: user_uuid,
         }
 
         model_client = WCASaaSCompletionsPipeline(self.config)
@@ -889,9 +892,13 @@ def _do_inference(
         model_client.get_model_id = Mock(return_value=model_id)
         model_client.get_api_key = Mock(return_value=api_key)
 
+        mock_request = Mock()
+        mock_request.user = Mock()
+        mock_request.user.uuid = user_uuid
+
         result = model_client.invoke(
             CompletionsParameters.init(
-                request=Mock(),
+                request=mock_request,
                 model_input=model_input,
                 model_id=model_id,
                 suggestion_id=suggestion_id,
@@ -1485,6 +1492,7 @@ def test_get_model_id_without_setting(self):
 class TestWCAOnPremCodegen(WisdomServiceLogAwareTestCase):
     prompt = "- name: install ffmpeg on Red Hat Enterprise Linux"
     suggestion_id = "suggestion_id"
+    user_uuid = str(uuid.uuid4())
     token = base64.b64encode(bytes("username:12345", "ascii")).decode("ascii")
     codegen_data = {
         "model_id": "model-name",
@@ -1493,6 +1501,7 @@ class TestWCAOnPremCodegen(WisdomServiceLogAwareTestCase):
     request_headers = {
         "Authorization": f"ZenApiKey {token}",
         WCA_REQUEST_ID_HEADER: suggestion_id,
+        WCA_REQUEST_USER_UUID_HEADER: user_uuid,
     }
     model_input = {
         "instances": [
@@ -1519,9 +1528,13 @@ def setUp(self):
         self.model_client.session.post = Mock(return_value=MockResponse(json={}, status_code=200))
 
     def test_headers(self):
+        mock_request = Mock()
+        mock_request.user = Mock()
+        mock_request.user.uuid = self.user_uuid
+
         self.model_client.invoke(
             CompletionsParameters.init(
-                request=Mock(), model_input=self.model_input, suggestion_id=self.suggestion_id
+                request=mock_request, model_input=self.model_input, suggestion_id=self.suggestion_id
             ),
         )
         self.model_client.session.post.assert_called_once_with(
@@ -1533,10 +1546,13 @@ def test_headers(self):
         )
 
     def test_disabled_model_server_ssl(self):
+        mock_request = Mock()
+        mock_request.user = Mock()
+        mock_request.user.uuid = self.user_uuid
         self.config.verify_ssl = False
         self.model_client.invoke(
             CompletionsParameters.init(
-                request=Mock(), model_input=self.model_input, suggestion_id=self.suggestion_id
+                request=mock_request, model_input=self.model_input, suggestion_id=self.suggestion_id
             ),
         )
         self.model_client.session.post.assert_called_once_with(
diff --git a/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_base.py b/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_base.py
@@ -81,6 +81,8 @@
 
 WCA_REQUEST_ID_HEADER = "X-Request-ID"
 
+WCA_REQUEST_USER_UUID_HEADER = "X-Request-LightspeedUser"
+
 # from django_prometheus.middleware.DEFAULT_LATENCY_BUCKETS
 DEFAULT_LATENCY_BUCKETS = (
     0.01,
@@ -243,6 +245,20 @@ class WCABasePipeline(
     def __init__(self, config: WCA_PIPELINE_CONFIGURATION):
         super().__init__(config=config)
 
+    def _prepare_request_headers(
+        self, request_user: Optional[User], api_key: str, identifier: Optional[str]
+    ) -> dict[str, Optional[str]]:
+        """
+        Helper method to extract user UUID and get request headers.
+        """
+        lightspeed_user_uuid_str: Optional[str] = None
+        if request_user and hasattr(request_user, "uuid"):
+            lightspeed_user_uuid_str = str(request_user.uuid)
+
+        return self.get_request_headers(
+            api_key, identifier, lightspeed_user_uuid=lightspeed_user_uuid_str
+        )
+
     @staticmethod
     def log_backoff_exception(details):
         _, exc, _ = sys.exc_info()
@@ -284,7 +300,7 @@ def on_backoff_explain_role(details):
 
     @abstractmethod
     def get_request_headers(
-        self, api_key: str, identifier: Optional[str]
+        self, api_key: str, identifier: Optional[str], lightspeed_user_uuid: Optional[str] = None
     ) -> dict[str, Optional[str]]:
         raise NotImplementedError
 
@@ -318,7 +334,10 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         try:
             api_key = self.get_api_key(request.user)
             model_id = self.get_model_id(request.user, model_id)
-            result = self.infer_from_parameters(api_key, model_id, context, prompt, suggestion_id)
+
+            headers = self._prepare_request_headers(request.user, api_key, suggestion_id)
+
+            result = self.infer_from_parameters(model_id, context, prompt, suggestion_id, headers)
 
             response = result.json()
             response["model_id"] = model_id
@@ -328,14 +347,13 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         except requests.exceptions.Timeout:
             raise ModelTimeoutError(model_id=model_id)
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         data = {
             "model_id": model_id,
             "prompt": f"{context}{prompt}",
         }
         logger.debug(f"Inference API request payload: {json.dumps(data)}")
 
-        headers = self.get_request_headers(api_key, suggestion_id)
         task_count = len(get_task_names_from_prompt(prompt))
         prediction_url = f"{self.config.inference_url}/v1/wca/codegen/ansible"
 
@@ -471,7 +489,8 @@ def invoke(self, params: PlaybookGenerationParameters) -> PlaybookGenerationResp
         api_key = self.get_api_key(request.user)
         model_id = self.get_model_id(request.user, model_id)
 
-        headers = self.get_request_headers(api_key, generation_id)
+        headers = self._prepare_request_headers(request.user, api_key, generation_id)
+
         data = {
             "model_id": model_id,
             "text": text,
@@ -553,7 +572,8 @@ def invoke(self, params: RoleGenerationParameters) -> RoleGenerationResponse:
         api_key = self.get_api_key(request.user)
         model_id = self.get_model_id(request.user, model_id)
 
-        headers = self.get_request_headers(api_key, generation_id)
+        headers = self._prepare_request_headers(request.user, api_key, generation_id)
+
         data = {
             "model_id": model_id,
             "text": text,
@@ -634,7 +654,8 @@ def invoke(self, params: PlaybookExplanationParameters) -> PlaybookExplanationRe
         api_key = self.get_api_key(request.user)
         model_id = self.get_model_id(request.user, model_id)
 
-        headers = self.get_request_headers(api_key, explanation_id)
+        headers = self._prepare_request_headers(request.user, api_key, explanation_id)
+
         data = {
             "model_id": model_id,
             "playbook": content,
@@ -696,7 +717,8 @@ def invoke(self, params: RoleExplanationParameters) -> RoleExplanationResponse:
         api_key = self.get_api_key(request.user)
         model_id = self.get_model_id(request.user, model_id)
 
-        headers = self.get_request_headers(api_key, explanation_id)
+        headers = self._prepare_request_headers(request.user, api_key, explanation_id)
+
         data = {
             "role_name": params.role_name,
             "model_id": model_id,
diff --git a/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_onprem.py b/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_onprem.py
@@ -47,6 +47,7 @@
 )
 from ansible_ai_connect.ai.api.model_pipelines.wca.pipelines_base import (
     WCA_REQUEST_ID_HEADER,
+    WCA_REQUEST_USER_UUID_HEADER,
     WCABaseCompletionsPipeline,
     WCABaseContentMatchPipeline,
     WCABaseMetaData,
@@ -114,12 +115,13 @@ def __init__(self, config: WCAOnPremConfiguration):
         # User may provide an override value if the setting is not defined.
 
     def get_request_headers(
-        self, api_key: str, identifier: Optional[str]
+        self, api_key: str, identifier: Optional[str], lightspeed_user_uuid: Optional[str] = None
     ) -> dict[str, Optional[str]]:
         base_headers = self._get_base_headers(api_key)
         return {
             **base_headers,
             WCA_REQUEST_ID_HEADER: str(identifier) if identifier else None,
+            WCA_REQUEST_USER_UUID_HEADER: lightspeed_user_uuid if lightspeed_user_uuid else None,
         }
 
     def _get_base_headers(self, api_key: str) -> dict[str, str]:
@@ -150,11 +152,14 @@ def self_test(self) -> HealthCheckSummary:
             }
         )
         try:
+            headers = self.get_request_headers(wca_api_key, None)
+
             self.infer_from_parameters(
-                wca_api_key,
                 wca_model_id,
                 "",
                 "- name: install ffmpeg on Red Hat Enterprise Linux",
+                None,
+                headers,
             )
         except Exception as e:
             logger.exception(str(e))
diff --git a/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_saas.py b/ansible_ai_connect/ai/api/model_pipelines/wca/pipelines_saas.py
@@ -57,6 +57,7 @@
 from ansible_ai_connect.ai.api.model_pipelines.wca.pipelines_base import (
     MODEL_MESH_HEALTH_CHECK_TOKENS,
     WCA_REQUEST_ID_HEADER,
+    WCA_REQUEST_USER_UUID_HEADER,
     WCABaseCompletionsPipeline,
     WCABaseContentMatchPipeline,
     WCABaseMetaData,
@@ -229,12 +230,13 @@ def __init__(self, config: WCASaaSConfiguration):
         super().__init__(config=config)
 
     def get_request_headers(
-        self, api_key: str, identifier: Optional[str]
+        self, api_key: str, identifier: Optional[str], lightspeed_user_uuid: Optional[str] = None
     ) -> dict[str, Optional[str]]:
         base_headers = self._get_base_headers(api_key)
         return {
             **base_headers,
             WCA_REQUEST_ID_HEADER: str(identifier) if identifier else None,
+            WCA_REQUEST_USER_UUID_HEADER: lightspeed_user_uuid if lightspeed_user_uuid else None,
         }
 
     def _get_base_headers(self, api_key: str) -> dict[str, str]:
@@ -265,11 +267,14 @@ def self_test(self) -> HealthCheckSummary:
             }
         )
         try:
+            headers = self.get_request_headers(wca_api_key, None)
+
             self.infer_from_parameters(
-                wca_api_key,
                 wca_model_id,
                 "",
                 "- name: install ffmpeg on Red Hat Enterprise Linux",
+                None,
+                headers=headers,
             )
         except WcaInferenceFailure as e:
             logger.exception(str(e))
diff --git a/ansible_ai_connect/ai/api/tests/test_completion_view.py b/ansible_ai_connect/ai/api/tests/test_completion_view.py
@@ -138,7 +138,7 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         # i.e., still receives 200 after 10 API calls...
         return self.response_data
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> Optional[HealthCheckSummary]:
diff --git a/ansible_ai_connect/ai/api/tests/test_views.py b/ansible_ai_connect/ai/api/tests/test_views.py
@@ -165,7 +165,7 @@ def invoke(self, params: CompletionsParameters) -> CompletionsResponse:
         # i.e., still receives 200 after 10 API calls...
         return self.response_data
 
-    def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):
+    def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):
         raise NotImplementedError
 
     def self_test(self) -> Optional[HealthCheckSummary]:
diff --git a/ansible_ai_connect/ai/api/wca/model_id_views.py b/ansible_ai_connect/ai/api/wca/model_id_views.py
@@ -218,7 +218,7 @@ def validate(api_key, model_id):
         ModelPipelineCompletions
     )
     model_mesh_client.infer_from_parameters(
-        api_key, model_id, "", "---\n- hosts: all\n  tasks:\n  - name: install ssh\n"
+        model_id, "", "---\n- hosts: all\n  tasks:\n  - name: install ssh\n"
     )
 
 
diff --git a/ansible_ai_connect/healthcheck/tests/test_healthcheck.py b/ansible_ai_connect/healthcheck/tests/test_healthcheck.py

Original file line number	Diff line number	Diff line change
`@@ -122,7 +122,7 @@ def self_test(self) -> HealthCheckSummary:`
`122`	`122`	`)`
`123`	`123`	`return summary`
`124`	`124`
`125`		`- def infer_from_parameters(self, api_key, model_id, context, prompt, suggestion_id=None):`
	`125`	`+ def infer_from_parameters(self, model_id, context, prompt, suggestion_id=None, headers=None):`
`126`	`126`	`raise NotImplementedError`
`127`	`127`
`128`	`128`