Use max_completion_tokens for OpenAI models on OCI GenAI

fede-kamel · fede-kamel · commit 077c87bce31e · 2026-03-27T08:31:26.000-04:00
OpenAI models served through OCI GenAI reject the max_tokens
parameter and require max_completion_tokens instead. Detect
provider=openai in the oci_langchain wrapper and use the correct
key in model_kwargs.
diff --git a/packages/nvidia_nat_langchain/src/nat/plugins/langchain/llm.py b/packages/nvidia_nat_langchain/src/nat/plugins/langchain/llm.py
@@ -244,7 +244,10 @@ async def oci_langchain(llm_config: OCIModelConfig, _builder: Builder):
     if llm_config.top_p is not None:
         model_kwargs["top_p"] = llm_config.top_p
     if llm_config.max_tokens is not None:
-        model_kwargs["max_tokens"] = llm_config.max_tokens
+        if llm_config.provider and llm_config.provider.lower() == "openai":
+            model_kwargs["max_completion_tokens"] = llm_config.max_tokens
+        else:
+            model_kwargs["max_tokens"] = llm_config.max_tokens
     if llm_config.seed is not None:
         model_kwargs["seed"] = llm_config.seed
 
diff --git a/packages/nvidia_nat_langchain/tests/test_llm_langchain.py b/packages/nvidia_nat_langchain/tests/test_llm_langchain.py
@@ -214,6 +214,30 @@ async def test_basic_creation(self, mock_get_chat, mock_create_client_kwargs, mo
             }
             assert client is mock_chat_class.return_value
 
+    @patch("oci.generative_ai_inference.GenerativeAiInferenceClient")
+    @patch("langchain_oci.common.auth.create_oci_client_kwargs")
+    @patch("nat.plugins.langchain.llm._get_langchain_oci_chat_model")
+    async def test_openai_provider_uses_max_completion_tokens(
+        self, mock_get_chat, mock_create_client_kwargs, mock_oci_client, mock_builder
+    ):
+        mock_chat_class = MagicMock()
+        mock_get_chat.return_value = mock_chat_class
+        mock_create_client_kwargs.return_value = {"config": {"region": "us-chicago-1"}}
+
+        cfg = OCIModelConfig(
+            model_name="openai.gpt-5.4",
+            compartment_id="ocid1.compartment.oc1..example",
+            endpoint="https://inference.generativeai.us-chicago-1.oci.oraclecloud.com",
+            provider="openai",
+            max_tokens=128,
+        )
+
+        async with oci_langchain(cfg, mock_builder) as client:
+            kwargs = mock_chat_class.call_args.kwargs
+            assert "max_completion_tokens" in kwargs["model_kwargs"]
+            assert "max_tokens" not in kwargs["model_kwargs"]
+            assert kwargs["model_kwargs"]["max_completion_tokens"] == 128
+
     @patch("nat.plugins.langchain.llm._get_langchain_oci_chat_model")
     async def test_api_type_validation(self, mock_get_chat, oci_cfg_wrong_api, mock_builder):
         with pytest.raises(ValueError):