Add Cerebras model support with official SDK

sebastiand-cerebras · sebastiand-cerebras · commit 376573e15f61 · 2025-11-20T09:42:28.000-08:00
Implement CerebrasModel and CerebrasProvider using cerebras-cloud-sdk
to provide ultra-fast inference powered by Cerebras Wafer-Scale Engine.

Key features:
- CerebrasModel extends OpenAIChatModel with web search disabled
- Custom _completions_create override to handle SDK compatibility:
  - Filters OMIT and NOT_GIVEN parameters
  - Removes unsupported web_search_options parameter
  - Converts Cerebras SDK response to OpenAI ChatCompletion format
- CerebrasProvider uses AsyncCerebras client from cerebras-cloud-sdk
- Updated KnownModelName with current Cerebras model list
diff --git a/docs/models/cerebras.md b/docs/models/cerebras.md
@@ -2,10 +2,16 @@
 
 ## Install
 
-To use `CerebrasModel`, you need to either install `pydantic-ai`, or install `pydantic-ai-slim` with the `cerebras` optional group:
+To use `CerebrasModel`, you need to either install `pydantic-ai`, or install `pydantic-ai-slim` with the `cerebras` optional group (which installs the `cerebras-cloud-sdk`):
 
 ```bash
-pip/uv-add "pydantic-ai-slim[cerebras]"
+pip install "pydantic-ai-slim[cerebras]"
+```
+
+or
+
+```bash
+uv add "pydantic-ai-slim[cerebras]"
 ```
 
 ## Configuration
diff --git a/pydantic_ai_slim/pydantic_ai/models/__init__.py b/pydantic_ai_slim/pydantic_ai/models/__init__.py
@@ -134,7 +134,6 @@
         'cerebras:llama-3.3-70b',
         'cerebras:llama3.1-8b',
         'cerebras:qwen-3-235b-a22b-instruct-2507',
-        'cerebras:qwen-3-235b-a22b-thinking-2507',
         'cerebras:qwen-3-32b',
         'cerebras:zai-glm-4.6',
         'cohere:c4ai-aya-expanse-32b',
diff --git a/pydantic_ai_slim/pydantic_ai/models/cerebras.py b/pydantic_ai_slim/pydantic_ai/models/cerebras.py
@@ -24,11 +24,11 @@
 __all__ = ('CerebrasModel', 'CerebrasModelName')
 
 CerebrasModelName = Literal[
+    'gpt-oss-120b',
     'llama-3.3-70b',
-    'llama-4-scout-17b-16e-instruct',
+    'llama3.1-8b',
     'qwen-3-235b-a22b-instruct-2507',
     'qwen-3-32b',
-    'gpt-oss-120b',
     'zai-glm-4.6',
 ]
 
@@ -93,3 +93,54 @@ def _cerebras_model_profile(self, model_name: str) -> ModelProfile:
         return OpenAIModelProfile(
             openai_chat_supports_web_search=False,
         ).update(base_profile)
+
+    async def _completions_create(
+        self,
+        messages: list[Any],
+        stream: bool,
+        model_settings: dict[str, Any],
+        model_request_parameters: Any,
+    ) -> Any:
+        """Override to remove web_search_options parameter and convert Cerebras response to OpenAI format."""
+        from openai._types import NOT_GIVEN
+        from openai.types.chat import ChatCompletion
+
+        # Get the original client method
+        original_create = self.client.chat.completions.create
+
+        # Create a wrapper that removes web_search_options and filters OMIT values
+        async def create_without_web_search(**kwargs):
+            # Remove web_search_options if present
+            kwargs.pop('web_search_options', None)
+
+            # Remove all keys with OMIT or NOT_GIVEN values
+            keys_to_remove = []
+            for key, value in kwargs.items():
+                # Check if it's OMIT by checking the type name
+                if hasattr(value, '__class__') and value.__class__.__name__ == 'Omit':
+                    keys_to_remove.append(key)
+                elif value is NOT_GIVEN:
+                    keys_to_remove.append(key)
+
+            for key in keys_to_remove:
+                del kwargs[key]
+
+            # Call Cerebras SDK
+            cerebras_response = await original_create(**kwargs)
+
+            # Convert Cerebras response to OpenAI ChatCompletion
+            # The Cerebras SDK returns a compatible structure, we just need to convert the type
+            response_dict = (
+                cerebras_response.model_dump() if hasattr(cerebras_response, 'model_dump') else cerebras_response
+            )
+            return ChatCompletion.model_validate(response_dict)
+
+        # Temporarily replace the method
+        self.client.chat.completions.create = create_without_web_search  # type: ignore
+
+        try:
+            # Call the parent implementation
+            return await super()._completions_create(messages, stream, model_settings, model_request_parameters)  # type: ignore
+        finally:
+            # Restore the original method
+            self.client.chat.completions.create = original_create  # type: ignore
diff --git a/pydantic_ai_slim/pydantic_ai/providers/cerebras.py b/pydantic_ai_slim/pydantic_ai/providers/cerebras.py
@@ -31,7 +31,7 @@ def name(self) -> str:
 
     @property
     def base_url(self) -> str:
-        return 'https://api.cerebras.ai/v1'
+        return 'https://api.cerebras.ai'
 
     @property
     def client(self) -> AsyncCerebras:
@@ -83,7 +83,7 @@ def __init__(
             self._client = cerebras_client
         else:
             api_key = api_key or os.getenv('CEREBRAS_API_KEY')
-            base_url = base_url or 'https://api.cerebras.ai/v1'
+            base_url = base_url or 'https://api.cerebras.ai'
 
             if not api_key:
                 raise UserError(
diff --git a/tests/models/cassettes/test_model_names/test_known_model_names.yaml b/tests/models/cassettes/test_model_names/test_known_model_names.yaml
@@ -108,4 +108,57 @@ interactions:
     status:
       code: 200
       message: OK
+- request:
+    body: ''
+    headers:
+      accept:
+      - application/json
+      connection:
+      - keep-alive
+      host:
+      - api.cerebras.ai
+    method: GET
+    uri: https://api.cerebras.ai/v1/models
+  response:
+    headers:
+      alt-svc:
+      - h3=":443"; ma=86400
+      content-length:
+      - '479'
+      content-type:
+      - application/json
+      referrer-policy:
+      - strict-origin-when-cross-origin
+      strict-transport-security:
+      - max-age=3600; includeSubDomains
+    parsed_body:
+      data:
+      - created: 0
+        id: llama-3.3-70b
+        object: model
+        owned_by: Cerebras
+      - created: 0
+        id: llama3.1-8b
+        object: model
+        owned_by: Cerebras
+      - created: 0
+        id: zai-glm-4.6
+        object: model
+        owned_by: Cerebras
+      - created: 0
+        id: qwen-3-32b
+        object: model
+        owned_by: Cerebras
+      - created: 0
+        id: gpt-oss-120b
+        object: model
+        owned_by: Cerebras
+      - created: 0
+        id: qwen-3-235b-a22b-instruct-2507
+        object: model
+        owned_by: Cerebras
+      object: list
+    status:
+      code: 200
+      message: OK
 version: 1