feat(models): add gemini 3 and add forced params to models

daltonnyx · daltonnyx · commit 70a76c28e183 · 2025-11-19T11:11:53.000+07:00
diff --git a/AgentCrew/__init__.py b/AgentCrew/__init__.py
@@ -1 +1 @@
-__version__ = "0.8.2"
+__version__ = "0.8.3"
diff --git a/AgentCrew/modules/custom_llm/service.py b/AgentCrew/modules/custom_llm/service.py
@@ -121,16 +121,38 @@ async def stream_assistant_response(self, messages):
             # "max_tokens": 16000,
         }
         stream_params["temperature"] = self.temperature
-        stream_params["extra_body"] = {"min_p": 0.1}
+        stream_params["extra_body"] = {"min_p": 0.02}
 
+        full_model_id = f"{self._provider_name}/{self.model}"
+
+        forced_sample_params = ModelRegistry.get_model_sample_params(full_model_id)
+        if forced_sample_params:
+            if forced_sample_params.temperature is not None:
+                stream_params["temperature"] = forced_sample_params.temperature
+            if forced_sample_params.top_p is not None:
+                stream_params["top_p"] = forced_sample_params.top_p
+            if forced_sample_params.top_k is not None:
+                stream_params["extra_body"]["top_k"] = forced_sample_params.top_k
+            if forced_sample_params.frequency_penalty is not None:
+                stream_params["frequency_penalty"] = (
+                    forced_sample_params.frequency_penalty
+                )
+            if forced_sample_params.presence_penalty is not None:
+                stream_params["presence_penalty"] = (
+                    forced_sample_params.presence_penalty
+                )
+            if forced_sample_params.repetition_penalty is not None:
+                stream_params["extra_body"]["repetition_penalty"] = (
+                    forced_sample_params.repetition_penalty
+                )
+            if forced_sample_params.min_p is not None:
+                stream_params["extra_body"]["min_p"] = forced_sample_params.min_p
         # Add system message if provided
         if self.system_prompt:
             stream_params["messages"] = self._convert_internal_format(
                 [{"role": "system", "content": self.system_prompt}] + messages
             )
 
-        full_model_id = f"{self._provider_name}/{self.model}"
-
         # Add tools if available
         if self.tools and "tool_use" in ModelRegistry.get_model_capabilities(
             full_model_id
diff --git a/AgentCrew/modules/google/native_service.py b/AgentCrew/modules/google/native_service.py
@@ -393,6 +393,19 @@ async def stream_assistant_response(self, messages: List[Dict[str, Any]]) -> Any
             top_p=0.95,
         )
 
+        forced_sample_params = ModelRegistry.get_model_sample_params(full_model_id)
+        if forced_sample_params:
+            if forced_sample_params.temperature is not None:
+                config.temperature = forced_sample_params.temperature
+            if forced_sample_params.top_p is not None:
+                config.top_p = forced_sample_params.top_p
+            if forced_sample_params.top_k is not None:
+                config.top_k = forced_sample_params.top_k
+            if forced_sample_params.frequency_penalty is not None:
+                config.frequency_penalty = forced_sample_params.frequency_penalty
+            if forced_sample_params.presence_penalty is not None:
+                config.presence_penalty = forced_sample_params.presence_penalty
+
         # Add system instruction if available
         if self.system_prompt:
             config.system_instruction = self.system_prompt
diff --git a/AgentCrew/modules/llm/constants.py b/AgentCrew/modules/llm/constants.py
@@ -1,4 +1,4 @@
-from .types import Model
+from .types import Model, SampleParam
 
 _ANTHROPIC_MODELS = [
     Model(
@@ -227,6 +227,17 @@
         input_token_price_1m=1.25,
         output_token_price_1m=10,
     ),
+    Model(
+        id="gemini-3-pro-preview",
+        provider="google",
+        name="Gemini 3 Pro",
+        max_context_token=1_000_000,
+        description="Google's most intelligent model family to date, built on a foundation of state-of-the-art reasoning",
+        capabilities=["tool_use", "thinking", "vision", "structured_output"],
+        force_sample_params=SampleParam(temperature=1.0),
+        input_token_price_1m=2,
+        output_token_price_1m=12,
+    ),
 ]
 
 _DEEPINFRA_MODELS = [
@@ -254,6 +265,9 @@
         name="Qwen 3 Coder",
         description="Qwen3-Coder-480B-A35B-Instruct is the Qwen3's most agentic code model",
         capabilities=["tool_use", "stream", "structured_output"],
+        force_sample_params=SampleParam(
+            temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05
+        ),
         input_token_price_1m=0.4,
         output_token_price_1m=1.6,
     ),
@@ -263,6 +277,9 @@
         name="Qwen 3 Coder",
         description="Qwen3-Coder-480B-A35B-Instruct is the Qwen3's most agentic code model",
         capabilities=["tool_use", "stream", "structured_output"],
+        force_sample_params=SampleParam(
+            temperature=0.7, top_p=0.8, top_k=20, min_p=0.0
+        ),
         input_token_price_1m=0.14,
         output_token_price_1m=1.1,
     ),
@@ -272,6 +289,9 @@
         name="Qwen 3 MoE 235B-22B",
         description="Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models",
         capabilities=["tool_use", "thinking", "stream", "structured_output"],
+        force_sample_params=SampleParam(
+            temperature=0.6, top_p=0.95, top_k=20, min_p=0.0
+        ),
         input_token_price_1m=0.2,
         output_token_price_1m=0.6,
     ),
@@ -280,6 +300,7 @@
         provider="deepinfra",
         name="Zai GLM-4.6",
         description="The GLM-4.6 series models are foundation models designed for intelligent agents",
+        force_sample_params=SampleParam(temperature=1, top_p=0.95, top_k=40),
         capabilities=["tool_use", "stream", "structured_output"],
         input_token_price_1m=0.6,
         output_token_price_1m=2.0,
@@ -290,6 +311,9 @@
         name="Qwen 3 32B",
         description="Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models",
         capabilities=["tool_use", "stream", "structured_output"],
+        force_sample_params=SampleParam(
+            temperature=0.6, top_p=0.95, top_k=20, min_p=0.0
+        ),
         input_token_price_1m=0.1,
         output_token_price_1m=0.3,
     ),
@@ -308,6 +332,7 @@
         name="DeepSeek R1 0528",
         description="The DeepSeek R1 model has undergone a minor version upgrade, with the current version being DeepSeek-R1-0528.",
         capabilities=["tool_use", "thinking", "stream", "structured_output"],
+        force_sample_params=SampleParam(temperature=0.6),
         input_token_price_1m=0.5,
         output_token_price_1m=2.18,
     ),
@@ -317,6 +342,7 @@
         name="Kimi K2 Instruct",
         description="Kimi K2 is a large-scale Mixture-of-Experts (MoE) language model developed by Moonshot AI, featuring 1 trillion total parameters with 32 billion active per forward pass",
         capabilities=["tool_use", "stream", "structured_output"],
+        force_sample_params=SampleParam(temperature=0.6),
         input_token_price_1m=0.5,
         output_token_price_1m=2.0,
     ),
@@ -342,6 +368,17 @@
         input_token_price_1m=0.0,
         output_token_price_1m=0.0,
     ),
+    Model(
+        id="gemini-3-pro-preview",
+        provider="github_copilot",
+        name="Gemini 3 Pro",
+        description="",
+        capabilities=["tool_use", "vision", "stream"],
+        default=False,
+        input_token_price_1m=0.0,
+        force_sample_params=SampleParam(temperature=1.0),
+        output_token_price_1m=0.0,
+    ),
     Model(
         id="gpt-4.1",
         provider="github_copilot",
diff --git a/AgentCrew/modules/llm/model_registry.py b/AgentCrew/modules/llm/model_registry.py
@@ -46,6 +46,15 @@ def get_model_limit(cls, mode_id):
             return 128_000
         return model.max_context_token
 
+    @classmethod
+    def get_model_sample_params(cls, mode_id):
+        registry = ModelRegistry.get_instance()
+        model = registry.get_model(mode_id)
+        if not model or not model.force_sample_params:
+            logger.warning(f"Model not found in registry: {mode_id}")
+            return None
+        return model.force_sample_params
+
     def _load_custom_models_from_config(self):
         """Loads models from custom LLM provider configurations and registers them."""
         try:
diff --git a/AgentCrew/modules/llm/types.py b/AgentCrew/modules/llm/types.py
@@ -1,5 +1,15 @@
 from pydantic import BaseModel
-from typing import List, Literal
+from typing import List, Literal, Optional
+
+
+class SampleParam(BaseModel):
+    temperature: Optional[float] = None
+    top_p: Optional[float] = None
+    min_p: Optional[float] = None
+    top_k: Optional[int] = None
+    frequency_penalty: Optional[float] = None
+    presence_penalty: Optional[float] = None
+    repetition_penalty: Optional[float] = None
 
 
 class Model(BaseModel):
@@ -19,6 +29,7 @@ class Model(BaseModel):
         ]
     ]
     default: bool = False
+    force_sample_params: Optional[SampleParam] = None
     max_context_token: int = 128_000
     input_token_price_1m: float = 0.0
     output_token_price_1m: float = 0.0
diff --git a/AgentCrew/modules/openai/response_service.py b/AgentCrew/modules/openai/response_service.py
@@ -225,8 +225,16 @@ async def stream_assistant_response(self, messages) -> Any:
             "input": input_data,
             "stream": True,
             "instructions": self.system_prompt or None,
+            "temperature": self.temperature,
         }
 
+        forced_sample_params = ModelRegistry.get_model_sample_params(full_model_id)
+        if forced_sample_params:
+            if forced_sample_params.temperature is not None:
+                stream_params["temperature"] = forced_sample_params.temperature
+            if forced_sample_params.top_p is not None:
+                stream_params["top_p"] = forced_sample_params.top_p
+
         # Add reasoning configuration for thinking models
         if "thinking" in ModelRegistry.get_model_capabilities(full_model_id):
             if self.reasoning_effort:
@@ -251,17 +259,17 @@ async def stream_assistant_response(self, messages) -> Any:
 
             stream_params["tools"] = all_tools
 
-        # if (
-        #     "structured_output" in ModelRegistry.get_model_capabilities(full_model_id)
-        #     and self.structured_output
-        # ):
-        #     from openai.types import ResponseFormatJSONSchema
-        #
-        #     stream_params["text"] = {
-        #         "format": ResponseFormatJSONSchema.model_validate(
-        #             {"type": "json_schema", "json_schema": self.structured_output}
-        #         )
-        #     }
+        if (
+            "structured_output" in ModelRegistry.get_model_capabilities(full_model_id)
+            and self.structured_output
+        ):
+            stream_params["text"] = {
+                "format": {
+                    "name": "default",
+                    "type": "json_schema",
+                    "json_schema": self.structured_output,
+                }
+            }
 
         return await self.client.responses.create(**stream_params)
 
diff --git a/AgentCrew/modules/openai/service.py b/AgentCrew/modules/openai/service.py
@@ -196,13 +196,28 @@ async def stream_assistant_response(self, messages) -> Any:
             "stream_options": {"include_usage": True},
             "max_tokens": 20000,
         }
+
         if "thinking" in ModelRegistry.get_model_capabilities(full_model_id):
             stream_params.pop("max_tokens", None)
             if self.reasoning_effort:
                 stream_params["reasoning_effort"] = self.reasoning_effort
         else:
             stream_params["temperature"] = self.temperature
             stream_params["top_p"] = 0.95
+            forced_sample_params = ModelRegistry.get_model_sample_params(full_model_id)
+            if forced_sample_params:
+                if forced_sample_params.temperature is not None:
+                    stream_params["temperature"] = forced_sample_params.temperature
+                if forced_sample_params.top_p is not None:
+                    stream_params["top_p"] = forced_sample_params.top_p
+                if forced_sample_params.frequency_penalty is not None:
+                    stream_params["frequency_penalty"] = (
+                        forced_sample_params.frequency_penalty
+                    )
+                if forced_sample_params.presence_penalty is not None:
+                    stream_params["presence_penalty"] = (
+                        forced_sample_params.presence_penalty
+                    )
 
         # Add system message if provided
         if self.system_prompt:
diff --git a/docker/pyproject.docker.toml b/docker/pyproject.docker.toml
@@ -1,6 +1,6 @@
 [project]
 name = "agentcrew-ai"
-version = "0.8.2"
+version = "0.8.3"
 requires-python = ">=3.12"
 classifiers = [
     "Programming Language :: Python :: 3",
@@ -46,7 +46,7 @@ dependencies = [
   "xmltodict>=0.14.2",
   "jsonref>=1.1.0",
   "pychromedevtools>=0.3.3",
-  "html-to-markdown>=1.14.0",
+  "html-to-markdown>=1.14.0,<2",
   "pip-system-certs>=5.2",
   "loguru>=0.7.3",
   "jsonschema>=4.25.1",
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "agentcrew-ai"
-version = "0.8.2"
+version = "0.8.3"
 requires-python = ">=3.12"
 classifiers = [
     "Programming Language :: Python :: 3",
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__version__ = "0.8.2"`
	`1`	`+__version__ = "0.8.3"`