XSpoonAi · veithly · Dec 3, 2025 · Dec 3, 2025 · Dec 3, 2025
diff --git a/spoon_ai/llm/config.py b/spoon_ai/llm/config.py
@@ -335,7 +335,7 @@ def _get_provider_defaults(self, provider_name: str) -> Dict[str, Any]:
             'anthropic': {
                 'model': 'claude-sonnet-4-20250514',
                 'base_url': 'https://api.anthropic.com',
-                'max_tokens': 200000,
+                'max_tokens': 63000,  # Claude Sonnet-4 supports max_token of context <64000
                 'temperature': 0.1,   # Lower temperature for Claude
                 **{k: v for k, v in common_defaults.items() if k != 'temperature'}
             },

diff --git a/spoon_ai/llm/providers/anthropic_provider.py b/spoon_ai/llm/providers/anthropic_provider.py
@@ -330,15 +330,18 @@ async def chat_stream(self, messages: List[Message],callbacks: Optional[List] =
                                 usage_data["cache_read_input_tokens"] = chunk.usage.cache_read_input_tokens
 
             # Trigger on_llm_end callback
+            final_response = LLMResponse(
+                content=full_content,
+                provider="anthropic",
+                model=model,
+                finish_reason=finish_reason or "stop",
+                native_finish_reason=finish_reason or "stop",
+                tool_calls=[],
+                usage=usage_data,
+                metadata={}
+            )
             await callback_manager.on_llm_end(
-                response=LLMResponseChunk(
-                    content=full_content,
-                    provider="anthropic",
-                    model=model,
-                    finish_reason=finish_reason,
-                    tool_calls=[],
-                    usage=usage_data
-                ),
+                response=final_response,
                 run_id=run_id
             )
 

diff --git a/spoon_ai/llm/providers/gemini_provider.py b/spoon_ai/llm/providers/gemini_provider.py
@@ -343,15 +343,18 @@ async def chat_stream(self, messages: List[Message],callbacks: Optional[List] =
                         yield response_chunk
 
             # Trigger on_llm_end callback
+            final_response = LLMResponse(
+                content=full_content,
+                provider="gemini",
+                model=model,
+                finish_reason=finish_reason or "stop",
+                native_finish_reason=finish_reason or "stop",
+                tool_calls=[],
+                usage=usage_data,
+                metadata={}
+            )
             await callback_manager.on_llm_end(
-                response=LLMResponseChunk(
-                    content=full_content,
-                    provider="gemini",
-                    model=model,
-                    finish_reason=finish_reason,
-                    tool_calls=[],
-                    usage=usage_data
-                ),
+                response=final_response,
                 run_id=run_id
             )