Merge pull request #764 from yasinBursali/fix/chat-thinking-model-max-tokens

Lightheartdevs · web-flow · commit 15ed4a319c0c · 2026-04-03T16:08:56.000-04:00
fix: handle thinking model responses in /api/chat endpoint
diff --git a/dream-server/extensions/services/dashboard-api/routers/setup.py b/dream-server/extensions/services/dashboard-api/routers/setup.py
@@ -4,6 +4,7 @@
 import json
 import logging
 import os
+import re
 from datetime import datetime, timezone
 from pathlib import Path
 
@@ -170,7 +171,7 @@ async def chat(request: ChatRequest, api_key: str = Depends(verify_api_key)):
     payload = {
         "model": model,
         "messages": [{"role": "system", "content": system_prompt}, {"role": "user", "content": request.message}],
-        "max_tokens": 256, "temperature": 0.7
+        "max_tokens": 2048, "temperature": 0.7
     }
 
     try:
@@ -180,6 +181,8 @@ async def chat(request: ChatRequest, api_key: str = Depends(verify_api_key)):
                 if resp.status == 200:
                     data = await resp.json()
                     response_text = data.get("choices", [{}])[0].get("message", {}).get("content", "")
+                    # Strip thinking model tags — content may contain <think>...</think> blocks
+                    response_text = re.sub(r'<think>[\s\S]*?</think>\s*', '', response_text).strip()
                     return {"response": response_text, "success": True}
                 else:
                     error_text = await resp.text()