vllm 多模态 支持 enable_thinking

shell-nlp · shell-nlp · commit 96ddca4d2602 · 2025-09-08T14:25:36.000+08:00
diff --git a/README.md b/README.md
@@ -262,14 +262,9 @@ Chat UI界面:
 | :-------------------: | :--------: | :---: | :---: | :----------------: | :--------------: | :----: |
 |      chatglm4-9b      |  chatglm   |   √   |   √   |         √          |        √         |   √    |
 |      chatglm3-6b      |  chatglm   |   √   |   √   |         ×          |        √         |   √    |
-| Qwen (7B, 14B, etc.)) |    qwen    |   √   |   √   |         √          |        √         |   √    |
-| Qwen-1.5 (0.5B--72B)  |    qwen    |   √   |   √   |         √          |        √         |   √    |
-|        Qwen-2         |    qwen    |   √   |   √   |         √          |        √         |   √    |
-|       Qwen-2.5        |    qwen    |   √   |   √   |         √          |        √         |   √    |
-|        Qwen-3         |    qwen    |   √   |   √   |         √          |        √         |   √    |
+|   Qwen-1.0--3.0       |    qwen    |   √   |   √   |         √          |        √         |   √    |
 |        Yi-34B         |     yi     |   √   |   √   |         √          |        √         |   √    |
-|     Internlm-1.0      |  internlm  |   √   |   √   |         √          |        √         |   √    |
-|     Internlm-2.0      |  internlm  |   √   |   √   |         √          |        √         |   √    |
+|    Internlm-1.0--2.0  |  internlm  |   √   |   √   |         √          |        √         |   √    |
 |       Deepseek        |  deepseek  |   √   |   √   |         √          |        √         |   √    |
 |        Llama-3        |   llama    |   √   |   √   |         √          |        √         |   √    |
 |      Baichuan-2       |  baichuan  |   √   |   √   |         √          |        √         |   √    |
@@ -281,9 +276,9 @@ Chat UI界面:
 | :--------------: | :--------: | :---: | :---: | :----------------: | :--------------: | :----: |
 |    glm-4v-9b     |  chatglm   |   ×   |   ×   |         ×          |        √         |   ×    |
 |    InternVL2     |  internvl  |   ×   |   ×   |         √          |        √         |   ×    |
-|   InternVL2.5    |  internvl  |   ×   |   ×   |         √          |        √         |   ×    |
-|   InternVL3      |  internvl  |   ×   |   √   |         √          |        √         |   ×    |
-|  MiniCPM-V-2_6   |  minicpmv  |   ×   |   √   |         √          |        ×         |   ×    |
+|InternVL2.5--3.5  |  internvl  |   ×   |   ×   |         √          |        √         |   ×    |
+|  MiniCPM-V-2.6   |  minicpmv  |   ×   |   √   |         √          |        ×         |   ×    |
+|  MiniCPM-V-4.5   |  minicpmv  |   ×   |   √   |         ×          |        ×         |   ×    |
 |     Qwen2-VL     |    qwen    |   ×   |   √   |         ×          |        √         |   √    |
 |    Qwen2.5-VL    |    qwen    |   ×   |   √   |         ×          |        √         |   √    |
 |       QVQ        |    qwen    |   ×   |   √   |         ×          |        ×         |   ×    |
diff --git a/gpt_server/model_backend/vllm_backend.py b/gpt_server/model_backend/vllm_backend.py
@@ -72,6 +72,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
         presence_penalty = float(params.get("presence_penalty", 0.0))
         frequency_penalty = float(params.get("frequency_penalty", 0.0))
         repetition_penalty = float(params.get("repetition_penalty", 1.0))
+        enable_thinking = bool(params.get("enable_thinking", True))
         request = params.get("request", None)
         # Handle stop_str
         stop = set()
@@ -96,6 +97,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
                 add_generation_prompt=True,
                 tools=tools,
                 model_config=await self.engine.get_model_config(),
+                enable_thinking=enable_thinking,
             )
             mm_data = await mm_data_future
             inputs = {"multi_modal_data": mm_data, "prompt": prompt}
diff --git a/tests/test_openai_chat.py b/tests/test_openai_chat.py
@@ -8,6 +8,7 @@
     model="qwen",  # internlm chatglm3  qwen  llama3 chatglm4 qwen-72b
     messages=[{"role": "user", "content": "你是谁"}],
     stream=stream,
+    extra_body={"enable_thinking": True},  # 可以控制是否 think,部分模型支持
 )
 if stream:
     for chunk in output:
diff --git a/tests/test_openai_vl_chat.py b/tests/test_openai_vl_chat.py
@@ -23,7 +23,7 @@ def image_to_base64(image_path):
 
 stream = True
 output = client.chat.completions.create(
-    model="glm4.1v",  # internlm chatglm3  qwen  llama3 chatglm4
+    model="minicpmv",  # internlm chatglm3  qwen  llama3 chatglm4
     messages=[
         {
             "role": "user",
@@ -42,6 +42,7 @@ def image_to_base64(image_path):
         }
     ],
     stream=stream,
+    extra_body={"enable_thinking": True},  # 可以控制是否 think,部分模型支持
 )
 if stream:
     for chunk in output:

Original file line number	Diff line number	Diff line change
`@@ -8,6 +8,7 @@`
`8`	`8`	`model="qwen", # internlm chatglm3 qwen llama3 chatglm4 qwen-72b`
`9`	`9`	`messages=[{"role": "user", "content": "你是谁"}],`
`10`	`10`	`stream=stream,`
	`11`	`+ extra_body={"enable_thinking": True}, # 可以控制是否 think,部分模型支持`
`11`	`12`	`)`
`12`	`13`	`if stream:`
`13`	`14`	`for chunk in output:`
Original file line number	Diff line number	Diff line change
`@@ -23,7 +23,7 @@ def image_to_base64(image_path):`
`23`	`23`
`24`	`24`	`stream = True`
`25`	`25`	`output = client.chat.completions.create(`
`26`		`- model="glm4.1v", # internlm chatglm3 qwen llama3 chatglm4`
	`26`	`+ model="minicpmv", # internlm chatglm3 qwen llama3 chatglm4`
`27`	`27`	`messages=[`
`28`	`28`	`{`
`29`	`29`	`"role": "user",`
`@@ -42,6 +42,7 @@ def image_to_base64(image_path):`
`42`	`42`	`}`
`43`	`43`	`],`
`44`	`44`	`stream=stream,`
	`45`	`+ extra_body={"enable_thinking": True}, # 可以控制是否 think,部分模型支持`
`45`	`46`	`)`
`46`	`47`	`if stream:`
`47`	`48`	`for chunk in output:`