support deepseek-V3.1 & add no_think_prefix for hybrid thinking models (#5463)

hjh0119 · web-flow · commit 5334b84891e6 · 2025-08-21T16:59:11.000+08:00
* support model

* update template

* fix

* fix template

* fix template

* no_think_prefix

* fix glm prefix
diff --git a/docs/source/Instruction/支持的模型和数据集.md b/docs/source/Instruction/支持的模型和数据集.md
@@ -447,6 +447,8 @@
 |[deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)|
 |[deepseek-ai/DeepSeek-R1-Distill-Llama-70B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-Distill-Llama-70B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)|
 |[deepseek-ai/DeepSeek-R1-0528-Qwen3-8B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-0528-Qwen3-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B)|
+|[deepseek-ai/DeepSeek-V3.1-Base](https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base)|deepseek_v3_1|deepseek_v3_1|transformers>=4.39.3|&#x2718;|-|[deepseek-ai/DeepSeek-V3.1-Base](https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base)|
+|[deepseek-ai/DeepSeek-V3.1](https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1)|deepseek_v3_1|deepseek_v3_1|transformers>=4.39.3|&#x2718;|-|[deepseek-ai/DeepSeek-V3.1](https://huggingface.co/deepseek-ai/DeepSeek-V3.1)|
 |[OpenBuddy/openbuddy-llama-65b-v8-bf16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama-65b-v8-bf16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama-65b-v8-bf16](https://huggingface.co/OpenBuddy/openbuddy-llama-65b-v8-bf16)|
 |[OpenBuddy/openbuddy-llama2-13b-v8.1-fp16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama2-13b-v8.1-fp16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama2-13b-v8.1-fp16](https://huggingface.co/OpenBuddy/openbuddy-llama2-13b-v8.1-fp16)|
 |[OpenBuddy/openbuddy-llama2-70b-v10.1-bf16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama2-70b-v10.1-bf16](https://huggingface.co/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16)|
diff --git a/docs/source_en/Instruction/Supported-models-and-datasets.md b/docs/source_en/Instruction/Supported-models-and-datasets.md
@@ -447,6 +447,8 @@ The table below introduces the models integrated with ms-swift:
 |[deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)|
 |[deepseek-ai/DeepSeek-R1-Distill-Llama-70B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-Distill-Llama-70B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)|
 |[deepseek-ai/DeepSeek-R1-0528-Qwen3-8B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B)|deepseek_r1_distill|deepseek_r1|-|&#x2714;|-|[deepseek-ai/DeepSeek-R1-0528-Qwen3-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B)|
+|[deepseek-ai/DeepSeek-V3.1-Base](https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base)|deepseek_v3_1|deepseek_v3_1|transformers>=4.39.3|&#x2718;|-|[deepseek-ai/DeepSeek-V3.1-Base](https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base)|
+|[deepseek-ai/DeepSeek-V3.1](https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1)|deepseek_v3_1|deepseek_v3_1|transformers>=4.39.3|&#x2718;|-|[deepseek-ai/DeepSeek-V3.1](https://huggingface.co/deepseek-ai/DeepSeek-V3.1)|
 |[OpenBuddy/openbuddy-llama-65b-v8-bf16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama-65b-v8-bf16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama-65b-v8-bf16](https://huggingface.co/OpenBuddy/openbuddy-llama-65b-v8-bf16)|
 |[OpenBuddy/openbuddy-llama2-13b-v8.1-fp16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama2-13b-v8.1-fp16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama2-13b-v8.1-fp16](https://huggingface.co/OpenBuddy/openbuddy-llama2-13b-v8.1-fp16)|
 |[OpenBuddy/openbuddy-llama2-70b-v10.1-bf16](https://modelscope.cn/models/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16)|openbuddy_llama|openbuddy|-|&#x2714;|-|[OpenBuddy/openbuddy-llama2-70b-v10.1-bf16](https://huggingface.co/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16)|
diff --git a/swift/llm/model/constant.py b/swift/llm/model/constant.py
@@ -64,6 +64,7 @@ class LLMModelType:
     deepseek_v2_5 = 'deepseek_v2_5'
     deepseek_r1 = 'deepseek_r1'
     deepseek_r1_distill = 'deepseek_r1_distill'
+    deepseek_v3_1 = 'deepseek_v3_1'
 
     openbuddy_llama = 'openbuddy_llama'
     openbuddy_llama3 = 'openbuddy_llama3'
diff --git a/swift/llm/model/model/deepseek.py b/swift/llm/model/model/deepseek.py
@@ -128,6 +128,22 @@ def get_model_tokenizer_deepseek_moe(model_dir: str,
         requires=['transformers>=4.39.3'],
     ))
 
+register_model(
+    ModelMeta(
+        LLMModelType.deepseek_v3_1,
+        [
+            ModelGroup([
+                Model('deepseek-ai/DeepSeek-V3.1-Base', 'deepseek-ai/DeepSeek-V3.1-Base'),
+                Model('deepseek-ai/DeepSeek-V3.1', 'deepseek-ai/DeepSeek-V3.1'),
+            ]),
+        ],
+        TemplateType.deepseek_v3_1,
+        get_model_tokenizer_deepseek_moe,
+        architectures=['DeepseekV3ForCausalLM'],
+        model_arch=ModelArch.deepseek_v2,
+        requires=['transformers>=4.39.3'],
+    ))
+
 
 def _get_deepseek_vl(processor, llm_prefix, model_dir, *args, **kwargs):
     kwargs['tokenizer'] = processor.tokenizer
diff --git a/swift/llm/template/constant.py b/swift/llm/template/constant.py
@@ -55,6 +55,7 @@ class LLMTemplateType:
     deepseek_coder = 'deepseek_coder'
     deepseek_v2_5 = 'deepseek_v2_5'
     deepseek_r1 = 'deepseek_r1'
+    deepseek_v3_1 = 'deepseek_v3_1'
 
     openbuddy = 'openbuddy'
     openbuddy2 = 'openbuddy2'
diff --git a/swift/llm/template/template/deepseek.py b/swift/llm/template/template/deepseek.py
@@ -244,9 +244,20 @@ class DeepseekV2_5TemplateMeta(TemplateMeta):
 
 register_template(DeepseekV2_5TemplateMeta(LLMTemplateType.deepseek_v2_5))
 
+
+class DeepseekV3_1Template(ThinkingTemplate):
+    no_think_prefix = '</think>'
+    history_think_prefix = '</think>'
+
+
 register_template(
     DeepseekV2_5TemplateMeta(LLMTemplateType.deepseek_r1, template_cls=ThinkingTemplate, response_prefix='<think>\n'))
 
+# enable thinking: response_prefix='<think>'
+register_template(
+    DeepseekV2_5TemplateMeta(
+        LLMTemplateType.deepseek_v3_1, template_cls=DeepseekV3_1Template, response_prefix='</think>'))
+
 
 class DeepseekVL2Template(DeepseekVLTemplate):
     image_placeholder = ['<image>\n']
diff --git a/swift/llm/template/template/glm.py b/swift/llm/template/template/glm.py
@@ -229,7 +229,13 @@ def _encode(self, inputs: StdTemplateInputs) -> Dict[str, Any]:
 
 register_template(GLM4_0414TemplateMeta(LLMTemplateType.glm4_0414, template_cls=GLM4_0414Template))
 
-register_template(GLM4_0414TemplateMeta(LLMTemplateType.glm4_5, template_cls=ThinkingTemplate))
+
+class GLM4_5Template(ThinkingTemplate):
+    no_think_prefix = '<think></think>\n'
+    history_think_prefix = '<think></think>\n'
+
+
+register_template(GLM4_0414TemplateMeta(LLMTemplateType.glm4_5, template_cls=GLM4_5Template))
 
 register_template(GLM4_1VTemplateMeta(MLLMTemplateType.glm4_1v, template_cls=GLM4_1VTemplate))
 
diff --git a/swift/llm/template/template/qwen.py b/swift/llm/template/template/qwen.py
@@ -52,8 +52,12 @@ class Qwen2_5MathTemplateMeta(QwenTemplateMeta):
     QwenTemplateMeta(
         LLMTemplateType.qwq, default_system=None, response_prefix='<think>\n', template_cls=ThinkingTemplate))
 
-# '<think>\n\n</think>\n\n'
-register_template(QwenTemplateMeta(LLMTemplateType.qwen3, default_system=None, template_cls=ThinkingTemplate))
+
+class Qwen3Template(ThinkingTemplate):
+    no_think_prefix = '<think>\n\n</think>\n\n'
+
+
+register_template(QwenTemplateMeta(LLMTemplateType.qwen3, default_system=None, template_cls=Qwen3Template))
 
 register_template(
     QwenTemplateMeta(
diff --git a/swift/llm/template/template/utils.py b/swift/llm/template/template/utils.py
@@ -34,10 +34,19 @@ class EmptyTemplateMeta(TemplateMeta):
 
 class ThinkingTemplate(Template):
     with_answer = False
+    no_think_prefix = ''  # for hybrid thinking model
+    history_think_prefix = ''
 
     def _swift_prepare_inputs(self, inputs):
         super()._swift_prepare_inputs(inputs)
         messages = inputs.messages
+
+        if self.no_think_prefix:
+            for i, message in enumerate(messages):
+                if message['role'] == 'assistant' and isinstance(message['content'], str):
+                    if not message['content'].startswith('<think>'):
+                        message['content'] = self.no_think_prefix + message['content']
+
         # Only during inference or training, and only if the loss_scale is set to 'last_round',
         # will the previous 'think' entries be deleted.
         if not self.is_training or self.loss_scale.name in {'last_round', 'last_round_with_ignore_empty_think'}:
@@ -48,7 +57,8 @@ def _swift_prepare_inputs(self, inputs):
                         message['content'] = message['content'].split('<answer>')[-1].rstrip().rstrip(
                             '</answer>').strip()
                     else:
-                        message['content'] = message['content'].split('</think>')[-1].strip()
+                        message['content'] = self.history_think_prefix + message['content'].split(
+                            '</think>')[-1].strip()
 
 
 class ThinkingWithAnswerTemplate(ThinkingTemplate):
diff --git a/tests/test_align/test_template/test_template.py b/tests/test_align/test_template/test_template.py
@@ -95,8 +95,33 @@ def test_minimax_vl():
     assert len(res['input_ids']) == 5877
 
 
+def test_deepseek_v3_1():
+    tokenizer = get_model_tokenizer('deepseek-ai/DeepSeek-V3.1', load_model=False)[1]
+    template = get_template(tokenizer.model_meta.template, tokenizer)
+    inputs = TemplateInputs(messages=[{
+        'role': 'system',
+        'content': '000'
+    }, {
+        'role': 'user',
+        'content': 'aaa'
+    }, {
+        'role': 'assistant',
+        'content': 'bbb'
+    }, {
+        'role': 'user',
+        'content': 'ccc'
+    }])
+    res = template.encode(inputs)
+    template.print_inputs(res)
+    template.template_backend = 'jinja'
+    res2 = template.encode(inputs)
+    template.print_inputs(res2)
+    assert res['input_ids'] == res2['input_ids']
+
+
 if __name__ == '__main__':
     # test_deepseek_v2_5()
     # test_qwen2_5_math_reward()
     # test_minimax()
-    test_minimax_vl()
+    # test_minimax_vl()
+    test_deepseek_v3_1()