modelscope · chenjianhuii · Sep 3, 2025 · Sep 4, 2025 · gemini-code-assist · Sep 3, 2025
diff --git a/swift/llm/infer/infer_engine/pt_engine.py b/swift/llm/infer/infer_engine/pt_engine.py
@@ -461,7 +461,7 @@ async def _gen_wrapper():
             return await queue.get()
 
     # Ensure `template._post_encode` has no gradient.
-    @torch.inference_mode()
+    @torch.no_grad()
     def _infer(
         self,
         infer_requests: List[InferRequest],