fix severe vram leak regression in auto-round format packing

wenhuach21 · XuehaoSun · commit a14c3e663d17 · 2025-09-23T12:21:13.000+08:00
diff --git a/auto_round/export/export_to_autoround/export.py b/auto_round/export/export_to_autoround/export.py
@@ -215,7 +215,7 @@ def pack_layer(layer_name, model, backend, device=None):
             qlayer.pack(layer, scale, device=device)
         else:
             qlayer.pack(layer, scale, zp, None, device=device)
-        qlayer.to(device)
+        qlayer.to(orig_device)
     else:
         scale = scale.to(torch.float32).t().contiguous()
         if isinstance(zp, torch.Tensor):