Use deferred loader for single device load

turboderp · turboderp · commit c6aa83f7e5a5 · 2025-05-11T15:35:09.000+02:00
diff --git a/exllamav3/models/model.py b/exllamav3/models/model.py
@@ -92,7 +92,12 @@ def unload(self):
     def _load_single(self, progressbar: bool, device: torch.device):
         with ProgressBar(f"Loading" if progressbar else None, len(self.modules)) as progress:
             for idx, module in enumerate(self.modules):
+                defer = module.can_defer_load()
+                if defer:
+                    self.config.stc.begin_deferred_load()
                 module.load(torch.device("cpu") if module.caps.get("prefer_cpu") else device)
+                if defer:
+                    self.config.stc.end_deferred_load()
                 progress.update(idx + 1)