kvcache-ai · SCDESPERTATE · Dec 10, 2025 · gemini-code-assist · Dec 10, 2025
diff --git a/kt-kernel/python/utils/llamafile.py b/kt-kernel/python/utils/llamafile.py
@@ -217,3 +217,6 @@ def load_weights(self, physical_to_logical_map_cpu: Optional[torch.Tensor] = Non
         # Load weights
         self.cpu_infer.submit(self.moe.load_weights_task(physical_to_logical_map_cpu.data_ptr()))
         self.cpu_infer.sync()
+
+        # Drop original weights after loading
+        self.weights_to_keep = None