vllm-project
diff --git a/‎src/llmcompressor/transformers/compression/compressed_tensors_utils.py‎
Lines changed: 12 additions & 15 deletions b/‎src/llmcompressor/transformers/compression/compressed_tensors_utils.py‎
Lines changed: 12 additions & 15 deletions
diff --git a/‎src/llmcompressor/transformers/compression/quantization_format.py‎
Lines changed: 0 additions & 114 deletions b/‎src/llmcompressor/transformers/compression/quantization_format.py‎
Lines changed: 0 additions & 114 deletions
diff --git a/‎tests/llmcompressor/transformers/compression/test_compress_tensor_utils.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/llmcompressor/transformers/compression/test_compress_tensor_utils.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/llmcompressor/transformers/compression/test_infer_quant_format.py‎
Lines changed: 0 additions & 31 deletions b/‎tests/llmcompressor/transformers/compression/test_infer_quant_format.py‎
Lines changed: 0 additions & 31 deletions
diff --git a/‎tests/llmcompressor/transformers/finetune/test_oneshot_then_finetune.py‎
Lines changed: 0 additions & 2 deletions b/‎tests/llmcompressor/transformers/finetune/test_oneshot_then_finetune.py‎
Lines changed: 0 additions & 2 deletions
@@ -1,7 +1,7 @@
 import os
 import weakref
 from functools import wraps
-from typing import List, Optional
+from typing import Optional
 
 import torch
 from accelerate.accelerator import get_state_dict_offloaded_model
@@ -12,14 +12,12 @@
     has_offloaded_params,
     register_offload_parameter,
 )
+from compressed_tensors.config import CompressionFormat
 from loguru import logger
 from transformers import PreTrainedModel
 
 from llmcompressor.core import active_session
 from llmcompressor.pytorch.model_load.helpers import copy_python_files_from_model_cache
-from llmcompressor.transformers.compression.quantization_format import (
-    infer_and_set_per_module_quantization_format,
-)
 from llmcompressor.transformers.compression.sparsity_metadata_config import (
     SparsityConfigMetadata,
 )
@@ -227,20 +225,19 @@ def get_model_compressor(
                 SparsityConfigMetadata.infer_sparsity_structure(model)
             )
 
-    quantization_format: Optional[List[str]] = (
-        infer_and_set_per_module_quantization_format(
-            model=model,
-            quantization_format=quantization_format,
-            save_compressed=save_compressed,
-            sparsity_structure=None
-            if sparsity_config is None
-            else sparsity_config.sparsity_structure,
-        )
-    )
+    if not save_compressed:
+        if quantization_format not in (None, CompressionFormat.dense.value):
+            raise ValueError(
+                "A quantizatiom format was provided but "
+                "save_compressed is set to False. "
+                "A compression format can only be applied when "
+                "saving the model compressed"
+            )
+        quantization_format = CompressionFormat.dense.value
 
     return ModelCompressor.from_pretrained_model(
         model,
-        sparsity_config=sparsity_config,
+        sparsity_config_or_format=sparsity_config,
         quantization_format=quantization_format,
     )
 
 
@@ -370,7 +370,7 @@ def test_compressor_stacking(model_stub, recipe, sparse_format, quant_format, tm
     # As HFQuantizer doesn't decompress the model, use the compressor to decompress
     # the model instead
     compressor = ModelCompressor.from_pretrained_model(
-        model, sparsity_config=sparse_format, quantization_format=quant_format
+        model, sparsity_config_or_format=sparse_format, quantization_format=quant_format
     )
 
     assert (
 
@@ -92,7 +92,6 @@ def test_oneshot_sparsification_then_finetune(tmp_path):
             concatenate_data=concatenate_data,
             splits=splits,
             recipe=recipe,
-            resume_from_checkpoint=True,  # use last checkpoint
         )
 
 
@@ -158,5 +157,4 @@ def test_oneshot_quantization_then_finetune(tmp_path):
             concatenate_data=concatenate_data,
             splits=splits,
             num_train_epochs=0.05,
-            resume_from_checkpoint=True,  # use last checkpoint
         )
Original file line number	Diff line number	Diff line change
`@@ -370,7 +370,7 @@ def test_compressor_stacking(model_stub, recipe, sparse_format, quant_format, tm`
`370`	`370`	`# As HFQuantizer doesn't decompress the model, use the compressor to decompress`
`371`	`371`	`# the model instead`
`372`	`372`	`compressor = ModelCompressor.from_pretrained_model(`
`373`		`- model, sparsity_config=sparse_format, quantization_format=quant_format`
	`373`	`+ model, sparsity_config_or_format=sparse_format, quantization_format=quant_format`
`374`	`374`	`)`
`375`	`375`
`376`	`376`	`assert (`
Original file line number	Diff line number	Diff line change
`@@ -92,7 +92,6 @@ def test_oneshot_sparsification_then_finetune(tmp_path):`
`92`	`92`	`concatenate_data=concatenate_data,`
`93`	`93`	`splits=splits,`
`94`	`94`	`recipe=recipe,`
`95`		`- resume_from_checkpoint=True, # use last checkpoint`
`96`	`95`	`)`
`97`	`96`
`98`	`97`
`@@ -158,5 +157,4 @@ def test_oneshot_quantization_then_finetune(tmp_path):`
`158`	`157`	`concatenate_data=concatenate_data,`
`159`	`158`	`splits=splits,`
`160`	`159`	`num_train_epochs=0.05,`
`161`		`- resume_from_checkpoint=True, # use last checkpoint`
`162`	`160`	`)`