[GPTQ] Move modifier to top-level for consistent folder structure (vllm-project#2368)

dik654 · brian-dellabetta · yiliu30 · commit bbb634af0397 · 2026-03-06T12:16:22.000Z
## SUMMARY: Move GPTQModifier from `modifiers/quantization/gptq/` to `modifiers/gptq/` for consistent folder structure with AWQ and AutoRound (related: vllm-project#2306). - Add deprecation wrapper at old import path for backward compatibility - Exclude old GPTQ paths from ModifierFactory to prevent duplicate registration - Update test and example imports to new canonical path ## TEST PLAN: Import verification (all passed): - from llmcompressor.modifiers.gptq import GPTQModifier (new path, no warning) - from llmcompressor.modifiers.quantization import GPTQModifier (BC, no warning) - from llmcompressor.modifiers.quantization.gptq import GPTQModifier (BC, DeprecationWarning) - ModifierFactory.refresh() registers GPTQModifier from new location pytest (11 passed, 3 skipped for GPU): - tests/llmcompressor/transformers/gptq/test_gptq_oneshot.py - tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py - tests/llmcompressor/transformers/compression/test_recipe_parsing.py (requires GPU) ruff check + ruff format passed --------- Signed-off-by: 김대익 <33992354+dik654@users.noreply.github.com> Co-authored-by: Brian Dellabetta <brian-dellabetta@users.noreply.github.com> Signed-off-by: yiliu30 <yi4.liu@intel.com>
diff --git a/docs/guides/saving_a_model.md b/docs/guides/saving_a_model.md
@@ -41,7 +41,7 @@ The simplest approach is to use `oneshot`, which handles both compression and wr
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model
 model = AutoModelForCausalLM.from_pretrained("your-model")
diff --git a/examples/big_models_with_sequential_onloading/llama3.3_70b.py b/examples/big_models_with_sequential_onloading/llama3.3_70b.py
@@ -2,7 +2,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Select model and load it.
diff --git a/examples/multimodal_audio/whisper_example.py b/examples/multimodal_audio/whisper_example.py
@@ -8,7 +8,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 MODEL_ID = "openai/whisper-large-v3"
diff --git a/examples/multimodal_vision/gemma3_example.py b/examples/multimodal_vision/gemma3_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "google/gemma-3-4b-it"
diff --git a/examples/multimodal_vision/idefics3_example.py b/examples/multimodal_vision/idefics3_example.py
@@ -6,7 +6,7 @@
 from transformers import AutoProcessor, Idefics3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "HuggingFaceM4/Idefics3-8B-Llama3"  # or "HuggingFaceTB/SmolVLM-Instruct"
diff --git a/examples/multimodal_vision/internvl3_example.py b/examples/multimodal_vision/internvl3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForImageTextToText, AutoProcessor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "OpenGVLab/InternVL3-8B-hf"
diff --git a/examples/multimodal_vision/llama4_example.py b/examples/multimodal_vision/llama4_example.py
@@ -3,7 +3,7 @@
 from transformers import Llama4ForConditionalGeneration, Llama4Processor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
diff --git a/examples/multimodal_vision/llava_example.py b/examples/multimodal_vision/llava_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, LlavaForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "llava-hf/llava-1.5-7b-hf"
diff --git a/examples/multimodal_vision/medgemma_example.py b/examples/multimodal_vision/medgemma_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "google/medgemma-27b-it"
diff --git a/examples/multimodal_vision/mistral3_example.py b/examples/multimodal_vision/mistral3_example.py
@@ -12,7 +12,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "mistralai/Mistral-Small-3.1-24B-Instruct-2503"
diff --git a/examples/multimodal_vision/mllama_example.py b/examples/multimodal_vision/mllama_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, MllamaForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"
diff --git a/examples/multimodal_vision/phi3_vision_example.py b/examples/multimodal_vision/phi3_vision_example.py
@@ -7,7 +7,7 @@
 from transformers import AutoModelForCausalLM, AutoProcessor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "microsoft/Phi-3-vision-128k-instruct"
diff --git a/examples/multimodal_vision/pixtral_example.py b/examples/multimodal_vision/pixtral_example.py
@@ -9,7 +9,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "mgoin/pixtral-12b"
diff --git a/examples/multimodal_vision/qwen2_vl_example.py b/examples/multimodal_vision/qwen2_vl_example.py
@@ -11,7 +11,7 @@
 from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "Qwen/Qwen2-VL-2B-Instruct"
diff --git a/examples/multimodal_vision/qwen3_omni_example.py b/examples/multimodal_vision/qwen3_omni_example.py
@@ -10,7 +10,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.modeling.patch.qwen3_omni_patch import fast_pos_embed_interpolate
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.transformers.compression.compressed_tensors_utils import (
     modify_save_pretrained,
 )
diff --git a/examples/multimodal_vision/qwen_2_5_vl_example.py b/examples/multimodal_vision/qwen_2_5_vl_example.py
@@ -11,7 +11,7 @@
 from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
diff --git a/examples/quantization_non_uniform/quantization_multiple_modifiers.py b/examples/quantization_non_uniform/quantization_multiple_modifiers.py
@@ -6,7 +6,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.modifiers.awq import AWQMapping, AWQModifier
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 
 def parse_args():
diff --git a/examples/quantization_w4a16/README.md b/examples/quantization_w4a16/README.md
@@ -85,7 +85,7 @@ In our case, we will apply the default GPTQ recipe for `int4` (which uses static
 
 ```python
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Configure the quantization algorithm to run.
 recipe = GPTQModifier(targets="Linear", scheme="W4A16", ignore=["lm_head"])
diff --git a/examples/quantization_w4a16/llama3_ddp_example.py b/examples/quantization_w4a16/llama3_ddp_example.py
@@ -14,7 +14,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.datasets.utils import get_rank_partition
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
 
diff --git a/examples/quantization_w4a16/llama3_example.py b/examples/quantization_w4a16/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a16_fp4/mxfp4/llama3_example.py b/examples/quantization_w4a16_fp4/mxfp4/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a4_fp4/llama3_gptq_example.py b/examples/quantization_w4a4_fp4/llama3_gptq_example.py
@@ -10,7 +10,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a8_fp8/llama3_example.py b/examples/quantization_w4a8_fp8/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w8a8_int8/README.md b/examples/quantization_w8a8_int8/README.md
@@ -85,7 +85,7 @@ We first select the quantization algorithm. For W8A8, we want to:
 
 ```python
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Configure the quantization algorithms to run.
diff --git a/examples/quantization_w8a8_int8/gemma2_example.py b/examples/quantization_w8a8_int8/gemma2_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # 1) Select model and load it.
 MODEL_ID = "google/gemma-2-2b-it"
diff --git a/examples/quantization_w8a8_int8/llama3_example.py b/examples/quantization_w8a8_int8/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Select model and load it.
diff --git a/examples/quantizing_moe/deepseek_r1_example.py b/examples/quantizing_moe/deepseek_r1_example.py
@@ -2,7 +2,7 @@
 from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 
diff --git a/examples/quantizing_moe/qwen_example.py b/examples/quantizing_moe/qwen_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # select a Mixture of Experts model for quantization
 MODEL_ID = "Qwen/Qwen1.5-MoE-A2.7B-Chat"
diff --git a/src/llmcompressor/modifiers/README.md b/src/llmcompressor/modifiers/README.md
@@ -37,7 +37,7 @@ bin using a scale and (optional) zero point. This basic quantization algorithm i
 suitable for FP8 quantization. A variety of quantization schemes are supported via the 
 [compressed-tensors](https://github.com/neuralmagic/compressed-tensors) library. 
 
-### [GPTQ](./quantization/gptq/base.py)
+### [GPTQ](./gptq/base.py)
 One-shot algorithm that uses calibration data to select the ideal bin for weight quantization. 
 This algorithm is applied on top of the basic quantization algorithm, and affects weights only.
 The implementation is based on [GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers](https://arxiv.org/pdf/2210.17323). The algorithm is very similar to SparseGPT: A small amount of calibration data is used 
diff --git a/src/llmcompressor/modifiers/factory.py b/src/llmcompressor/modifiers/factory.py
@@ -48,6 +48,9 @@ def load_from_package(package_path: str) -> dict[str, type[Modifier]]:
         deprecated_packages = [
             "llmcompressor.modifiers.obcq",
             "llmcompressor.modifiers.obcq.sgpt_base",
+            "llmcompressor.modifiers.quantization.gptq",
+            "llmcompressor.modifiers.quantization.gptq.base",
+            "llmcompressor.modifiers.quantization.gptq.gptq_quantize",
         ]
         for _importer, modname, _is_pkg in pkgutil.walk_packages(
             main_package.__path__, package_path + "."
diff --git a/src/llmcompressor/modifiers/gptq/__init__.py b/src/llmcompressor/modifiers/gptq/__init__.py
@@ -0,0 +1,4 @@
+# ruff: noqa
+
+from .base import *
+from .gptq_quantize import *
diff --git a/src/llmcompressor/modifiers/gptq/base.py b/src/llmcompressor/modifiers/gptq/base.py
@@ -22,12 +22,12 @@
 
 from llmcompressor.core import Event, EventType, State
 from llmcompressor.modifiers import Modifier
-from llmcompressor.modifiers.quantization.calibration import update_weight_global_scale
-from llmcompressor.modifiers.quantization.gptq.gptq_quantize import (
+from llmcompressor.modifiers.gptq.gptq_quantize import (
     accumulate_hessian,
     make_empty_hessian,
     quantize_weight,
 )
+from llmcompressor.modifiers.quantization.calibration import update_weight_global_scale
 from llmcompressor.modifiers.quantization.quantization import QuantizationMixin
 from llmcompressor.modifiers.utils import update_fused_layer_weight_global_scales
 from llmcompressor.sentinel import Sentinel
diff --git a/src/llmcompressor/modifiers/gptq/gptq_quantize.py b/src/llmcompressor/modifiers/gptq/gptq_quantize.py
diff --git a/src/llmcompressor/modifiers/quantization/__init__.py b/src/llmcompressor/modifiers/quantization/__init__.py
@@ -1,4 +1,4 @@
 # ruff: noqa
 
-from .gptq import *
+from llmcompressor.modifiers.gptq import *
 from .quantization import *
diff --git a/src/llmcompressor/modifiers/quantization/gptq/__init__.py b/src/llmcompressor/modifiers/quantization/gptq/__init__.py
@@ -1,3 +1,11 @@
 # ruff: noqa
+import warnings
 
-from .base import *
+warnings.warn(
+    "Importing from llmcompressor.modifiers.quantization.gptq is deprecated. "
+    "Please import from llmcompressor.modifiers.gptq instead.",
+    DeprecationWarning,
+    stacklevel=2,
+)
+
+from llmcompressor.modifiers.gptq import *
diff --git a/src/llmcompressor/pipelines/sequential/README.md b/src/llmcompressor/pipelines/sequential/README.md
@@ -1,4 +1,4 @@
 # Sequential Pipeline #
 The sequential pipeline is a data pipeline, primarily used for compressing models with the
-[GPTQModifier](/src/llmcompressor/modifiers/quantization/gptq/base.py) or the
+[GPTQModifier](/src/llmcompressor/modifiers/gptq/base.py) or the
 [SparseGPTModifier](/src/llmcompressor/modifiers/pruning/sparsegpt/base.py).
diff --git a/tests/e2e/e2e_utils.py b/tests/e2e/e2e_utils.py
@@ -7,7 +7,8 @@
 from transformers import AutoProcessor, DefaultDataCollator
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier, QuantizationModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
+from llmcompressor.modifiers.quantization import QuantizationModifier
 from tests.test_timer.timer_utils import log_time
 from tests.testing_utils import process_dataset
 
diff --git a/tests/llmcompressor/modifiers/quantization/test_base.py b/tests/llmcompressor/modifiers/quantization/test_base.py
@@ -3,7 +3,7 @@
 import pytest
 from compressed_tensors.quantization import QuantizationArgs, QuantizationScheme
 
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 
 @pytest.fixture
diff --git a/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py b/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py
@@ -1,8 +1,8 @@
 import pytest
 import torch
 
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.pruning.sparsegpt import SparseGPTModifier
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
 from tests.llmcompressor.modifiers.conf import LifecyleTestingHarness
 from tests.llmcompressor.pytorch.helpers import LinearNet
 
diff --git a/tests/llmcompressor/transformers/compression/test_recipe_parsing.py b/tests/llmcompressor/transformers/compression/test_recipe_parsing.py
@@ -5,7 +5,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.core.session_functions import reset_session
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 from llmcompressor.modifiers.transform.smoothquant.utils import (
     DEFAULT_SMOOTHQUANT_MAPPINGS,
diff --git a/tests/llmcompressor/transformers/gptq/test_gptq_oneshot.py b/tests/llmcompressor/transformers/gptq/test_gptq_oneshot.py
@@ -4,7 +4,7 @@
 from transformers import AutoModelForCausalLM
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 recipe_str = """
 quant_stage:

Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,7 @@`
`8`	`8`	`)`
`9`	`9`
`10`	`10`	`from llmcompressor import oneshot`
`11`		`-from llmcompressor.modifiers.quantization import GPTQModifier`
	`11`	`+from llmcompressor.modifiers.gptq import GPTQModifier`
`12`	`12`
`13`	`13`	`# Select model and load it.`
`14`	`14`	`MODEL_ID = "openai/whisper-large-v3"`
Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@`
`12`	`12`	`)`
`13`	`13`
`14`	`14`	`from llmcompressor import oneshot`
`15`		`-from llmcompressor.modifiers.quantization import GPTQModifier`
	`15`	`+from llmcompressor.modifiers.gptq import GPTQModifier`
`16`	`16`
`17`	`17`	`# Load model.`
`18`	`18`	`model_id = "mistralai/Mistral-Small-3.1-24B-Instruct-2503"`