[GPTQ] Move GPTQModifier to modifiers/gptq for consistent folder structure

dik654 · dik654 · commit 6c0c2c9a0216 · 2026-03-01T09:46:20.000+09:00
Signed-off-by: 김대익 &lt;33992354+dik654@users.noreply.github.com&gt;
diff --git a/docs/guides/saving_a_model.md b/docs/guides/saving_a_model.md
@@ -41,7 +41,7 @@ The simplest approach is to use `oneshot`, which handles both compression and wr
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model
 model = AutoModelForCausalLM.from_pretrained("your-model")
diff --git a/examples/big_models_with_sequential_onloading/llama3.3_70b.py b/examples/big_models_with_sequential_onloading/llama3.3_70b.py
@@ -2,7 +2,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Select model and load it.
diff --git a/examples/multimodal_audio/whisper_example.py b/examples/multimodal_audio/whisper_example.py
@@ -8,7 +8,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 MODEL_ID = "openai/whisper-large-v3"
diff --git a/examples/multimodal_vision/gemma3_example.py b/examples/multimodal_vision/gemma3_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "google/gemma-3-4b-it"
diff --git a/examples/multimodal_vision/idefics3_example.py b/examples/multimodal_vision/idefics3_example.py
@@ -6,7 +6,7 @@
 from transformers import AutoProcessor, Idefics3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "HuggingFaceM4/Idefics3-8B-Llama3"  # or "HuggingFaceTB/SmolVLM-Instruct"
diff --git a/examples/multimodal_vision/internvl3_example.py b/examples/multimodal_vision/internvl3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForImageTextToText, AutoProcessor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "OpenGVLab/InternVL3-8B-hf"
diff --git a/examples/multimodal_vision/llama4_example.py b/examples/multimodal_vision/llama4_example.py
@@ -3,7 +3,7 @@
 from transformers import Llama4ForConditionalGeneration, Llama4Processor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
diff --git a/examples/multimodal_vision/llava_example.py b/examples/multimodal_vision/llava_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, LlavaForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "llava-hf/llava-1.5-7b-hf"
diff --git a/examples/multimodal_vision/medgemma_example.py b/examples/multimodal_vision/medgemma_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "google/medgemma-27b-it"
diff --git a/examples/multimodal_vision/mistral3_example.py b/examples/multimodal_vision/mistral3_example.py
@@ -12,7 +12,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "mistralai/Mistral-Small-3.1-24B-Instruct-2503"
diff --git a/examples/multimodal_vision/mllama_example.py b/examples/multimodal_vision/mllama_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoProcessor, MllamaForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"
diff --git a/examples/multimodal_vision/phi3_vision_example.py b/examples/multimodal_vision/phi3_vision_example.py
@@ -7,7 +7,7 @@
 from transformers import AutoModelForCausalLM, AutoProcessor
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "microsoft/Phi-3-vision-128k-instruct"
diff --git a/examples/multimodal_vision/pixtral_example.py b/examples/multimodal_vision/pixtral_example.py
@@ -9,7 +9,7 @@
 )
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "mgoin/pixtral-12b"
diff --git a/examples/multimodal_vision/qwen2_vl_example.py b/examples/multimodal_vision/qwen2_vl_example.py
@@ -11,7 +11,7 @@
 from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "Qwen/Qwen2-VL-2B-Instruct"
diff --git a/examples/multimodal_vision/qwen3_omni_example.py b/examples/multimodal_vision/qwen3_omni_example.py
@@ -10,7 +10,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.modeling.patch.qwen3_omni_patch import fast_pos_embed_interpolate
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.transformers.compression.compressed_tensors_utils import (
     modify_save_pretrained,
 )
diff --git a/examples/multimodal_vision/qwen_2_5_vl_example.py b/examples/multimodal_vision/qwen_2_5_vl_example.py
@@ -11,7 +11,7 @@
 from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Load model.
 model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
diff --git a/examples/quantization_non_uniform/quantization_multiple_modifiers.py b/examples/quantization_non_uniform/quantization_multiple_modifiers.py
@@ -6,7 +6,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.modifiers.awq import AWQMapping, AWQModifier
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 
 def parse_args():
diff --git a/examples/quantization_w4a16/README.md b/examples/quantization_w4a16/README.md
@@ -85,7 +85,7 @@ In our case, we will apply the default GPTQ recipe for `int4` (which uses static
 
 ```python
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Configure the quantization algorithm to run.
 recipe = GPTQModifier(targets="Linear", scheme="W4A16", ignore=["lm_head"])
diff --git a/examples/quantization_w4a16/llama3_ddp_example.py b/examples/quantization_w4a16/llama3_ddp_example.py
@@ -14,7 +14,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.datasets.utils import get_rank_partition
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
 
diff --git a/examples/quantization_w4a16/llama3_example.py b/examples/quantization_w4a16/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a16_fp4/mxfp4/llama3_example.py b/examples/quantization_w4a16_fp4/mxfp4/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a4_fp4/llama3_gptq_example.py b/examples/quantization_w4a4_fp4/llama3_gptq_example.py
@@ -10,7 +10,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w4a8_fp8/llama3_example.py b/examples/quantization_w4a8_fp8/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
diff --git a/examples/quantization_w8a8_int8/README.md b/examples/quantization_w8a8_int8/README.md
@@ -85,7 +85,7 @@ We first select the quantization algorithm. For W8A8, we want to:
 
 ```python
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Configure the quantization algorithms to run.
diff --git a/examples/quantization_w8a8_int8/gemma2_example.py b/examples/quantization_w8a8_int8/gemma2_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # 1) Select model and load it.
 MODEL_ID = "google/gemma-2-2b-it"
diff --git a/examples/quantization_w8a8_int8/llama3_example.py b/examples/quantization_w8a8_int8/llama3_example.py
@@ -3,7 +3,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 
 # Select model and load it.
diff --git a/examples/quantizing_moe/deepseek_r1_example.py b/examples/quantizing_moe/deepseek_r1_example.py
@@ -2,7 +2,7 @@
 from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # Select model and load it.
 
diff --git a/examples/quantizing_moe/qwen_example.py b/examples/quantizing_moe/qwen_example.py
@@ -4,7 +4,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 # select a Mixture of Experts model for quantization
 MODEL_ID = "Qwen/Qwen1.5-MoE-A2.7B-Chat"
diff --git a/src/llmcompressor/modifiers/factory.py b/src/llmcompressor/modifiers/factory.py
@@ -48,6 +48,9 @@ def load_from_package(package_path: str) -> dict[str, type[Modifier]]:
         deprecated_packages = [
             "llmcompressor.modifiers.obcq",
             "llmcompressor.modifiers.obcq.sgpt_base",
+            "llmcompressor.modifiers.quantization.gptq",
+            "llmcompressor.modifiers.quantization.gptq.base",
+            "llmcompressor.modifiers.quantization.gptq.gptq_quantize",
         ]
         for _importer, modname, _is_pkg in pkgutil.walk_packages(
             main_package.__path__, package_path + "."
diff --git a/src/llmcompressor/modifiers/gptq/__init__.py b/src/llmcompressor/modifiers/gptq/__init__.py
@@ -0,0 +1,4 @@
+# ruff: noqa
+
+from .base import *
+from .gptq_quantize import *
diff --git a/src/llmcompressor/modifiers/gptq/base.py b/src/llmcompressor/modifiers/gptq/base.py
@@ -22,12 +22,12 @@
 
 from llmcompressor.core import Event, EventType, State
 from llmcompressor.modifiers import Modifier
-from llmcompressor.modifiers.quantization.calibration import update_weight_global_scale
-from llmcompressor.modifiers.quantization.gptq.gptq_quantize import (
+from llmcompressor.modifiers.gptq.gptq_quantize import (
     accumulate_hessian,
     make_empty_hessian,
     quantize_weight,
 )
+from llmcompressor.modifiers.quantization.calibration import update_weight_global_scale
 from llmcompressor.modifiers.quantization.quantization import QuantizationMixin
 from llmcompressor.modifiers.utils import update_fused_layer_weight_global_scales
 from llmcompressor.sentinel import Sentinel
diff --git a/src/llmcompressor/modifiers/gptq/gptq_quantize.py b/src/llmcompressor/modifiers/gptq/gptq_quantize.py
diff --git a/src/llmcompressor/modifiers/quantization/__init__.py b/src/llmcompressor/modifiers/quantization/__init__.py
@@ -1,4 +1,4 @@
 # ruff: noqa
 
-from .gptq import *
+from llmcompressor.modifiers.gptq import *
 from .quantization import *
diff --git a/src/llmcompressor/modifiers/quantization/gptq/__init__.py b/src/llmcompressor/modifiers/quantization/gptq/__init__.py
@@ -1,3 +1,11 @@
 # ruff: noqa
+import warnings
 
-from .base import *
+warnings.warn(
+    "Importing from llmcompressor.modifiers.quantization.gptq is deprecated. "
+    "Please import from llmcompressor.modifiers.gptq instead.",
+    DeprecationWarning,
+    stacklevel=2,
+)
+
+from llmcompressor.modifiers.gptq import *
diff --git a/tests/e2e/e2e_utils.py b/tests/e2e/e2e_utils.py
@@ -7,7 +7,8 @@
 from transformers import AutoProcessor, DefaultDataCollator
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization import GPTQModifier, QuantizationModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
+from llmcompressor.modifiers.quantization import QuantizationModifier
 from tests.test_timer.timer_utils import log_time
 from tests.testing_utils import process_dataset
 
diff --git a/tests/llmcompressor/modifiers/quantization/test_base.py b/tests/llmcompressor/modifiers/quantization/test_base.py
@@ -3,7 +3,7 @@
 import pytest
 from compressed_tensors.quantization import QuantizationArgs, QuantizationScheme
 
-from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 
 @pytest.fixture
diff --git a/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py b/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py
@@ -2,7 +2,7 @@
 import torch
 
 from llmcompressor.modifiers.pruning.sparsegpt import SparseGPTModifier
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from tests.llmcompressor.modifiers.conf import LifecyleTestingHarness
 from tests.llmcompressor.pytorch.helpers import LinearNet
 
diff --git a/tests/llmcompressor/transformers/compression/test_recipe_parsing.py b/tests/llmcompressor/transformers/compression/test_recipe_parsing.py
@@ -5,7 +5,7 @@
 
 from llmcompressor import oneshot
 from llmcompressor.core.session_functions import reset_session
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 from llmcompressor.modifiers.transform.smoothquant import SmoothQuantModifier
 from llmcompressor.modifiers.transform.smoothquant.utils import (
     DEFAULT_SMOOTHQUANT_MAPPINGS,
diff --git a/tests/llmcompressor/transformers/gptq/test_gptq_oneshot.py b/tests/llmcompressor/transformers/gptq/test_gptq_oneshot.py
@@ -4,7 +4,7 @@
 from transformers import AutoModelForCausalLM
 
 from llmcompressor import oneshot
-from llmcompressor.modifiers.quantization.gptq import GPTQModifier
+from llmcompressor.modifiers.gptq import GPTQModifier
 
 recipe_str = """
 quant_stage:

Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,7 @@`
`8`	`8`	`)`
`9`	`9`
`10`	`10`	`from llmcompressor import oneshot`
`11`		`-from llmcompressor.modifiers.quantization import GPTQModifier`
	`11`	`+from llmcompressor.modifiers.gptq import GPTQModifier`
`12`	`12`
`13`	`13`	`# Select model and load it.`
`14`	`14`	`MODEL_ID = "openai/whisper-large-v3"`
Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@`
`12`	`12`	`)`
`13`	`13`
`14`	`14`	`from llmcompressor import oneshot`
`15`		`-from llmcompressor.modifiers.quantization import GPTQModifier`
	`15`	`+from llmcompressor.modifiers.gptq import GPTQModifier`
`16`	`16`
`17`	`17`	`# Load model.`
`18`	`18`	`model_id = "mistralai/Mistral-Small-3.1-24B-Instruct-2503"`