vllm-project
diff --git a/‎README.md‎
Lines changed: 1 addition & 1 deletion b/‎README.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/big_models_with_accelerate/cpu_offloading_fp8.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/big_models_with_accelerate/cpu_offloading_fp8.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/big_models_with_accelerate/mult_gpus_int8_device_map.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/big_models_with_accelerate/mult_gpus_int8_device_map.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/big_models_with_accelerate/multi_gpu_int8.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/big_models_with_accelerate/multi_gpu_int8.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_audio/whisper_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_audio/whisper_example.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_vision/idefics3_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_vision/idefics3_example.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_vision/llava_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_vision/llava_example.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_vision/mllama_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_vision/mllama_example.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_vision/phi3_vision_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_vision/phi3_vision_example.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/multimodal_vision/pixtral_example.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/multimodal_vision/pixtral_example.py‎
Lines changed: 1 addition & 1 deletion
@@ -58,7 +58,7 @@ Quantization is applied by selecting an algorithm and calling the `oneshot` API.
 ```python
 from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
+from llmcompressor import oneshot
 
 # Select quantization algorithm. In this case, we:
 #   * apply SmoothQuant to make the activations easier to quantize
 
@@ -1,7 +1,7 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import QuantizationModifier
-from llmcompressor.transformers import oneshot
 
 MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"
 OUTPUT_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
 
@@ -2,9 +2,9 @@
 from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
 from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.compression.helpers import calculate_offload_device_map
 
 MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"
 
@@ -1,8 +1,8 @@
 from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 
 MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"
 SAVE_DIR = MODEL_ID.split("/")[1] + "-W8A8-Dynamic"
 
@@ -2,8 +2,8 @@
 from datasets import load_dataset
 from transformers import WhisperProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.tracing import TraceableWhisperForConditionalGeneration
 
 # Select model and load it.
 
@@ -4,8 +4,8 @@
 from PIL import Image
 from transformers import AutoProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.tracing import TraceableIdefics3ForConditionalGeneration
 
 # Load model.
 
@@ -3,8 +3,8 @@
 from PIL import Image
 from transformers import AutoProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.tracing import TraceableLlavaForConditionalGeneration
 
 # Load model.
 
@@ -3,8 +3,8 @@
 from PIL import Image
 from transformers import AutoProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.tracing import TraceableMllamaForConditionalGeneration
 
 # Load model.
 
@@ -5,8 +5,8 @@
 from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 
 # Load model.
 model_id = "microsoft/Phi-3-vision-128k-instruct"
 
@@ -3,8 +3,8 @@
 from PIL import Image
 from transformers import AutoProcessor
 
+from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import GPTQModifier
-from llmcompressor.transformers import oneshot
 from llmcompressor.transformers.tracing import TraceableLlavaForConditionalGeneration
 
 # Load model.