vllm-project · kylesayrs · Mar 18, 2026 · Mar 18, 2026 · Mar 19, 2026 · Mar 23, 2026
diff --git a/examples/quantization_attention/README.md b/examples/quantization_attention/README.md
@@ -0,0 +1 @@
+TODO, eval from eldar
diff --git a/experimental/attention/llama3_attention.py → ...uantization_attention/llama3_attention.py b/experimental/attention/llama3_attention.py → ...uantization_attention/llama3_attention.py
@@ -1,10 +1,10 @@
+from compressed_tensors.offload import dispatch_model
 from compressed_tensors.quantization import QuantizationArgs, QuantizationScheme
 from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 from llmcompressor import oneshot
 from llmcompressor.modifiers.quantization import QuantizationModifier
-from compressed_tensors.offload import dispatch_model
 
 # Select model and load it.
 model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		TODO, eval from eldar
kylesayrs marked this conversation as resolved. Outdated Show resolved Hide resolved