disable for non-rocm platforms

kliuae · kliuae · commit 0c43506a9f97 · 2024-12-20T14:44:35.000Z
diff --git a/vllm/model_executor/layers/quantization/ptpc_fp8.py b/vllm/model_executor/layers/quantization/ptpc_fp8.py
@@ -1,25 +1,16 @@
 from typing import Any, Dict, List, Optional
 
 import torch
-from torch.nn import Module
-from torch.nn.parameter import Parameter
 
 from vllm.logger import init_logger
-from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
+from vllm.model_executor.layers.linear import (LinearBase,
                                                UnquantizedLinearMethod)
 from vllm.model_executor.layers.quantization.base_config import (
-    QuantizationConfig, QuantizeMethodBase)
-from vllm.model_executor.layers.quantization.fp8 import cutlass_fp8_supported
+    QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.fbgemm_fp8 import (
     FBGEMMFp8Config, FBGEMMFp8LinearMethod)
-from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
-    apply_fp8_marlin_linear, prepare_fp8_layer_for_marlin)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     is_layer_skipped)
-from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
-    apply_fp8_linear, normalize_e4m3fn_to_e4m3fnuz)
-from vllm.model_executor.parameter import (ChannelQuantScaleParameter,
-                                           ModelWeightParameter)
 from vllm.platforms import current_platform
 
 logger = init_logger(__name__)
@@ -29,6 +20,8 @@ class PTPCFp8Config(FBGEMMFp8Config):
     """Config class for Per-Token-Per-Channel Fp8."""
 
     def __init__(self, ignore_list: Optional[List[str]] = None):
+        if not current_platform.is_rocm():
+            raise ValueError("ptpc_fpp8 quantization is supported only on ROCm")
         super().__init__(ignore_list, 1.0) # Dummy values
 
     @classmethod