add optimization validations

gwang111 · gwang111 · commit bf55587b0f84 · 2024-11-13T21:56:02.000Z
diff --git a/src/sagemaker/serve/builder/model_builder.py b/src/sagemaker/serve/builder/model_builder.py
@@ -104,6 +104,7 @@
     get_huggingface_model_metadata,
     download_huggingface_model_metadata,
 )
+from sagemaker.serve.validations.optimization import validate_optimization_configuration
 
 logger = logging.getLogger(__name__)
 
@@ -1160,6 +1161,15 @@ def optimize(
             Model: A deployable ``Model`` object.
         """
 
+        # TODO: ideally these dictionaries need to be sagemaker_core shapes
+        validate_optimization_configuration(
+            instance_type=instance_type,
+            quantization_config=quantization_config,
+            compilation_config=compilation_config,
+            sharding_config=sharding_config,
+            speculative_decoding_config=speculative_decoding_config,
+        )
+
         # need to get telemetry_opt_out info before telemetry decorator is called
         self.serve_settings = self._get_serve_setting()
 
diff --git a/src/sagemaker/serve/validations/optimization.py b/src/sagemaker/serve/validations/optimization.py
@@ -0,0 +1,165 @@
+# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License"). You
+# may not use this file except in compliance with the License. A copy of
+# the License is located at
+#
+#     http://aws.amazon.com/apache2.0/
+#
+# or in the "license" file accompanying this file. This file is
+# distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF
+# ANY KIND, either express or implied. See the License for the specific
+# language governing permissions and limitations under the License.
+"""Holds the validation logic used for the .optimize() function"""
+from typing import Any, Dict, Set
+from enum import Enum
+from pydantic import BaseModel
+import textwrap
+import logging
+
+logger = logging.getLogger(__name__)
+
+
+class OptimizationContainer(Enum):
+    TRT = "trt"
+    VLLM = "vllm"
+    NEURON = "neuron"
+
+
+class OptimizationCombination(BaseModel):
+    optimization_container: OptimizationContainer = None
+    compilation: bool
+    speculative_decoding: bool
+    sharding: bool
+    quantization_technique: Set[str | None]
+
+    def validate_against(self, optimization_combination, rule_set: OptimizationContainer):
+        if not optimization_combination.compilation == self.compilation:
+            raise ValueError("model compilation is not supported")
+        if not optimization_combination.quantization_technique.issubset(self.quantization_technique):
+            raise ValueError("model quantization is not supported")
+        if not optimization_combination.speculative_decoding == self.speculative_decoding:
+            raise ValueError("speculative decoding is not supported")
+        if not optimization_combination.sharding == self.sharding:
+            raise ValueError("model sharding is not supported")
+
+        if rule_set == OptimizationContainer == OptimizationContainer.TRT:
+            if optimization_combination.compilation and optimization_combination.speculative_decoding:
+                raise ValueError("model compilation and speculative decoding provided together ")
+        else:
+            if optimization_combination.compilation and optimization_combination.quantization_technique:
+                raise ValueError("model compilation and model quantization provided together is not supported")
+
+
+TRT_CONFIGURATION = {
+    "supported_instance_families": {"p4d", "p4de", "p5", "g5", "g6"},
+    "optimization_combination": OptimizationCombination(
+        optimization_container=OptimizationContainer.TRT,
+        compilation=True,
+        quantization_technique={"awq", "fp8", "smooth_quant"},
+        speculative_decoding=False,
+        sharding=False,
+    )
+}
+VLLM_CONFIGURATION = {
+    "supported_instance_families": {"p4d", "p4de", "p5", "g5", "g6"},
+    "optimization_combination": OptimizationCombination(
+        optimization_container=OptimizationContainer.VLLM,
+        compilation=False,
+        quantization_technique={"awq", "fp8"},
+        speculative_decoding=True,
+        sharding=True
+    )
+}
+NEURON_CONFIGURATION = {
+    "supported_instance_families": {"inf2", "trn1", "trn1n"},
+    "optimization_combination": OptimizationCombination(
+        optimization_container=OptimizationContainer.NEURON,
+        compilation=True,
+        quantization_technique=set(),
+        speculative_decoding=False,
+        sharding=False
+    )
+}
+
+VALIDATION_ERROR_MSG = (
+    "The model cannot be optimized with the provided configurations on "
+    "{optimization_container} supported {instance_type} because {validation_error}."
+)
+
+
+def validate_optimization_configuration(
+    instance_type: str,
+    quantization_config: Dict[str, Any],
+    compilation_config: Dict[str, Any],
+    sharding_config: Dict[str, Any],
+    speculative_decoding_config: Dict[str, Any]
+):
+    split_instance_type = instance_type.split(".")
+    instance_family = None
+    if len(split_instance_type) == 3:  # invalid instance type will be caught below
+        instance_family = split_instance_type[1]
+
+    if (
+        not instance_family in TRT_CONFIGURATION["supported_instance_families"] and
+        not instance_family in VLLM_CONFIGURATION["supported_instance_families"] and
+        not instance_family in NEURON_CONFIGURATION["supported_instance_families"]
+    ):
+        invalid_instance_type_msg = f"""
+        The model cannot be optimized on {instance_type}. Please optimize on the following instance type families:
+        - For {OptimizationContainer.TRT} optimized container: {TRT_CONFIGURATION["supported_instance_families"]}
+        - For {OptimizationContainer.VLLM} optimized container: {VLLM_CONFIGURATION["supported_instance_families"]}
+        - For {OptimizationContainer.NEURON} optimized container: {NEURON_CONFIGURATION["supported_instance_families"]}
+        """
+        raise ValueError(textwrap.dedent(invalid_instance_type_msg))
+
+    optimization_combination = OptimizationCombination(
+        compilation=not compilation_config,
+        speculative_decoding=not speculative_decoding_config,
+        sharding=not sharding_config,
+        quantization_technique={quantization_config.get("OPTION_QUANTIZE") if quantization_config else None}
+    )
+
+    if instance_type in NEURON_CONFIGURATION["supported_instance_families"]:
+        try:
+            (
+                NEURON_CONFIGURATION["optimization_combination"]
+                .validate_against(optimization_combination, rule_set=OptimizationContainer.VLLM)
+            )
+        except ValueError as neuron_compare_error:
+            raise ValueError(
+                VALIDATION_ERROR_MSG.format(
+                    optimization_container=OptimizationContainer.NEURON.value,
+                    instance_type=instance_type,
+                    validation_error=neuron_compare_error
+                )
+            )
+    else:
+        try:
+            (
+                TRT_CONFIGURATION["optimization_combination"]
+                .validate_against(optimization_combination, rule_set=OptimizationContainer.TRT)
+            )
+        except ValueError as trt_compare_error:
+            try:
+                (
+                    VLLM_CONFIGURATION["optimization_combination"]
+                    .validate_against(optimization_combination, rule_set=OptimizationContainer.VLLM)
+                )
+            except ValueError as vllm_compare_error:
+                trt_error_msg = VALIDATION_ERROR_MSG.format(
+                    optimization_container=OptimizationContainer.TRT.value,
+                    instance_type=instance_type,
+                    validation_error=trt_compare_error
+                )
+                vllm_error_msg = VALIDATION_ERROR_MSG.format(
+                    optimization_container=OptimizationContainer.VLLM.value,
+                    instance_type=instance_type,
+                    validation_error=vllm_compare_error
+                )
+                joint_error_msg = f"""
+                The model cannot be optimized for the following reasons:
+                - {trt_error_msg}
+                - {vllm_error_msg}
+                """
+                raise ValueError(textwrap.dedent(joint_error_msg))