feat: formatting and InferenceSpec support for MMS

Bryannah Hernandez · Bryannah Hernandez · commit 719fe7e2b003 · 2024-07-02T12:04:01.000-07:00
diff --git a/src/sagemaker/serve/builder/model_builder.py b/src/sagemaker/serve/builder/model_builder.py
@@ -857,7 +857,7 @@ def build(  # pylint: disable=R0911
 
     def _build_validations(self):
         """Validations needed for model server overrides, or auto-detection or fallback"""
-        if self.mode == Mode.IN_PROCESS:
+        if self.mode == Mode.IN_PROCESS and self.model_server is not ModelServer.MMS:
             raise ValueError("IN_PROCESS mode is not supported yet!")
 
         if self.inference_spec and self.model:
diff --git a/src/sagemaker/serve/builder/transformers_builder.py b/src/sagemaker/serve/builder/transformers_builder.py
@@ -29,7 +29,7 @@
 from sagemaker.huggingface import HuggingFaceModel
 from sagemaker.serve.model_server.multi_model_server.prepare import (
     _create_dir_structure,
-    prepare_for_mms
+    prepare_for_mms,
 )
 from sagemaker.serve.detector.image_detector import (
     auto_detect_container,
@@ -161,7 +161,7 @@ def _get_hf_metadata_create_model(self) -> Type[Model]:
                 vpc_config=self.vpc_config,
             )
 
-        if self.mode == Mode.LOCAL_CONTAINER:
+        if self.mode == Mode.LOCAL_CONTAINER or self.mode == Mode.IN_PROCESS:
             self.image_uri = pysdk_model.serving_image_uri(
                 self.sagemaker_session.boto_region_name, "local"
             )
@@ -227,6 +227,23 @@ def _transformers_model_builder_deploy_wrapper(self, *args, **kwargs) -> Type[Pr
             )
             return predictor
 
+        if self.mode == Mode.IN_PROCESS:
+            timeout = kwargs.get("model_data_download_timeout")
+
+            predictor = TransformersLocalModePredictor(
+                self.modes[str(Mode.IN_PROCESS)], serializer, deserializer
+            )
+
+            self.modes[str(Mode.IN_PROCESS)].create_server(
+                self.image_uri,
+                timeout if timeout else DEFAULT_TIMEOUT,
+                None,
+                predictor,
+                self.pysdk_model.env,
+                jumpstart=False,
+            )
+            return predictor
+
         if "mode" in kwargs:
             del kwargs["mode"]
         if "role" in kwargs:
@@ -276,11 +293,11 @@ def _build_transformers_env(self):
 
         self.pysdk_model = self._create_transformers_model()
 
-        if self.mode == Mode.LOCAL_CONTAINER:
+        if self.mode == Mode.LOCAL_CONTAINER or self.mode == Mode.IN_PROCESS:
             self._prepare_for_mode()
 
         logger.info("Model configuration %s", self.pysdk_model)
-        
+
         return self.pysdk_model
 
     def _set_instance(self, **kwargs):
@@ -343,7 +360,6 @@ def _auto_detect_container(self):
         else:
             raise ValueError("Cannot detect required model or inference spec")
 
-
     def _build_for_transformers(self):
         """Method that triggers model build
 
diff --git a/src/sagemaker/serve/mode/in_process_mode.py b/src/sagemaker/serve/mode/in_process_mode.py
@@ -0,0 +1,164 @@
+"""Module that defines the LocalContainerMode class"""
+
+from __future__ import absolute_import
+from pathlib import Path
+import logging
+from datetime import datetime, timedelta
+from typing import Dict, Type
+import base64
+import time
+import subprocess
+import docker
+
+from sagemaker.base_predictor import PredictorBase
+from sagemaker.serve.spec.inference_spec import InferenceSpec
+from sagemaker.serve.builder.schema_builder import SchemaBuilder
+from sagemaker.serve.utils.logging_agent import pull_logs
+from sagemaker.serve.utils.types import ModelServer
+from sagemaker.serve.utils.exceptions import LocalDeepPingException
+from sagemaker.serve.model_server.multi_model_server.server import InProcessMultiModelServer
+from sagemaker.session import Session
+
+logger = logging.getLogger(__name__)
+
+_PING_HEALTH_CHECK_INTERVAL_SEC = 5
+
+_PING_HEALTH_CHECK_FAIL_MSG = (
+    "Container did not pass the ping health check. "
+    + "Please increase container_timeout_seconds or review your inference code."
+)
+
+
+class InProcessMode(
+    InProcessMultiModelServer,
+):
+    """A class that holds methods to deploy model to a container in local environment"""
+
+    def __init__(
+        self,
+        model_server: ModelServer,
+        inference_spec: Type[InferenceSpec],
+        schema_builder: Type[SchemaBuilder],
+        session: Session,
+        model_path: str = None,
+        env_vars: Dict = None,
+    ):
+        # pylint: disable=bad-super-call
+        super().__init__()
+
+        self.inference_spec = inference_spec
+        self.model_path = model_path
+        self.env_vars = env_vars
+        self.session = session
+        self.schema_builder = schema_builder
+        self.ecr = session.boto_session.client("ecr")
+        self.model_server = model_server
+        self.client = None
+        self.container = None
+        self.secret_key = None
+        self._ping_container = None
+        self._invoke_serving = None
+
+    def load(self, model_path: str = None):
+        """Placeholder docstring"""
+        path = Path(model_path if model_path else self.model_path)
+        if not path.exists():
+            raise Exception("model_path does not exist")
+        if not path.is_dir():
+            raise Exception("model_path is not a valid directory")
+
+        return self.inference_spec.load(str(path))
+
+    def prepare(self):
+        """Placeholder docstring"""
+
+    def create_server(
+        self,
+        image: str,
+        container_timeout_seconds: int,
+        secret_key: str,
+        predictor: PredictorBase,
+        env_vars: Dict[str, str] = None,
+        model_path: str = None,
+    ):
+        """Placeholder docstring"""
+
+        self._pull_image(image=image)
+
+        self.destroy_server()
+
+        logger.info("Waiting for model server %s to start up...", self.model_server)
+
+        if self.model_server == ModelServer.MMS:
+            self._start_serving(
+                client=self.client,
+                image=image,
+                model_path=model_path if model_path else self.model_path,
+                secret_key=secret_key,
+                env_vars=env_vars if env_vars else self.env_vars,
+            )
+            self._ping_container = self._multi_model_server_deep_ping
+
+        # allow some time for container to be ready
+        time.sleep(10)
+
+        log_generator = self.container.logs(follow=True, stream=True)
+        time_limit = datetime.now() + timedelta(seconds=container_timeout_seconds)
+        healthy = False
+        while True:
+            now = datetime.now()
+            final_pull = now > time_limit
+            pull_logs(
+                (x.decode("UTF-8").rstrip() for x in log_generator),
+                log_generator.close,
+                datetime.now() + timedelta(seconds=_PING_HEALTH_CHECK_INTERVAL_SEC),
+                now > time_limit,
+            )
+
+            if final_pull:
+                break
+
+            # allow some time for container to be ready
+            time.sleep(10)
+
+            healthy, response = self._ping_container(predictor)
+            if healthy:
+                logger.debug("Ping health check has passed. Returned %s", str(response))
+                break
+
+        if not healthy:
+            raise LocalDeepPingException(_PING_HEALTH_CHECK_FAIL_MSG)
+
+    def destroy_server(self):
+        """Placeholder docstring"""
+        if self.container:
+            try:
+                logger.debug("Stopping currently running container...")
+                self.container.kill()
+            except docker.errors.APIError as exc:
+                if exc.response.status_code < 400 or exc.response.status_code > 499:
+                    raise Exception("Error encountered when cleaning up local container") from exc
+            self.container = None
+
+    def _pull_image(self, image: str):
+        """Placeholder docstring"""
+        try:
+            encoded_token = (
+                self.ecr.get_authorization_token()
+                .get("authorizationData")[0]
+                .get("authorizationToken")
+            )
+            decoded_token = base64.b64decode(encoded_token).decode("utf-8")
+            username, password = decoded_token.split(":")
+            ecr_uri = image.split("/")[0]
+            login_command = ["docker", "login", "-u", username, "-p", password, ecr_uri]
+            subprocess.run(login_command, check=True, capture_output=True)
+        except subprocess.CalledProcessError as e:
+            logger.warning("Unable to login to ecr: %s", e)
+
+        self.client = docker.from_env()
+        try:
+            logger.info("Pulling image %s from repository...", image)
+            self.client.images.pull(image)
+        except docker.errors.NotFound as e:
+            raise ValueError("Could not find remote image to pull") from e
diff --git a/src/sagemaker/serve/model_server/multi_model_server/inference.py b/src/sagemaker/serve/model_server/multi_model_server/inference.py
diff --git a/src/sagemaker/serve/model_server/multi_model_server/prepare.py b/src/sagemaker/serve/model_server/multi_model_server/prepare.py
@@ -75,13 +75,14 @@ def prepare_mms_js_resources(
 
     return _copy_jumpstart_artifacts(model_data, js_id, code_dir)
 
+
 def prepare_for_mms(
-        model_path: str,
-        shared_libs: List[str],
-        dependencies: dict,
-        session: Session,
-        image_uri: str,
-        inference_spec: InferenceSpec = None,
+    model_path: str,
+    shared_libs: List[str],
+    dependencies: dict,
+    session: Session,
+    image_uri: str,
+    inference_spec: InferenceSpec = None,
 ) -> str:
     """This is a one-line summary of the function.
     Args:to
@@ -124,4 +125,4 @@ def prepare_for_mms(
     with open(str(code_dir.joinpath("metadata.json")), "wb") as metadata:
         metadata.write(_MetaData(hash_value).to_json())
 
-    return secret_key
+    return secret_key