Update readme

zhaoqizqwang · zhaoqizqwang · commit dee74e295f82 · 2025-07-23T16:23:53.000-07:00
diff --git a/README.md b/README.md
@@ -337,24 +337,21 @@ Pre-trained Jumpstart models can be gotten from https://sagemaker.readthedocs.io
 from sagemaker.hyperpod.inference.config.hp_jumpstart_endpoint_config import Model, Server, SageMakerEndpoint, TlsConfig
 from sagemaker.hyperpod.inference.hp_jumpstart_endpoint import HPJumpStartEndpoint
 
-model = Model(
-    model_id="deepseek-llm-r1-distill-qwen-1-5b",
-    model_version="2.0.4"
+model=Model(
+    model_id='deepseek-llm-r1-distill-qwen-1-5b',
+    model_version='2.0.4',
 )
-
-server = Server(
-    instance_type="ml.g5.8xlarge"
+server=Server(
+    instance_type='ml.g5.8xlarge',
 )
+endpoint_name=SageMakerEndpoint(name='<my-endpoint-name>')
+tls_config=TlsConfig(tls_certificate_output_s3_uri='s3://<my-tls-bucket>')
 
-endpoint_name = SageMakerEndpoint(name="endpoint-jumpstart")
-
-tls_config = TlsConfig(tls_certificate_output_s3_uri="s3://sample-bucket")
-
-js_endpoint = HPJumpStartEndpoint(
+js_endpoint=HPJumpStartEndpoint(
     model=model,
     server=server,
     sage_maker_endpoint=endpoint_name,
-    tls_config=tls_config
+    tls_config=tls_config,
 )
 
 js_endpoint.create()
@@ -370,51 +367,51 @@ print(response)
 ```
 
 
-#### Creating a Custom Inference Endpoint 
+#### Creating a Custom Inference Endpoint (with S3)
 
 ```
-from sagemaker.hyperpod.inference.config.hp_custom_endpoint_config import Model, Server, SageMakerEndpoint, TlsConfig, EnvironmentVariables
-from sagemaker.hyperpod.inference.hp_custom_endpoint import HPCustomEndpoint
+from sagemaker.hyperpod.inference.config.hp_endpoint_config import CloudWatchTrigger, Dimensions, AutoScalingSpec, Metrics, S3Storage, ModelSourceConfig, TlsConfig, EnvironmentVariables, ModelInvocationPort, ModelVolumeMount, Resources, Worker
+from sagemaker.hyperpod.inference.hp_endpoint import HPEndpoint
 
-model = Model(
-    model_source_type="s3",
-    model_location="test-pytorch-job/model.tar.gz",
-    s3_bucket_name="my-bucket",
-    s3_region="us-east-2",
-    prefetch_enabled=True
+model_source_config = ModelSourceConfig(
+    model_source_type='s3',
+    model_location="<my-model-folder-in-s3>",
+    s3_storage=S3Storage(
+        bucket_name='<my-model-artifacts-bucket>',
+        region='us-east-2',
+    ),
 )
 
-server = Server(
-    instance_type="ml.g5.8xlarge",
-    image_uri="763104351884.dkr.ecr.us-east-2.amazonaws.com/huggingface-pytorch-tgi-inference:2.4.0-tgi2.3.1-gpu-py311-cu124-ubuntu22.04-v2.0",
-    container_port=8080,
-    model_volume_mount_name="model-weights"
-)
+environment_variables = [
+    EnvironmentVariables(name="HF_MODEL_ID", value="/opt/ml/model"),
+    EnvironmentVariables(name="SAGEMAKER_PROGRAM", value="inference.py"),
+    EnvironmentVariables(name="SAGEMAKER_SUBMIT_DIRECTORY", value="/opt/ml/model/code"),
+    EnvironmentVariables(name="MODEL_CACHE_ROOT", value="/opt/ml/model"),
+    EnvironmentVariables(name="SAGEMAKER_ENV", value="1"),
+]
 
-resources = {
-    "requests": {"cpu": "30000m", "nvidia.com/gpu": 1, "memory": "100Gi"},
-    "limits": {"nvidia.com/gpu": 1}
-}
-
-env = EnvironmentVariables(
-    HF_MODEL_ID="/opt/ml/model",
-    SAGEMAKER_PROGRAM="inference.py",
-    SAGEMAKER_SUBMIT_DIRECTORY="/opt/ml/model/code",
-    MODEL_CACHE_ROOT="/opt/ml/model",
-    SAGEMAKER_ENV="1"
+worker = Worker(
+    image='763104351884.dkr.ecr.us-east-2.amazonaws.com/huggingface-pytorch-tgi-inference:2.4.0-tgi2.3.1-gpu-py311-cu124-ubuntu22.04-v2.0',
+    model_volume_mount=ModelVolumeMount(
+        name='model-weights',
+    ),
+    model_invocation_port=ModelInvocationPort(container_port=8080),
+    resources=Resources(
+            requests={"cpu": "30000m", "nvidia.com/gpu": 1, "memory": "100Gi"},
+            limits={"nvidia.com/gpu": 1}
+    ),
+    environment_variables=environment_variables,
 )
 
-endpoint_name = SageMakerEndpoint(name="endpoint-custom-pytorch")
-
-tls_config = TlsConfig(tls_certificate_output_s3_uri="s3://sample-bucket")
+tls_config=TlsConfig(tls_certificate_output_s3_uri='s3://<my-tls-bucket-name>')
 
-custom_endpoint = HPCustomEndpoint(
-    model=model,
-    server=server,
-    resources=resources,
-    environment=env,
-    sage_maker_endpoint=endpoint_name,
+custom_endpoint = HPEndpoint(
+    endpoint_name='<my-endpoint-name>',
+    instance_type='ml.g5.8xlarge',
+    model_name='deepseek15b-test-model-name',  
     tls_config=tls_config,
+    model_source_config=model_source_config,
+    worker=worker,
 )
 
 custom_endpoint.create()
@@ -431,19 +428,17 @@ print(response)
 #### Managing an Endpoint 
 
 ```
-endpoint_iterator = HPJumpStartEndpoint.list()
-for endpoint in endpoint_iterator:
-    print(endpoint.name, endpoint.status)
+endpoint_list = HPEndpoint.list()
+print(endpoint_list[0])
 
-logs = js_endpoint.get_logs()
-print(logs)
+print(custom_endpoint.get_operator_logs(since_hours=0.5))
 
 ```
 
 #### Deleting an Endpoint 
 
 ```
-js_endpoint.delete()
+custom_endpoint.delete()
 
 ```
 
diff --git a/examples/inference/SDK/inference-s3-model-e2e.ipynb b/examples/inference/SDK/inference-s3-model-e2e.ipynb
@@ -29,7 +29,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sagemaker.hyperpod.inference.config.hp_endpoint_config import CloudWatchTrigger, Dimensions, PrometheusTrigger, AutoScalingSpec, ModelMetrics, Metrics, FsxStorage, S3Storage, ModelSourceConfig, Tags, TlsConfig, ConfigMapKeyRef, FieldRef, ResourceFieldRef, SecretKeyRef, ValueFrom, EnvironmentVariables, ModelInvocationPort, ModelVolumeMount, Claims, Resources, Worker\n",
+    "from sagemaker.hyperpod.inference.config.hp_endpoint_config import CloudWatchTrigger, Dimensions, AutoScalingSpec, Metrics, S3Storage, ModelSourceConfig, TlsConfig, EnvironmentVariables, ModelInvocationPort, ModelVolumeMount, Resources, Worker\n",
     "from sagemaker.hyperpod.inference.hp_endpoint import HPEndpoint\n",
     "import yaml\n",
     "import time"
@@ -72,35 +72,7 @@
     "            limits={\"nvidia.com/gpu\": 1}\n",
     "    ),\n",
     "    environment_variables=environment_variables,\n",
-    ")\n",
-    "\n",
-    "# Create dimensions\n",
-    "dimensions = [\n",
-    "    Dimensions(name=\"EndpointName\", value=\"<my-endpoint-name>\"),\n",
-    "    Dimensions(name=\"VariantName\", value=\"AllTraffic\")\n",
-    "]\n",
-    "\n",
-    "# Create CloudWatch trigger\n",
-    "cloudwatch_trigger = CloudWatchTrigger(\n",
-    "    dimensions=dimensions,\n",
-    "    metric_collection_period=30,\n",
-    "    metric_name=\"Invocations\",\n",
-    "    metric_stat=\"Sum\",\n",
-    "    metric_type=\"Average\",\n",
-    "    min_value=0.0,\n",
-    "    name=\"SageMaker-Invocations\",\n",
-    "    namespace=\"AWS/SageMaker\",\n",
-    "    target_value=10,\n",
-    "    use_cached_metrics=False\n",
-    ")\n",
-    "\n",
-    "# Create autoscaling spec\n",
-    "auto_scaling_spec = AutoScalingSpec(\n",
-    "    cloud_watch_trigger=cloudwatch_trigger\n",
-    ")\n",
-    "\n",
-    "# Create metrics\n",
-    "metrics = Metrics(enabled=True)"
+    ")"
    ]
   },
   {
@@ -117,8 +89,6 @@
     "    tls_config=tls_config,\n",
     "    model_source_config=model_source_config,\n",
     "    worker=worker,\n",
-    "    auto_scaling_spec=auto_scaling_spec,\n",
-    "    metrics=metrics,\n",
     ")"
    ]
   },