Merge pull request GoogleCloudPlatform#147 from enakai00/model_serving_update

duygune · web-flow · commit 6a42b77226a2 · 2022-08-31T11:42:42.000-04:00
Update Notebooks for model_serving/caip-load-testing
diff --git a/model_serving/caip-load-testing/01-prepare-and-deploy.ipynb b/model_serving/caip-load-testing/01-prepare-and-deploy.ipynb
@@ -22,7 +22,7 @@
    "source": [
     "## Setup\n",
     "\n",
-    "This Notebook was tested on **AI Platform Notebooks** using the standard TF 2.2 image."
+    "This Notebook was tested on **AI Platform Notebooks** using the standard TF 2.8 image."
    ]
   },
   {
@@ -72,9 +72,7 @@
     "GCS_MODEL_LOCATION = 'gs://{}/models/{}/{}'.format(BUCKET, MODEL_NAME, MODEL_VERSION)\n",
     "THUB_MODEL_HANDLE = 'https://tfhub.dev/google/imagenet/resnet_v2_101/classification/4'\n",
     "IMAGENET_LABELS_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/ImageNetLabels.txt'\n",
-    "IMAGES_FOLDER = 'test_images'\n",
-    "\n",
-    "!gcloud config set project $PROJECT_ID"
+    "IMAGES_FOLDER = 'test_images'"
    ]
   },
   {
@@ -550,7 +548,7 @@
    "source": [
     "!gcloud ai-platform models create {MODEL_NAME} \\\n",
     "  --project {PROJECT_ID} \\\n",
-    "  --regions {REGION}"
+    "  --region {REGION}"
    ]
   },
   {
@@ -559,7 +557,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "!gcloud ai-platform models list --project {PROJECT_ID} "
+    "!gcloud ai-platform models list \\\n",
+    "  --project {PROJECT_ID} \\\n",
+    "  --region {REGION}"
    ]
   },
   {
@@ -581,12 +581,13 @@
     "!gcloud beta ai-platform versions create {MODEL_VERSION} \\\n",
     "  --model={MODEL_NAME} \\\n",
     "  --origin={GCS_MODEL_LOCATION} \\\n",
-    "  --runtime-version=2.1 \\\n",
+    "  --runtime-version=2.8 \\\n",
     "  --framework=TENSORFLOW \\\n",
     "  --python-version=3.7 \\\n",
     "  --machine-type={MACHINE_TYPE} \\\n",
     "  --accelerator={ACCELERATOR} \\\n",
-    "  --project={PROJECT_ID}"
+    "  --project={PROJECT_ID} \\\n",
+    "  --region={REGION}"
    ]
   },
   {
@@ -595,7 +596,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "!gcloud ai-platform versions list --model={MODEL_NAME} --project={PROJECT_ID}"
+    "!gcloud ai-platform versions list \\\n",
+    "  --model={MODEL_NAME} --project={PROJECT_ID} --region={REGION}"
    ]
   },
   {
@@ -612,8 +614,14 @@
    "outputs": [],
    "source": [
     "import googleapiclient.discovery\n",
-    "\n",
-    "service = googleapiclient.discovery.build('ml', 'v1')\n",
+    "from google.api_core.client_options import ClientOptions\n",
+    "\n",
+    "prefix = '{}-ml'.format(REGION) if REGION else 'ml'\n",
+    "api_endpoint = 'https://{}.googleapis.com'.format(prefix)\n",
+    "client_options = ClientOptions(api_endpoint=api_endpoint)\n",
+    "service = googleapiclient.discovery.build('ml', 'v1',\n",
+    "                                          cache_discovery=False,\n",
+    "                                          client_options=client_options)\n",
     "name = 'projects/{}/models/{}/versions/{}'.format(PROJECT_ID, MODEL_NAME, MODEL_VERSION)\n",
     "print(\"Service name: {}\".format(name))\n",
     "\n",
diff --git a/model_serving/caip-load-testing/02-perf-testing.ipynb b/model_serving/caip-load-testing/02-perf-testing.ipynb
@@ -19,14 +19,16 @@
    "metadata": {},
    "source": [
     "## Setup\n",
-    "This notebook was tested on **AI Platform Notebooks** using the standard TF 2.2 image."
+    "This notebook was tested on **AI Platform Notebooks** using the standard TF 2.8 image."
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Install required packages"
+    "### Install required packages\n",
+    "\n",
+    "You can safely ignore the dependency errors. Confirm the last message starting from \"Successfully installed...\""
    ]
   },
   {
@@ -35,7 +37,10 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "%pip install -q -U locust google-cloud-monitoring google-cloud-logging google-cloud-monitoring-dashboards"
+     "!pip install --user locust==2.11.1\\\n",
+     "  google-cloud-monitoring==2.11.1\\\n",
+     "  google-cloud-logging==3.2.2\\\n",
+     "  google-cloud-monitoring-dashboards==2.7.2"
    ]
   },
   {
@@ -80,11 +85,11 @@
     "from google.api_core.exceptions import GoogleAPICallError \n",
     "\n",
     "from google.cloud import logging_v2\n",
-    "from google.cloud.logging_v2 import MetricsServiceV2Client\n",
-    "from google.cloud.logging_v2 import LoggingServiceV2Client\n",
+    "from google.cloud.logging_v2.services.metrics_service_v2 import MetricsServiceV2Client\n",
+    "from google.cloud.logging_v2.services.logging_service_v2 import LoggingServiceV2Client\n",
     "\n",
-    "from google.cloud.monitoring_dashboard.v1.types import Dashboard\n",
-    "from google.cloud.monitoring_dashboard.v1 import DashboardsServiceClient\n",
+    "from google.cloud.monitoring_dashboard_v1.types import Dashboard\n",
+    "from google.cloud.monitoring_dashboard_v1 import DashboardsServiceClient\n",
     "from google.cloud.monitoring_v3 import MetricServiceClient\n",
     "from google.cloud.monitoring_v3.query import Query\n",
     "from google.cloud.monitoring_v3.types import TimeInterval\n",
@@ -160,7 +165,7 @@
     "    value_field:str,  \n",
     "    bucket_bounds:List[int]):\n",
     "    \n",
-    "    metric_path = logging_client.metric_path(PROJECT_ID, metric_name)\n",
+    "    metric_path = logging_client.log_metric_path(PROJECT_ID, metric_name)\n",
     "    log_entry_filter = 'resource.type=global AND logName={}'.format(log_path)\n",
     "    \n",
     "    metric_descriptor = {\n",
@@ -203,7 +208,11 @@
     "        logging_client.get_log_metric(metric_path)\n",
     "        print('Metric: {} already exists'.format(metric_path))\n",
     "    except:\n",
-    "        logging_client.create_log_metric(parent, metric)\n",
+    "        request = logging_v2.types.logging_metrics.CreateLogMetricRequest(\n",
+    "            parent=parent,\n",
+    "            metric=metric,\n",
+    "        )\n",
+    "        logging_client.create_log_metric(request)\n",
     "        print('Created metric {}'.format(metric_path))"
    ]
   },
@@ -225,7 +234,7 @@
     "creds , _ = google.auth.default()\n",
     "logging_client = MetricsServiceV2Client(credentials=creds)\n",
     "\n",
-    "parent = logging_client.project_path(PROJECT_ID)\n",
+    "parent = logging_client.common_project_path(PROJECT_ID)\n",
     "log_path = LoggingServiceV2Client.log_path(PROJECT_ID, log_name)"
    ]
   },
@@ -284,12 +293,13 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "metrics = logging_client.list_log_metrics(parent)\n",
+    "request = {'parent': parent}\n",
+    "metrics = logging_client.list_log_metrics(request)\n",
     "\n",
     "if not list(metrics):\n",
     "    print(\"There are not any log based metrics defined in the the project\")\n",
     "else:\n",
-    "    for element in logging_client.list_log_metrics(parent):\n",
+    "    for element in logging_client.list_log_metrics(request):\n",
     "        print(element.metric_descriptor.name)"
    ]
   },
@@ -337,8 +347,12 @@
    "outputs": [],
    "source": [
     "dashboard_proto = Dashboard()\n",
-    "dashboard_proto = ParseDict(dashboard_template, dashboard_proto)\n",
-    "dashboard = dashboard_service_client.create_dashboard(parent, dashboard_proto)"
+    "request = {\n",
+    "    'parent': parent,\n",
+    "    'dashboard': dashboard_proto,\n",
+    "}\n",
+    "dashboard_proto = ParseDict(dashboard_template, dashboard_proto._pb)\n",
+    "dashboard = dashboard_service_client.create_dashboard(request)"
    ]
   },
   {
@@ -347,7 +361,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "for dashboard in dashboard_service_client.list_dashboards(parent):\n",
+    "for dashboard in dashboard_service_client.list_dashboards({'parent': parent}):\n",
     "    print('Dashboard name: {}, Dashboard ID: {}'.format(dashboard.display_name, dashboard.name))"
    ]
   },
@@ -357,7 +371,7 @@
    "source": [
     "## 3. Deploying Locust to a GKE cluster\n",
     "\n",
-    "Before proceeding, you need access to a GKE cluster. The described deployment process can deploy Locust to any GKE cluster as long as there are enough compute resources to support your Locust configuration. The default configuration follows the Locust's best practices and requests one processor core and 4Gi of memory for the Locust master and one processor core and 2Gi of memory for each Locust worker. As you run your tests, it is important to monitor the the master and the workers for resource utilization and fine tune the allocated resources as required.\n",
+    "Before proceeding, you need access to a GKE cluster. You can find a command to create a GKE cluster in [Environment setup](https://github.com/GoogleCloudPlatform/mlops-on-gcp/blob/master/model_serving/caip-load-testing/README.md#environment-setup) section of [README.md](https://github.com/GoogleCloudPlatform/mlops-on-gcp/blob/master/model_serving/caip-load-testing/README.md). The described deployment process can deploy Locust to any GKE cluster as long as there are enough compute resources to support your Locust configuration. The default configuration follows the Locust's best practices and requests one processor core and 4Gi of memory for the Locust master and one processor core and 2Gi of memory for each Locust worker. As you run your tests, it is important to monitor the the master and the workers for resource utilization and fine tune the allocated resources as required.\n",
     "\n",
     "The deployment process has been streamlined using [Kustomize](https://kustomize.io/). As described in the following steps, you can fine tune the baseline configuration by modifying the default `kustomization.yaml` and `patch.yaml` files in the `locust/manifests` folder.\n",
     "\n"
@@ -623,10 +637,10 @@
    "source": [
     "You can try using the following parameter configurations:\n",
     "1. Number of total users to simulate: 152\n",
-    "2. Hatch rate: 1\n",
-    "3. Host: http://ml.googleapis.com\n",
-    "4. Number of users to increase by step: 8\n",
-    "5. Step duration: 1m "
+    "2. Spawn rate: 1\n",
+    "3. Host: `http://[your-region]-ml.googleapis.com`\n",
+    "\n",
+    "**NOTE**: `[your-region]` is the region for deploying the model that you configured as `REGION` in the first notebook. "
    ]
   },
   {
diff --git a/model_serving/caip-load-testing/03-analyze-results.ipynb b/model_serving/caip-load-testing/03-analyze-results.ipynb
@@ -51,8 +51,8 @@
     "import google.auth\n",
     "\n",
     "from google.cloud import logging_v2\n",
-    "from google.cloud.monitoring_dashboard.v1 import DashboardsServiceClient\n",
-    "from google.cloud.logging_v2 import MetricsServiceV2Client\n",
+    "from google.cloud.monitoring_dashboard_v1 import DashboardsServiceClient\n",
+    "from google.cloud.logging_v2.services.metrics_service_v2 import MetricsServiceV2Client\n",
     "from google.cloud.monitoring_v3.query import Query\n",
     "from google.cloud.monitoring_v3 import MetricServiceClient\n",
     "\n",
@@ -108,10 +108,11 @@
     "creds , _ = google.auth.default()\n",
     "client = MetricServiceClient(credentials=creds)\n",
     "\n",
-    "project_path = client.project_path(PROJECT_ID)\n",
+    "project_path = client.common_project_path(PROJECT_ID)\n",
     "filter = 'metric.type=starts_with(\"ml.googleapis.com/prediction\")'\n",
     "\n",
-    "for descriptor in client.list_metric_descriptors(project_path, filter_=filter):\n",
+    "request = {'name': project_path, 'filter': filter}\n",
+    "for descriptor in client.list_metric_descriptors(request):\n",
     "    print(descriptor.type)"
    ]
   },
@@ -130,7 +131,8 @@
    "source": [
     "filter = 'metric.type=starts_with(\"logging.googleapis.com/user\")'\n",
     "\n",
-    "for descriptor in client.list_metric_descriptors(project_path, filter_=filter):\n",
+    "request = {'name': project_path, 'filter': filter}\n",
+    "for descriptor in client.list_metric_descriptors(request):\n",
     "    print(descriptor.type)"
    ]
   },
@@ -354,7 +356,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "latency_results = test_result[['Latency: model', 'Latency: client']]\n",
+    "latency_results = test_result[\n",
+    "    [x[0] for x in test_result.columns if x[0].startswith('Latency:')]]\n",
     "latency_results.columns = latency_results.columns.get_level_values(0)\n",
     "ax = latency_results.plot(figsize=(14, 9), legend=True)\n",
     "ax.set_xlabel('Time', fontsize=16)\n",
@@ -377,12 +380,12 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "throughput_results = test_result[['response_rate', 'User count']]\n",
+    "throughput_results = test_result[['response_rate']]\n",
     "throughput_results.columns = throughput_results.columns.get_level_values(0)\n",
     "ax = throughput_results.plot(figsize=(14, 9), legend=True)\n",
     "ax.set_xlabel('Time', fontsize=16)\n",
     "ax.set_ylabel('Count', fontsize=16)\n",
-    "_ = ax.set_title(\"Response Rate vs User Count\", fontsize=20)"
+    "_ = ax.set_title(\"Response Rate\", fontsize=20)"
    ]
   },
   {
@@ -399,11 +402,11 @@
    "outputs": [],
    "source": [
     "logging_client = MetricsServiceV2Client(credentials=creds)\n",
-    "parent = logging_client.project_path(PROJECT_ID)\n",
+    "parent = logging_client.common_project_path(PROJECT_ID)\n",
     "\n",
-    "for element in logging_client.list_log_metrics(parent):\n",
-    "    metric_path = logging_client.metric_path(PROJECT_ID, element.name)\n",
-    "    logging_client.delete_log_metric(metric_path)\n",
+    "for element in logging_client.list_log_metrics({'parent': parent}):\n",
+    "    metric_path = logging_client.log_metric_path(PROJECT_ID, element.name)\n",
+    "    logging_client.delete_log_metric({'metric_name': metric_path})\n",
     "    print(\"Deleted metric: \", metric_path)"
    ]
   },
@@ -416,9 +419,9 @@
     "display_name = 'AI Platform Prediction and Locust'\n",
     "dashboard_service_client = DashboardsServiceClient(credentials=creds)\n",
     "parent = 'projects/{}'.format(PROJECT_ID)\n",
-    "for dashboard in dashboard_service_client.list_dashboards(parent):\n",
+    "for dashboard in dashboard_service_client.list_dashboards({'parent': parent}):\n",
     "    if dashboard.display_name == display_name:\n",
-    "        dashboard_service_client.delete_dashboard(dashboard.name)\n",
+    "        dashboard_service_client.delete_dashboard({'name': dashboard.name})\n",
     "        print(\"Deleted dashboard:\", dashboard.name)"
    ]
   },
diff --git a/model_serving/caip-load-testing/README.md b/model_serving/caip-load-testing/README.md
@@ -68,9 +68,14 @@ In addition to the Notebooks, the directory includes the following artifacts:
 
 ## Environment setup
 
-1. Create a [Cloud Storage bucket](https://cloud.google.com/storage/docs/creating-buckets).
-2. Create a [Cloud Monitoring Workspace](https://cloud.google.com/monitoring/workspaces/create) in your project.
-3. Create a [Google Kubernetes Engine](https://cloud.google.com/kubernetes-engine/docs/how-to/creating-a-cluster) cluster with the required CPUs. 
+1. Enable the following APIs
+    - Kubernetes Engine API
+    - Cloud Build API
+    - AI Platform Training & Prediction API
+    - Notebooks API
+2. Create a [Cloud Storage bucket](https://cloud.google.com/storage/docs/creating-buckets).
+3. Create a [Cloud Monitoring Workspace](https://cloud.google.com/monitoring/workspaces/create) in your project.
+4. Create a [Google Kubernetes Engine](https://cloud.google.com/kubernetes-engine/docs/how-to/creating-a-cluster) cluster with the required CPUs. 
 The node pool must have access to the Cloud APIs.
     ```
     PROJECT_ID=[YOUR-GCP-PROJECT-ID]
@@ -79,15 +84,15 @@ The node pool must have access to the Cloud APIs.
     MACHINE_TYPE=n1-standard-8
     SIZE=5
 
-    gcloud beta container --project=$PROJECT clusters create $CLUSTER_NAME \
+    gcloud beta container --project=$PROJECT_ID clusters create $CLUSTER_NAME \
         --zone=$ZONE \
         --machine-type=$MACHINE_TYPE \
         --num-nodes=$SIZE \
         --scopes=cloud-platform 
      ```
-4. Create an [AI Notebooks instance](https://cloud.google.com/ai-platform/notebooks/docs/create-new) TensorFlow 2.2.
-5. Open the JupyterLab from the AI Notebook instance.
-6. Open a new Terminal to execute the following commands to clone the repository:
+5. Create an [AI Notebooks instance](https://cloud.google.com/ai-platform/notebooks/docs/create-new) TensorFlow 2.8.
+6. Open the JupyterLab from the AI Notebook instance.
+7. Open a new Terminal to execute the following commands to clone the repository:
     ```
     git clone https://github.com/GoogleCloudPlatform/mlops-on-gcp
     cd mlops-on-gcp/model_serving/caip-load-testing
diff --git a/model_serving/caip-load-testing/locust/locust-image/task.py b/model_serving/caip-load-testing/locust/locust-image/task.py
@@ -38,7 +38,7 @@
 from google.api_core.exceptions import GoogleAPICallError
 from google.api_core.exceptions import RetryError
 from google.auth.transport.requests import AuthorizedSession
-from google.cloud.logging_v2 import LoggingServiceV2Client
+from google.cloud.logging_v2.services.logging_service_v2 import LoggingServiceV2Client
 from google.cloud.logging_v2.types import LogEntry
 from google.protobuf.timestamp_pb2 import Timestamp
 from google.protobuf.struct_pb2 import Struct
diff --git a/model_serving/caip-load-testing/locust/manifests/locust-master.yaml b/model_serving/caip-load-testing/locust/manifests/locust-master.yaml
@@ -32,7 +32,7 @@ spec:
       containers:
         - image: locustio/locust
           name: locust-master
-          args: ["-f", "/tasks/task.py",  "--master", "--step-load"]
+          args: ["-f", "/tasks/task.py",  "--master"]
           envFrom:
             - configMapRef:
                 name: test-config-locations