Developing DS Code

ciaran28 · ciaran28 · commit 354754338415 · 2023-06-08T02:18:17.000+01:00
diff --git a/.github/workflows/taskDatabricks.yaml b/.github/workflows/taskDatabricks.yaml
@@ -244,8 +244,8 @@ jobs:
           dbx configure --enable-inplace-jinja-support --profile default
         
           # -e replaced with "default" instead of $ENVIRONMENT
-          dbx deploy --workflows JOB_WORKFLOW_NYC_TAXI,TRAIN_REGISTER --no-package --deployment-file mlOps/modelOps/ml_pipelines/az_databricks/cicd/workflow.yaml \
-          -e default --jinja-variables-file=mlOps/modelOps/ml_pipelines/az_databricks/cicd/workflow_params.yaml 
+          dbx deploy --workflows NYC_TAXI --no-package --deployment-file mlOps/nyc_taxi/databricks_pipelines/workflow.yaml \
+          -e default --jinja-variables-file=mlOps/nyc_taxi/databricks_pipelines/workflow_params.yaml
 
         env:
           ENVIRONMENT:            ${{ inputs.ENVIRONMENT }} 
diff --git a/data_science/src_nyc_taxi/src.py b/data_science/src_nyc_taxi/src.py
@@ -0,0 +1,27 @@
+# Databricks notebook source
+
+from featurization import run_feature_store_refresh
+run_feature_store_refresh()
+
+# COMMAND ----------
+from training import run_training 
+
+run_training(
+    experiment_name = "nyc_e2e_mlops",
+    model_name = "taxi_example_fare_packaged",
+    model_params = {
+        "objective": "regression",
+        "metric": "rmse",
+        "num_leaves": 25,
+        "learning_rate": 0.2,
+        "bagging_fraction": 0.9,
+        "feature_fraction": 0.9,
+        "bagging_seed": 42,
+        "verbosity": -1,
+        "seed": 42
+    }
+)
+from registration import run_registration
+run_registration(
+    model_name = "taxi_example_fare_packaged"
+)
diff --git a/experiments/notebooks/ciaran_experiments/nyc_taxi/nyc_taxi_lgbm_1.py b/experiments/notebooks/ciaran_experiments/nyc_taxi/nyc_taxi_lgbm_1.py
@@ -6,13 +6,17 @@
 # COMMAND ----------
 from training import run_training 
 
+
+
+
+
 run_training(
     experiment_name = "ciaran_experiment_nyc_taxi",
     model_name = "taxi_example_fare_packaged",
     model_params = {
         "objective": "regression",
         "metric": "rmse",
-        "num_leaves": 32,
+        "num_leaves": 25,
         "learning_rate": 0.2,
         "bagging_fraction": 0.9,
         "feature_fraction": 0.9,
@@ -21,7 +25,6 @@
         "seed": 42
     }
 )
-# COMMAND ----------
 from registration import run_registration
 run_registration(
     model_name = "taxi_example_fare_packaged"
diff --git a/mlOps/nyc_taxi/databricks_pipelines/hyper_params.yaml b/mlOps/nyc_taxi/databricks_pipelines/hyper_params.yaml
@@ -0,0 +1,32 @@
+ModelOne:
+  objective": "regression"
+  "metric": "rmse"
+  "num_leaves": 25
+  "learning_rate": 0.2
+  "bagging_fraction": 0.9
+  "feature_fraction": 0.9
+  "bagging_seed": 42
+  "verbosity": -1
+  "seed": 42
+
+ModelTwo:
+  objective": "regression"
+  "metric": "rmse"
+  "num_leaves": 27
+  "learning_rate": 0.3
+  "bagging_fraction": 0.9
+  "feature_fraction": 0.9
+  "bagging_seed": 42
+  "verbosity": -1
+  "seed": 42
+
+ModelThree:
+  objective": "regression"
+  "metric": "rmse"
+  "num_leaves": 30
+  "learning_rate": 0.4
+  "bagging_fraction": 0.9
+  "feature_fraction": 0.9
+  "bagging_seed": 42
+  "verbosity": -1
+  "seed": 42
diff --git a/mlOps/nyc_taxi/databricks_pipelines/workflow.yaml b/mlOps/nyc_taxi/databricks_pipelines/workflow.yaml
@@ -75,13 +75,13 @@ environments:
             depends_on:
               - task_key: "Train_Register"
 
-      - name: TRAIN_REGISTER     
+      - name: NYC_TAXI     
         tasks:
-          - task_key: "Train_Register"
+          - task_key: "NYC_TAXI"
             <<: *dev-cluster-config
             spark_python_task:
-              python_file: "{{var['ML_PIPELINE_FILES']['TRAIN_REGISTER']['FILE_PATH']}}"
-              parameters: ["{{var['ML_PIPELINE_FILES']['TRAIN_REGISTER']['PARAMETERS']['ENV']}}", "{{var['ML_PIPELINE_FILES']['TRAIN_REGISTER']['PARAMETERS']['FILE']}}"]
+              python_file: "{{var['ML_PIPELINE_FILES']['NYC_TAXI']['FILE_PATH']}}"
+              parameters: ["{{var['ML_PIPELINE_FILES']['NYC_TAXI']['PARAMETERS']['ENV']}}", "{{var['ML_PIPELINE_FILES']['NYC_TAXI']['PARAMETERS']['FILE']}}"]
             libraries: [ 
-              whl: "{{var['ML_PIPELINE_FILES']['TRAIN_REGISTER']['WHL_PATH']}}" 
+              whl: "{{var['ML_PIPELINE_FILES']['NYC_TAXI']['WHL_PATH']}}" 
             ]
diff --git a/mlOps/nyc_taxi/databricks_pipelines/workflow_params.yaml b/mlOps/nyc_taxi/databricks_pipelines/workflow_params.yaml
@@ -1,36 +1,27 @@
 ML_PIPELINE_FILES:
-    DATA_INGEST_PREP:
-        FILE_PATH: 'file://mlOps/dataOps/nyc_taxi/data_prep.py'
-        WHL_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/pyWheels/Helper_Functions/dist/helperfunctions-0.0.1-py3-none-any.whl'
-
-    FEATURE_ENGINEERING: 
-        FILE_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/feature_eng.py'
-        WHL_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/pyWheels/Helper_Functions/dist/helperfunctions-0.0.1-py3-none-any.whl'
+    NYC_TAXI:
+        FILE_PATH: 'file://data_science/src_nyc_taxi/src.py'
+        WHL_PATH: 'file://data_science/src_nyc_taxi/dist/src_nyc_taxi-0.0.1-py3-none-any.whl'
         PARAMETERS:
             ENV:  '--env'
-            FILE: 'file:fuse://mlOps/modelOps/ml_pipelines/az_databricks/cicd/workflow_params.yaml'
-            EXPERIMENT_NAME: 'dbx_workflow_fe'
+            FILE: 'file:fuse://mlOps/nyc_taxi/databricks_pipelines/hyper_params.yaml'
+            EXPERIMENT_NAME: 'dbx_workflow_nyc_taxi'
             TRACK_IN_AZURE_ML: True
 
-    TRAIN_REGISTER:
-        FILE_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/train_register.py'
-        WHL_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/pyWheels/Helper_Functions/dist/helperfunctions-0.0.1-py3-none-any.whl'
-        PARAMETERS:
-            ENV:  '--env'
-            FILE: 'file:fuse://mlOps/modelOps/ml_pipelines/az_databricks/cicd/workflow_params.yaml'
-            EXPERIMENT_NAME: 'dbx_workflow_train'
-            TRACK_IN_AZURE_ML: True
 
-    MODEL_INFERENCE:
-        FILE_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/score.py'
+
+
+    FEATURE_ENGINEERING: 
+        FILE_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/feature_eng.py'
         WHL_PATH: 'file://mlOps/modelOps/data_science/nyc_taxi/pyWheels/Helper_Functions/dist/helperfunctions-0.0.1-py3-none-any.whl'
         PARAMETERS:
             ENV:  '--env'
             FILE: 'file:fuse://mlOps/modelOps/ml_pipelines/az_databricks/cicd/workflow_params.yaml'
-            EXPERIMENT_NAME: 'dbx_workflow_inference'
+            EXPERIMENT_NAME: 'dbx_workflow_fe'
             TRACK_IN_AZURE_ML: True
 
 
 
 
 
+