Run toolkit notebook from a job (#164)

saraivdbx · Sara Ivanyos · nfx · web-flow · commit 08d79a9f8981 · 2023-09-06T23:24:12.000Z
- [x] test not complete
- [ ] permission assingment
- [ ] adding users to groups
- [x] acc groups
- [ ] validation
- [x] job is failing

---------

Co-authored-by: Sara Ivanyos &lt;sara.ivanyos@datapao.com&gt;
Co-authored-by: Serge Smertin &lt;serge.smertin@databricks.com&gt;
diff --git a/notebooks/toolkit.py b/notebooks/toolkit.py
@@ -7,36 +7,19 @@
 # MAGIC This notebook provides toolkit for group migration (workspace to account).
 # MAGIC
 # MAGIC
-# MAGIC - Tested on: DBR 13.2, Single Node cluster, UC enabled (Single-User mode).
+# MAGIC - Tested on: Latest Databricks Runtime, Single Node cluster, UC enabled (Single-User mode).
 # MAGIC
 
 # COMMAND ----------
 
-# MAGIC %md
-# MAGIC
-# MAGIC ## Prepare imports
-
-# COMMAND ----------
-
-# MAGIC %reload_ext autoreload
-# MAGIC %autoreload 2
-
-# COMMAND ----------
-
-from common import pip_install_dependencies
-
-pip_install_dependencies()
-
-# COMMAND ----------
-
-from common import update_module_imports
-
-update_module_imports()
-
-# COMMAND ----------
-
+from databricks.labs.ucx.config import (
+    GroupsConfig,
+    InventoryConfig,
+    InventoryTable,
+    MigrationConfig,
+    TaclConfig,
+)
 from databricks.labs.ucx.toolkits.group_migration import GroupMigrationToolkit
-from databricks.labs.ucx.config import MigrationConfig, InventoryConfig, GroupsConfig, InventoryTable, TaclConfig
 from databricks.labs.ucx.toolkits.table_acls import TaclToolkit
 
 # COMMAND ----------
@@ -47,27 +30,34 @@
 
 # COMMAND ----------
 
+inventory_schema = dbutils.widgets.get("inventory_schema")
+selected_groups = dbutils.widgets.get("selected_groups").split(",")
+databases = dbutils.widgets.get("databases").split(",")
+
 config = MigrationConfig(
-    inventory=InventoryConfig(table=InventoryTable(catalog="main", database="default", name="ucx_migration_inventory")),
+    inventory=InventoryConfig(
+        table=InventoryTable(catalog='hive_metastore', database=inventory_schema, name='permissions')
+    ),
     groups=GroupsConfig(
         # use this option to select specific groups manually
-        selected=["groupA", "groupB"],
+        selected=selected_groups,
         # use this option to select all groups automatically
         # auto=True
     ),
     tacl=TaclConfig(
         # use this option to select specific databases manually
-        databases=["default"],
+        databases=databases,
         # use this option to select all databases automatically
         # auto=True
     ),
     log_level="DEBUG",
 )
+
 toolkit = GroupMigrationToolkit(config)
 tacltoolkit = TaclToolkit(
     toolkit._ws,
-    config.inventory.table.catalog,
-    config.inventory.table.schema,
+    inventory_catalog=config.inventory.table.catalog,
+    inventory_schema=config.inventory.table.database,
     databases=config.tacl.databases,
 )
 
diff --git a/tests/integration/test_installation.py b/tests/integration/test_installation.py
@@ -1,13 +1,19 @@
+import logging
+import os
 import shutil
 import subprocess
 import sys
+from io import BytesIO
 from pathlib import Path
 
 import pytest
+from databricks.sdk.service import compute, jobs
 from databricks.sdk.service.workspace import ImportFormat
 
 from databricks.labs.ucx.providers.mixins.compute import CommandExecutor
 
+logger = logging.getLogger(__name__)
+
 
 @pytest.fixture
 def fresh_wheel_file(tmp_path) -> Path:
@@ -85,3 +91,143 @@ def test_sql_backend_works(ws, wsfs_wheel):
     )
 
     assert len(database_names) > 0
+
+
+def test_toolkit_notebook(
+    ws,
+    sql_exec,
+    wsfs_wheel,
+    make_cluster,
+    make_cluster_policy,
+    make_directory,
+    make_ucx_group,
+    make_instance_pool,
+    make_job,
+    make_notebook,
+    make_pipeline,
+    make_random,
+    make_repo,
+    make_secret_scope,
+    make_schema,
+    make_table,
+    make_user,
+):
+    logger.info("setting up fixtures")
+
+    user_a = make_user()
+    user_b = make_user()
+    user_c = make_user()
+
+    logger.info(f"user_a={user_a}, user_b={user_b}, user_c={user_c}, ")
+
+    # TODO add users to groups
+    ws_group_a, acc_group_a = make_ucx_group()
+    ws_group_b, acc_group_b = make_ucx_group()
+    ws_group_c, acc_group_c = make_ucx_group()
+
+    selected_groups = ",".join([ws_group_a.display_name, ws_group_b.display_name, ws_group_c.display_name])
+
+    logger.info(f"group_a={ws_group_a}, group_b={ws_group_b}, group_c={ws_group_c}, ")
+
+    cluster = make_cluster(instance_pool_id=os.environ["TEST_INSTANCE_POOL_ID"], single_node=True)
+    cluster_policy = make_cluster_policy()
+    directory = make_directory()
+    instance_pool = make_instance_pool()
+    job = make_job()
+    notebook = make_notebook()
+    pipeline = make_pipeline()
+    repo = make_repo()
+    secret_scope = make_secret_scope()
+
+    logger.info(
+        f"cluster={cluster}, "
+        f"cluster_policy={cluster_policy}, "
+        f"directory={directory}, "
+        f"instance_pool={instance_pool}, "
+        f"job={job}, "
+        f"notebook={notebook}, "
+        f"pipeline={pipeline}"
+        f"repo={repo}, "
+        f"secret_scope={secret_scope}, "
+    )
+
+    # TODO create fixtures for DBSQL assets
+    # TODO set permissions
+
+    schema_a = make_schema()
+    schema_b = make_schema()
+    schema_c = make_schema()
+    table_a = make_table(schema=schema_a)
+    table_b = make_table(schema=schema_b)
+
+    logger.info(
+        f"schema_a={schema_a}, "
+        f"schema_b={schema_b}, "
+        f"schema_c={schema_c}, "
+        f"table_a={table_a}, "
+        f"table_b={table_b}, "
+    )
+
+    databases = ",".join([schema_a.split(".")[1], schema_b.split(".")[1], schema_c.split(".")[1]])
+
+    sql_exec(f"GRANT USAGE ON SCHEMA default TO `{ws_group_a.display_name}`")
+    sql_exec(f"GRANT USAGE ON SCHEMA default TO `{ws_group_b.display_name}`")
+    sql_exec(f"GRANT SELECT ON TABLE {table_a} TO `{ws_group_a.display_name}`")
+    sql_exec(f"GRANT SELECT ON TABLE {table_b} TO `{ws_group_b.display_name}`")
+    sql_exec(f"GRANT MODIFY ON SCHEMA {schema_b} TO `{ws_group_b.display_name}`")
+
+    _, inventory_schema = make_schema(catalog="hive_metastore").split(".")
+
+    logger.info(f"inventory_schema={inventory_schema}")
+
+    logger.info("uploading notebook")
+
+    ucx_notebook_path = Path(__file__).parent.parent.parent / "notebooks" / "toolkit.py"
+    my_user = ws.current_user.me().user_name
+    remote_ucx_notebook_location = f"/Users/{my_user}/notebooks/{make_random(10)}"
+    ws.workspace.mkdirs(remote_ucx_notebook_location)
+    ws_notebook = f"{remote_ucx_notebook_location}/test_notebook.py"
+
+    with open(ucx_notebook_path, "rb") as fh:
+        buf_notebook = BytesIO(fh.read())
+    ws.workspace.upload(ws_notebook, buf_notebook, format=ImportFormat.AUTO)
+
+    logger.info("creating job")
+
+    created_job = ws.jobs.create(
+        tasks=[
+            jobs.Task(
+                task_key="uc-migrate",
+                notebook_task=jobs.NotebookTask(
+                    notebook_path=f"{remote_ucx_notebook_location}/test_notebook",
+                    base_parameters={
+                        "inventory_schema": inventory_schema,
+                        "selected_groups": selected_groups,
+                        "databases": databases,
+                    },
+                ),
+                libraries=[compute.Library(whl=f"/Workspace{wsfs_wheel}")],
+                new_cluster=compute.ClusterSpec(
+                    instance_pool_id=os.environ["TEST_INSTANCE_POOL_ID"],
+                    spark_version=ws.clusters.select_spark_version(latest=True),
+                    num_workers=1,
+                    spark_conf={"spark.databricks.acl.sqlOnly": "true"},
+                ),
+            )
+        ],
+        name="[UCX] Run Migration",
+    )
+
+    logger.info("running job")
+
+    try:
+        ws.jobs.run_now(created_job.job_id).result()
+        # TODO Validate migration, tacl
+    finally:
+        logger.info("deleting workbook")
+
+        ws.workspace.delete(remote_ucx_notebook_location, recursive=True)
+
+        logger.info("deleting job")
+
+        ws.jobs.delete(created_job.job_id)