fetch upload/download data from block storage instead of data lake

NirajC-Microsoft · NirajC-Microsoft · commit 20b125bc1e59 · 2025-11-05T18:24:55.000+05:30
diff --git a/infra/scripts/index_scripts/create_search_index.py b/infra/scripts/index_scripts/create_search_index.py
@@ -32,6 +32,7 @@
     FileSystemClient,
 )
 from openai import AzureOpenAI
+from azure.storage.blob import BlobServiceClient
 
 # Get Azure Key Vault Client
 key_vault_name = "kv_to-be-replaced"  #'nc6262-kv-2fpeafsylfd2e'
@@ -199,16 +200,13 @@ def chunk_data(text):
 # paths = os.listdir(path_name)
 
 
-account_url = f"https://{account_name}.dfs.core.windows.net"
+account_url = f"https://{account_name}.blob.core.windows.net"
+blob_service_client = BlobServiceClient(account_url, credential=credential)
+container_client = blob_service_client.get_container_client(file_system_client_name)
 
-service_client = DataLakeServiceClient(
-    account_url, credential=credential, api_version="2023-01-03"
-)
+print(f"Listing blobs under '{directory}' using BlobServiceClient...")
+paths = [blob.name for blob in container_client.list_blobs(name_starts_with=directory)]
 
-file_system_client = service_client.get_file_system_client(file_system_client_name)
-directory_name = directory
-paths = file_system_client.get_paths(path=directory_name)
-print(paths)
 
 search_client = SearchClient(search_endpoint, index_name, credential)
 # index_client = SearchIndexClient(endpoint=search_endpoint, credential=credential)
@@ -221,22 +219,22 @@ def chunk_data(text):
 # Read the CSV file into a Pandas DataFrame
 file_path = csv_file_name
 print(file_path)
-file_client = file_system_client.get_file_client(file_path)
-csv_file = file_client.download_file()
-df_metadata = pd.read_csv(csv_file, encoding="utf-8")
+blob_client = container_client.get_blob_client(file_path)
+download_stream = blob_client.download_blob()
+df_metadata = pd.read_csv(download_stream, encoding="utf-8")
 
 docs = []
 counter = 0
-for path in paths:
-    # file_path = f'Data/{foldername}/meeting_transcripts/' + path
-    # with open(file_path, "r") as file:
-    #     data = json.load(file)
-    file_client = file_system_client.get_file_client(path.name)
-    data_file = file_client.download_file()
-    data = json.load(data_file)
-    text = data["Content"]
-
-    filename = path.name.split("/")[-1]
+for blob_name in paths:
+    if not blob_name.endswith(".json"):
+        continue
+
+    blob_client = container_client.get_blob_client(blob_name)
+    download_stream = blob_client.download_blob()
+    data = json.loads(download_stream.readall())
+    text = data.get("Content", "")
+
+    filename = blob_name.split("/")[-1]
     document_id = filename.replace(".json", "").replace("convo_", "")
     # print(document_id)
     df_file_metadata = df_metadata[
@@ -276,15 +274,15 @@ def chunk_data(text):
                 "chunk_id": d["chunk_id"],
                 "client_id": d["client_id"],
                 "content": d["content"],
-                "sourceurl": path.name.split("/")[-1],
+                "sourceurl":  blob_name.split("/")[-1],
                 "contentVector": v_contentVector,
             }
         )
 
         if counter % 10 == 0:
             result = search_client.upload_documents(documents=docs)
             docs = []
-            print(f" {str(counter)} uploaded")
+            print(f"{counter} documents uploaded...")
 
 # upload the last batch
 if docs != []:
diff --git a/infra/scripts/process_sample_data.sh b/infra/scripts/process_sample_data.sh
@@ -332,41 +332,41 @@ get_values_from_azd_env() {
 }
 
 get_values_from_az_deployment() {
-	echo "Getting values from Azure deployment outputs..."
-
-	deploymentName=$(az group show --name "$resourceGroupName" --query "tags.DeploymentName" -o tsv) 
-	echo "Deployment Name (from tag): $deploymentName"
-
+    echo "Getting values from Azure deployment outputs..."
+ 
+    deploymentName=$(az group show --name "$resourceGroupName" --query "tags.DeploymentName" -o tsv)
+    echo "Deployment Name (from tag): $deploymentName"
+ 
     echo "Fetching deployment outputs..."
-
+ 
     # Get all outputs
     deploymentOutputs=$(az deployment group show \
         --name "$deploymentName" \
         --resource-group "$resourceGroupName" \
         --query "properties.outputs" -o json)
-
+ 
     # Extract each value
-    cosmosDbAccountName=$(echo "$deploymentOutputs" | grep -A 3 '"cosmosdB_ACCOUNT_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    storageAccount=$(echo "$deploymentOutputs" | grep -A 3 '"storagE_ACCOUNT_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    fileSystem=$(echo "$deploymentOutputs" | grep -A 3 '"storagE_CONTAINER_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    keyvaultName=$(echo "$deploymentOutputs" | grep -A 3 '"keY_VAULT_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    sqlServerName=$(echo "$deploymentOutputs" | grep -A 3 '"sqldB_SERVER_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    webAppManagedIdentityDisplayName=$(echo "$deploymentOutputs" | grep -A 3 '"managedidentitY_WEBAPP_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    webAppManagedIdentityClientId=$(echo "$deploymentOutputs" | grep -A 3 '"managedidentitY_WEBAPP_CLIENTID"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    SqlDatabaseName=$(echo "$deploymentOutputs" | grep -A 3 '"sqldB_DATABASE"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    sqlManagedIdentityClientId=$(echo "$deploymentOutputs" | grep -A 3 '"managedidentitY_SQL_CLIENTID"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    sqlManagedIdentityDisplayName=$(echo "$deploymentOutputs" | grep -A 3 '"managedidentitY_SQL_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    aiSearchName=$(echo "$deploymentOutputs" | grep -A 3 '"aI_SEARCH_SERVICE_NAME"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-    aif_resource_id=$(echo "$deploymentOutputs" | grep -A 3 '"aI_FOUNDRY_RESOURCE_ID"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
-
-	# Validate that we extracted all required values
-	if [ -z "$cosmosDbAccountName" ] || [ -z "$storageAccount" ] || [ -z "$fileSystem" ] || [ -z "$keyvaultName" ] || [ -z "$sqlServerName" ] || [ -z "$SqlDatabaseName" ] || [ -z "$sqlManagedIdentityClientId" ] || [ -z "$sqlManagedIdentityDisplayName" ] || [ -z "$aiSearchName" ] || [ -z "$aif_resource_id" ]; then
-		echo "Error: One or more required values could not be retrieved from deployment outputs."
-		return 1
-	else
-		echo "All values retrieved successfully from deployment outputs."
-		return 0
-	fi
+    cosmosDbAccountName=$(echo "$deploymentOutputs" | grep -A 3 '"cosmosDbAccountName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    storageAccount=$(echo "$deploymentOutputs" | grep -A 3 '"storageAccountName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    fileSystem=$(echo "$deploymentOutputs" | grep -A 3 '"storageContainerName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    keyvaultName=$(echo "$deploymentOutputs" | grep -A 3 '"keyVaultName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    sqlServerName=$(echo "$deploymentOutputs" | grep -A 3 '"sqlDbServerName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    webAppManagedIdentityDisplayName=$(echo "$deploymentOutputs" | grep -A 3 '"managedIdentityWebAppName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    webAppManagedIdentityClientId=$(echo "$deploymentOutputs" | grep -A 3 '"managedIdentityWebAppClientId"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    SqlDatabaseName=$(echo "$deploymentOutputs" | grep -A 3 '"sqlDbDatabase"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    sqlManagedIdentityClientId=$(echo "$deploymentOutputs" | grep -A 3 '"managedIdentitySqlClientId"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    sqlManagedIdentityDisplayName=$(echo "$deploymentOutputs" | grep -A 3 '"managedIdentitySqlName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    aiSearchName=$(echo "$deploymentOutputs" | grep -A 3 '"aiSearchServiceName"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+    aif_resource_id=$(echo "$deploymentOutputs" | grep -A 3 '"aiFoundryResourceId"' | grep '"value"' | sed 's/.*"value": *"\([^"]*\)".*/\1/')
+ 
+    # Validate that we extracted all required values
+    if [ -z "$cosmosDbAccountName" ] || [ -z "$storageAccount" ] || [ -z "$fileSystem" ] || [ -z "$keyvaultName" ] || [ -z "$sqlServerName" ] || [ -z "$SqlDatabaseName" ] || [ -z "$sqlManagedIdentityClientId" ] || [ -z "$sqlManagedIdentityDisplayName" ] || [ -z "$aiSearchName" ] || [ -z "$aif_resource_id" ]; then
+        echo "Error: One or more required values could not be retrieved from deployment outputs."
+        return 1
+    else
+        echo "All values retrieved successfully from deployment outputs."
+        return 0
+    fi
 }
 
 get_values_from_user() {