Get datasets from web instead of blob

kbattocchi · kbattocchi · commit 5c6d87b71fc8 · 2023-06-16T15:26:36.000-04:00
Signed-off-by: Keith Battocchi &lt;kebatt@microsoft.com&gt;
diff --git a/econml/tests/test_dominicks.py b/econml/tests/test_dominicks.py
@@ -20,7 +20,7 @@ def test_dominicks():
     if not os.path.isfile(file_name):
         print("Downloading file (this might take a few seconds)...")
         urllib.request.urlretrieve(
-            "https://msalicedatapublic.blob.core.windows.net/datasets/OrangeJuice/oj_large.csv", file_name)
+            "https://msalicedatapublic.z5.web.core.windows.net/datasets/OrangeJuice/oj_large.csv", file_name)
     oj_data = pd.read_csv(file_name)
 
     brands = sorted(set(oj_data["brand"]))
diff --git a/notebooks/Causal Forest and Orthogonal Random Forest Examples.ipynb b/notebooks/Causal Forest and Orthogonal Random Forest Examples.ipynb
@@ -1510,7 +1510,7 @@
     "\n",
     "if not os.path.isfile(file_name):\n",
     "    print(\"Downloading file (this might take a few seconds)...\")\n",
-    "    urllib.request.urlretrieve(\"https://msalicedatapublic.blob.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",
+    "    urllib.request.urlretrieve(\"https://msalicedatapublic.z5.web.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",
     "oj_data = pd.read_csv(file_name)\n",
     "oj_data.head()"
    ]
diff --git a/notebooks/CustomerScenarios/Case Study - Customer Segmentation at An Online Media Company - EconML + DoWhy.ipynb b/notebooks/CustomerScenarios/Case Study - Customer Segmentation at An Online Media Company - EconML + DoWhy.ipynb
@@ -137,7 +137,7 @@
    "outputs": [],
    "source": [
     "# Import the sample pricing data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",
     "train_data = pd.read_csv(file_url)"
    ]
   },
diff --git a/notebooks/CustomerScenarios/Case Study - Customer Segmentation at An Online Media Company.ipynb b/notebooks/CustomerScenarios/Case Study - Customer Segmentation at An Online Media Company.ipynb
@@ -122,7 +122,7 @@
    "execution_count": 2,
    "source": [
     "# Import the sample pricing data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",
     "train_data = pd.read_csv(file_url)"
    ],
    "outputs": [],
diff --git a/notebooks/CustomerScenarios/Case Study - Multi-investment Attribution at A Software Company - EconML + DoWhy.ipynb b/notebooks/CustomerScenarios/Case Study - Multi-investment Attribution at A Software Company - EconML + DoWhy.ipynb
@@ -128,7 +128,7 @@
    "outputs": [],
    "source": [
     "# Import the sample multi-attribution data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",
     "multi_data = pd.read_csv(file_url)"
    ]
   },
diff --git a/notebooks/CustomerScenarios/Case Study - Multi-investment Attribution at A Software Company.ipynb b/notebooks/CustomerScenarios/Case Study - Multi-investment Attribution at A Software Company.ipynb
@@ -107,7 +107,7 @@
    "execution_count": 2,
    "source": [
     "# Import the sample multi-attribution data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",
     "multi_data = pd.read_csv(file_url)"
    ],
    "outputs": [],
diff --git a/notebooks/CustomerScenarios/Case Study - Recommendation AB Testing at An Online Travel Company - EconML + DoWhy.ipynb b/notebooks/CustomerScenarios/Case Study - Recommendation AB Testing at An Online Travel Company - EconML + DoWhy.ipynb
@@ -150,7 +150,7 @@
    "outputs": [],
    "source": [
     "# Import the sample AB data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/RecommendationAB/ab_sample.csv\"   \n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/RecommendationAB/ab_sample.csv\"   \n",
     "ab_data = pd.read_csv(file_url)"
    ]
   },
diff --git a/notebooks/CustomerScenarios/Case Study - Recommendation AB Testing at An Online Travel Company.ipynb b/notebooks/CustomerScenarios/Case Study - Recommendation AB Testing at An Online Travel Company.ipynb
@@ -129,7 +129,7 @@
    "execution_count": 2,
    "source": [
     "# Import the sample AB data\n",
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/RecommendationAB/ab_sample.csv\"   \n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/RecommendationAB/ab_sample.csv\"   \n",
     "ab_data = pd.read_csv(file_url)"
    ],
    "outputs": [],
diff --git a/notebooks/CustomerScenarios/Case Study - Using EconML to evaluate the treatment effect of training program - Lalonde dataset.ipynb b/notebooks/CustomerScenarios/Case Study - Using EconML to evaluate the treatment effect of training program - Lalonde dataset.ipynb
@@ -336,7 +336,7 @@
     "# Data\n",
     "## female\n",
     "### read in and slice data\n",
-    "female_data = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/calonico_smith_all.csv')\n",
+    "female_data = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/calonico_smith_all.csv')\n",
     "female_data[\"haschild\"]=(female_data[\"nchildren75\"]>0)*1\n",
     "female_data = female_data[pd.notnull(female_data.re75) & pd.notnull(female_data.re79)]\n",
     "female_treatment = female_data[female_data.treated==1.].copy()\n",
@@ -349,13 +349,13 @@
     "\n",
     "## male\n",
     "### read in and slice data\n",
-    "male_data = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/smith_todd.csv')\n",
+    "male_data = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/smith_todd.csv')\n",
     "male_treatment = male_data[male_data.treated==1.].copy()\n",
     "male_control = male_data[male_data.treated==0.].copy()\n",
-    "male_cps1 = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/cps_controls.csv')\n",
-    "male_psid1 = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/psid_controls.csv')\n",
-    "male_cps3 = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/cps_controls3.csv')\n",
-    "male_psid3 = pd.read_csv('https://msalicedatapublic.blob.core.windows.net/datasets/Lalonde/psid_controls3.csv')\n",
+    "male_cps1 = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/cps_controls.csv')\n",
+    "male_psid1 = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/psid_controls.csv')\n",
+    "male_cps3 = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/cps_controls3.csv')\n",
+    "male_psid3 = pd.read_csv('https://msalicedatapublic.z5.web.core.windows.net/datasets/Lalonde/psid_controls3.csv')\n",
     "### some preprocessing\n",
     "for df in [male_psid1,male_psid3,male_cps1,male_cps3]:\n",
     "    df.rename(columns={'treat':'treated', 'education':'educ', 'hispanic':'hisp'}, inplace=True)"
diff --git a/notebooks/Double Machine Learning Examples.ipynb b/notebooks/Double Machine Learning Examples.ipynb
@@ -1925,7 +1925,7 @@
     "\n",
     "if not os.path.isfile(file_name):\n",
     "    print(\"Downloading file (this might take a few seconds)...\")\n",
-    "    urllib.request.urlretrieve(\"https://msalicedatapublic.blob.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",
+    "    urllib.request.urlretrieve(\"https://msalicedatapublic.z5.web.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",
     "oj_data = pd.read_csv(file_name)"
    ]
   },
diff --git a/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb b/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb
@@ -375,7 +375,7 @@
     }
    ],
    "source": [
-    "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/EmployeeAttrition/Employee-Attrition.csv\"\n",
+    "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/EmployeeAttrition/Employee-Attrition.csv\"\n",
     "attritionData = pd.read_csv(file_url)\n",
     "attritionData.head(5)"
    ]

Original file line number	Diff line number	Diff line change
`@@ -1510,7 +1510,7 @@`
`1510`	`1510`	`"\n",`
`1511`	`1511`	`"if not os.path.isfile(file_name):\n",`
`1512`	`1512`	`" print(\"Downloading file (this might take a few seconds)...\")\n",`
`1513`		`- " urllib.request.urlretrieve(\"https://msalicedatapublic.blob.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",`
	`1513`	`+ " urllib.request.urlretrieve(\"https://msalicedatapublic.z5.web.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",`
`1514`	`1514`	`"oj_data = pd.read_csv(file_name)\n",`
`1515`	`1515`	`"oj_data.head()"`
`1516`	`1516`	`]`
Original file line number	Diff line number	Diff line change
`@@ -137,7 +137,7 @@`
`137`	`137`	`"outputs": [],`
`138`	`138`	`"source": [`
`139`	`139`	`"# Import the sample pricing data\n",`
`140`		`- "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",`
	`140`	`+ "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/Pricing/pricing_sample.csv\"\n",`
`141`	`141`	`"train_data = pd.read_csv(file_url)"`
`142`	`142`	`]`
`143`	`143`	`},`
Original file line number	Diff line number	Diff line change
`@@ -128,7 +128,7 @@`
`128`	`128`	`"outputs": [],`
`129`	`129`	`"source": [`
`130`	`130`	`"# Import the sample multi-attribution data\n",`
`131`		`- "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",`
	`131`	`+ "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/ROI/multi_attribution_sample.csv\"\n",`
`132`	`132`	`"multi_data = pd.read_csv(file_url)"`
`133`	`133`	`]`
`134`	`134`	`},`
Original file line number	Diff line number	Diff line change
`@@ -150,7 +150,7 @@`
`150`	`150`	`"outputs": [],`
`151`	`151`	`"source": [`
`152`	`152`	`"# Import the sample AB data\n",`
`153`		`- "file_url = \"https://msalicedatapublic.blob.core.windows.net/datasets/RecommendationAB/ab_sample.csv\" \n",`
	`153`	`+ "file_url = \"https://msalicedatapublic.z5.web.core.windows.net/datasets/RecommendationAB/ab_sample.csv\" \n",`
`154`	`154`	`"ab_data = pd.read_csv(file_url)"`
`155`	`155`	`]`
`156`	`156`	`},`
Original file line number	Diff line number	Diff line change
`@@ -1925,7 +1925,7 @@`
`1925`	`1925`	`"\n",`
`1926`	`1926`	`"if not os.path.isfile(file_name):\n",`
`1927`	`1927`	`" print(\"Downloading file (this might take a few seconds)...\")\n",`
`1928`		`- " urllib.request.urlretrieve(\"https://msalicedatapublic.blob.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",`
	`1928`	`+ " urllib.request.urlretrieve(\"https://msalicedatapublic.z5.web.core.windows.net/datasets/OrangeJuice/oj_large.csv\", file_name)\n",`
`1929`	`1929`	`"oj_data = pd.read_csv(file_name)"`
`1930`	`1930`	`]`
`1931`	`1931`	`},`