dask
diff --git a/‎01_dataframe.ipynb‎
Lines changed: 17 additions & 11 deletions b/‎01_dataframe.ipynb‎
Lines changed: 17 additions & 11 deletions
diff --git a/‎02_array.ipynb‎
Lines changed: 15 additions & 15 deletions b/‎02_array.ipynb‎
Lines changed: 15 additions & 15 deletions
diff --git a/‎03_dask.delayed.ipynb‎
Lines changed: 31 additions & 16 deletions b/‎03_dask.delayed.ipynb‎
Lines changed: 31 additions & 16 deletions
@@ -162,8 +162,9 @@
    "source": [
     "import dask.dataframe as dd\n",
     "\n",
-    "ddf = dd.read_csv(os.path.join('data', 'nycflights', '*.csv'),\n",
-    "                  parse_dates={'Date': [0, 1, 2]})\n",
+    "ddf = dd.read_csv(\n",
+    "    os.path.join(\"data\", \"nycflights\", \"*.csv\"), parse_dates={\"Date\": [0, 1, 2]}\n",
+    ")\n",
     "ddf"
    ]
   },
@@ -296,11 +297,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "ddf = dd.read_csv(os.path.join('data', 'nycflights', '*.csv'),\n",
-    "                 parse_dates={'Date': [0, 1, 2]},\n",
-    "                 dtype={'TailNum': str,\n",
-    "                        'CRSElapsedTime': float,\n",
-    "                        'Cancelled': bool})"
+    "ddf = dd.read_csv(\n",
+    "    os.path.join(\"data\", \"nycflights\", \"*.csv\"),\n",
+    "    parse_dates={\"Date\": [0, 1, 2]},\n",
+    "    dtype={\"TailNum\": str, \"CRSElapsedTime\": float, \"Cancelled\": bool},\n",
+    ")"
    ]
   },
   {
@@ -504,7 +505,7 @@
    },
    "outputs": [],
    "source": [
-    "ddf[~ddf.Cancelled].groupby('Origin').Origin.count().compute()"
+    "ddf[~ddf.Cancelled].groupby(\"Origin\").Origin.count().compute()"
    ]
   },
   {
@@ -594,7 +595,9 @@
    },
    "outputs": [],
    "source": [
-    "ddf[\"Distance\"].apply(lambda x: x+1).compute() # don't worry about the warning, we'll discuss in the next sections\n",
+    "ddf[\"Distance\"].apply(\n",
+    "    lambda x: x + 1\n",
+    ").compute()  # don't worry about the warning, we'll discuss in the next sections\n",
     "\n",
     "# OR\n",
     "\n",
@@ -749,7 +752,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "ddf_jfk = ddf_jfk.persist() # returns back control immediately"
+    "ddf_jfk = ddf_jfk.persist()  # returns back control immediately"
    ]
   },
   {
@@ -830,9 +833,12 @@
     "def my_custom_converter(df, multiplier=1):\n",
     "    return df * multiplier\n",
     "\n",
+    "\n",
     "meta = pd.Series(name=\"Distance\", dtype=\"float64\")\n",
     "\n",
-    "distance_km = ddf.Distance.map_partitions(my_custom_converter, multiplier=0.6, meta=meta)"
+    "distance_km = ddf.Distance.map_partitions(\n",
+    "    my_custom_converter, multiplier=0.6, meta=meta\n",
+    ")"
    ]
   },
   {
 
@@ -104,7 +104,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "#NumPy array\n",
+    "# NumPy array\n",
     "a_np = np.ones(10)\n",
     "a_np"
    ]
@@ -122,7 +122,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "a_np_sum = a_np[:5].sum() + a_np[5:].sum() \n",
+    "a_np_sum = a_np[:5].sum() + a_np[5:].sum()\n",
     "a_np_sum"
    ]
   },
@@ -181,7 +181,7 @@
    "outputs": [],
    "source": [
     "# visualize the low level Dask graph using cytoscape\n",
-    "a_da_sum.visualize(engine=\"cytoscape\")\n"
+    "a_da_sum.visualize(engine=\"cytoscape\")"
    ]
   },
   {
@@ -220,8 +220,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "%%time \n",
-    "xn = np.random.normal(10, 0.1, size=(30_000, 30_000)) \n",
+    "%%time\n",
+    "xn = np.random.normal(10, 0.1, size=(30_000, 30_000))\n",
     "yn = xn.mean(axis=0)\n",
     "yn"
    ]
@@ -258,7 +258,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "yd = xd.mean(axis=0) \n",
+    "yd = xd.mean(axis=0)\n",
     "yd"
    ]
   },
@@ -270,8 +270,8 @@
    "source": [
     "%%time\n",
     "xd = da.random.normal(10, 0.1, size=(30_000, 30_000), chunks=(3000, 3000))\n",
-    "yd = xd.mean(axis=0) \n",
-    "yd.compute() "
+    "yd = xd.mean(axis=0)\n",
+    "yd.compute()"
    ]
   },
   {
@@ -320,7 +320,7 @@
    },
    "outputs": [],
    "source": [
-    "x_sum = xd + xd.T \n",
+    "x_sum = xd + xd.T\n",
     "res = x_sum.mean(axis=1)\n",
     "res.compute()"
    ]
@@ -393,7 +393,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "darr = darr.rechunk({0: -1, 1: 100, 2: 'auto'})"
+    "darr = darr.rechunk({0: -1, 1: 100, 2: \"auto\"})"
    ]
   },
   {
@@ -582,7 +582,7 @@
    "outputs": [],
    "source": [
     "# 1 possible Solution (imitate original). chunks will vary if you are in binder\n",
-    "c = da.from_zarr(\"data/random_sc.zarr\", chunks=(6250000, ))\n",
+    "c = da.from_zarr(\"data/random_sc.zarr\", chunks=(6250000,))\n",
     "c"
    ]
   },
@@ -671,7 +671,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "#we will see dashboard activity\n",
+    "# we will see dashboard activity\n",
     "mean.load()"
    ]
   },
@@ -699,7 +699,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "dair2 = dair.groupby('time.month').mean('time')\n",
+    "dair2 = dair.groupby(\"time.month\").mean(\"time\")\n",
     "dair_new = dair - dair2\n",
     "dair_new"
    ]
@@ -717,7 +717,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "#things happen in the dashboard\n",
+    "# things happen in the dashboard\n",
     "dair_new.load()"
    ]
   },
@@ -736,7 +736,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "dair_resample = dair.resample(time='1w').mean('time').std('time')"
+    "dair_resample = dair.resample(time=\"1w\").mean(\"time\").std(\"time\")"
    ]
   },
   {
 
@@ -88,10 +88,12 @@
    "source": [
     "from time import sleep\n",
     "\n",
+    "\n",
     "def inc(x):\n",
     "    sleep(1)\n",
     "    return x + 1\n",
     "\n",
+    "\n",
     "def add(x, y):\n",
     "    sleep(1)\n",
     "    return x + y"
@@ -139,11 +141,13 @@
    "source": [
     "import dask\n",
     "\n",
+    "\n",
     "@dask.delayed\n",
     "def inc(x):\n",
     "    sleep(1)\n",
     "    return x + 1\n",
     "\n",
+    "\n",
     "@dask.delayed\n",
     "def add(x, y):\n",
     "    sleep(1)\n",
@@ -258,15 +262,17 @@
     "%%time\n",
     "# Sequential code\n",
     "\n",
+    "\n",
     "def inc(x):\n",
     "    sleep(1)\n",
     "    return x + 1\n",
     "\n",
+    "\n",
     "results = []\n",
     "for x in data:\n",
     "    y = inc(x)\n",
     "    results.append(y)\n",
-    "    \n",
+    "\n",
     "total = sum(results)"
    ]
   },
@@ -305,11 +311,12 @@
     "    sleep(1)\n",
     "    return x + 1\n",
     "\n",
+    "\n",
     "results = []\n",
     "for x in data:\n",
     "    y = inc(x)\n",
     "    results.append(y)\n",
-    "    \n",
+    "\n",
     "total = sum(results)\n",
     "print(\"Before computing:\", total)  # Let's see what type of thing total is\n",
     "result = total.compute()\n",
@@ -347,9 +354,11 @@
     "    sleep(1)\n",
     "    return 2 * x\n",
     "\n",
+    "\n",
     "def is_even(x):\n",
     "    return not x % 2\n",
     "\n",
+    "\n",
     "data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]"
    ]
   },
@@ -369,7 +378,7 @@
     "    else:\n",
     "        y = inc(x)\n",
     "    results.append(y)\n",
-    "    \n",
+    "\n",
     "total = sum(results)\n",
     "print(total)"
    ]
@@ -402,14 +411,15 @@
     "    sleep(1)\n",
     "    return 2 * x\n",
     "\n",
+    "\n",
     "results = []\n",
     "for x in data:\n",
     "    if is_even(x):  # even\n",
     "        y = double(x)\n",
-    "    else:          # odd\n",
+    "    else:  # odd\n",
     "        y = inc(x)\n",
     "    results.append(y)\n",
-    "    \n",
+    "\n",
     "total = sum(results)"
    ]
   },
@@ -487,7 +497,8 @@
    "outputs": [],
    "source": [
     "import os\n",
-    "sorted(os.listdir(os.path.join('data', 'nycflights')))"
+    "\n",
+    "sorted(os.listdir(os.path.join(\"data\", \"nycflights\")))"
    ]
   },
   {
@@ -504,7 +515,8 @@
    "outputs": [],
    "source": [
     "import pandas as pd\n",
-    "df = pd.read_csv(os.path.join('data', 'nycflights', '1990.csv'))\n",
+    "\n",
+    "df = pd.read_csv(os.path.join(\"data\", \"nycflights\", \"1990.csv\"))\n",
     "df.head()"
    ]
   },
@@ -535,7 +547,7 @@
    "outputs": [],
    "source": [
     "# Mean departure delay per-airport for one year\n",
-    "df.groupby('Origin').DepDelay.mean()"
+    "df.groupby(\"Origin\").DepDelay.mean()"
    ]
   },
   {
@@ -554,7 +566,8 @@
    "outputs": [],
    "source": [
     "from glob import glob\n",
-    "filenames = sorted(glob(os.path.join('data', 'nycflights', '*.csv')))"
+    "\n",
+    "filenames = sorted(glob(os.path.join(\"data\", \"nycflights\", \"*.csv\")))"
    ]
   },
   {
@@ -570,16 +583,16 @@
     "for fn in filenames:\n",
     "    # Read in file\n",
     "    df = pd.read_csv(fn)\n",
-    "    \n",
+    "\n",
     "    # Groupby origin airport\n",
-    "    by_origin = df.groupby('Origin')\n",
-    "    \n",
+    "    by_origin = df.groupby(\"Origin\")\n",
+    "\n",
     "    # Sum of all departure delays by origin\n",
     "    total = by_origin.DepDelay.sum()\n",
-    "    \n",
+    "\n",
     "    # Number of flights by origin\n",
     "    count = by_origin.DepDelay.count()\n",
-    "    \n",
+    "\n",
     "    # Save the intermediates\n",
     "    sums.append(total)\n",
     "    counts.append(count)\n",
@@ -647,26 +660,28 @@
     "# This is just one possible solution, there are\n",
     "# several ways to do this using `dask.delayed`\n",
     "\n",
+    "\n",
     "@dask.delayed\n",
     "def read_file(filename):\n",
     "    # Read in file\n",
     "    return pd.read_csv(filename)\n",
     "\n",
+    "\n",
     "sums = []\n",
     "counts = []\n",
     "for fn in filenames:\n",
     "    # Delayed read in file\n",
     "    df = read_file(fn)\n",
     "\n",
     "    # Groupby origin airport\n",
-    "    by_origin = df.groupby('Origin')\n",
+    "    by_origin = df.groupby(\"Origin\")\n",
     "\n",
     "    # Sum of all departure delays by origin\n",
     "    total = by_origin.DepDelay.sum()\n",
     "\n",
     "    # Number of flights by origin\n",
     "    count = by_origin.DepDelay.count()\n",
-    "    \n",
+    "\n",
     "    # Save the intermediates\n",
     "    sums.append(total)\n",
     "    counts.append(count)\n",