📝 Fill with mean values

veit · veit · commit 8b56ad9d82a5 · 2025-01-09T22:19:00.000+01:00
diff --git a/docs/clean-prep/nulls.ipynb b/docs/clean-prep/nulls.ipynb
@@ -485,9 +485,20 @@
    "cell_type": "code",
    "execution_count": 8,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(46116, 7)"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
-    "df2 = df.dropna().shape"
+    "df.dropna().shape"
    ]
   },
   {
@@ -535,49 +546,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 2.3 Alle Spalten finden, in denen alle Daten vorhanden sind"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "complete_columns = list(df.columns)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 11,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "['timestamp',\n",
-       " 'username',\n",
-       " 'temperature',\n",
-       " 'heartrate',\n",
-       " 'build',\n",
-       " 'latest',\n",
-       " 'note']"
-      ]
-     },
-     "execution_count": 11,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "complete_columns"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### 2.4 Allte Spalten finden, in denen die meisten Daten vorhanden sind"
+    "### 2.3 Alle Spalten finden, in denen die meisten Daten vorhanden sind"
    ]
   },
   {
@@ -611,7 +580,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 2.5 Alle Spalten mit fehlenden Daten finden\n",
+    "### 2.4 Alle Spalten mit fehlenden Daten finden\n",
     "\n",
     "Mit [pandas.DataFrame.isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html) können wir fehlende Werte finden und mit [pandas.DataFrame.any](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.any.html) erfahren wir, ob ein Element gültig ist, normalerweise über einer Spalte."
    ]
@@ -707,7 +676,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 2.6 Ersetzen fehlender Daten\n",
+    "### 2.5 Ersetzen fehlender Daten\n",
     "\n",
     "Um unsere Änderungen in der Spalte `latest` überprüfen zu können, verwenden wir [pandas.Series.value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html). Die Methode gibt eine Serie zurück, die die Anzahl der eindeutigen Werte enthält:"
    ]
@@ -720,9 +689,32 @@
     {
      "data": {
       "text/plain": [
-       "latest\n",
-       "0.0    75735\n",
-       "1.0    38364\n",
+       "temperature\n",
+       "29.0    4688\n",
+       "26.0    4674\n",
+       "16.0    4656\n",
+       "28.0    4648\n",
+       "10.0    4632\n",
+       "13.0    4629\n",
+       "7.0     4624\n",
+       "27.0    4621\n",
+       "21.0    4585\n",
+       "9.0     4576\n",
+       "23.0    4571\n",
+       "5.0     4568\n",
+       "6.0     4563\n",
+       "19.0    4561\n",
+       "18.0    4557\n",
+       "17.0    4556\n",
+       "11.0    4529\n",
+       "15.0    4525\n",
+       "8.0     4486\n",
+       "12.0    4484\n",
+       "20.0    4473\n",
+       "25.0    4469\n",
+       "14.0    4464\n",
+       "22.0    4455\n",
+       "24.0    4446\n",
        "Name: count, dtype: int64"
       ]
      },
@@ -732,60 +724,76 @@
     }
    ],
    "source": [
-    "df.latest.value_counts()"
+    "df.temperature.value_counts()"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Jetzt ersetzen wir die fehlenden Werte in der Spalte `latest` durch `0` mit [DataFrame.fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html):"
+    "Jetzt ersetzen wir die fehlenden Werte in der Spalte `temperature` durch den auf eine Nachkommastelle gerundeten Mittelwert mit [DataFrame.fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html):"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 18,
    "metadata": {},
-   "outputs": [],
-   "source": [
-    "df.latest = df.latest.fillna(0)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 19,
-   "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "latest\n",
-       "0.0    108033\n",
-       "1.0     38364\n",
+       "temperature\n",
+       "17.0    36913\n",
+       "29.0     4688\n",
+       "26.0     4674\n",
+       "16.0     4656\n",
+       "28.0     4648\n",
+       "10.0     4632\n",
+       "13.0     4629\n",
+       "7.0      4624\n",
+       "27.0     4621\n",
+       "21.0     4585\n",
+       "9.0      4576\n",
+       "23.0     4571\n",
+       "5.0      4568\n",
+       "6.0      4563\n",
+       "19.0     4561\n",
+       "18.0     4557\n",
+       "11.0     4529\n",
+       "15.0     4525\n",
+       "8.0      4486\n",
+       "12.0     4484\n",
+       "20.0     4473\n",
+       "25.0     4469\n",
+       "14.0     4464\n",
+       "22.0     4455\n",
+       "24.0     4446\n",
        "Name: count, dtype: int64"
       ]
      },
-     "execution_count": 19,
+     "execution_count": 18,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
-    "df.latest.value_counts()"
+    "temp_mean = round(df.temperature.mean(), 1)\n",
+    "fill_mean = df.temperature.fillna(temp_mean)\n",
+    "fill_mean.value_counts()"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 2.7 Ersetzen fehlender Daten durch `backfill`\n",
+    "### 2.6 Ersetzen fehlender Daten durch `backfill`\n",
     "\n",
     "Damit die Datensätze in ihrer zeitlichen Reihenfolge aufeinanderfolgen, setzen wir zunächst den Index für `timestamp` mit [set_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html):"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 20,
+   "execution_count": 19,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -794,7 +802,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 21,
+   "execution_count": 20,
    "metadata": {},
    "outputs": [
     {
@@ -878,7 +886,7 @@
        "      <td>29.0</td>\n",
        "      <td>62</td>\n",
        "      <td>122f1c6a-403c-2221-6ed1-b5caa08f11e0</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -905,7 +913,7 @@
        "      <td>16.0</td>\n",
        "      <td>76</td>\n",
        "      <td>7a60219f-6621-e548-180e-ca69624f9824</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>interval</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -932,7 +940,7 @@
        "      <td>NaN</td>\n",
        "      <td>63</td>\n",
        "      <td>e09b6001-125d-51cf-9c3f-9cb686c19d02</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -950,7 +958,7 @@
        "      <td>22.0</td>\n",
        "      <td>83</td>\n",
        "      <td>03e1a07b-3e14-412c-3a69-6b45bc79f81c</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>update</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -986,7 +994,7 @@
        "      <td>NaN</td>\n",
        "      <td>63</td>\n",
        "      <td>b60bd7de-4057-8a85-f806-e6eec1350338</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>interval</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -1004,7 +1012,7 @@
        "      <td>11.0</td>\n",
        "      <td>69</td>\n",
        "      <td>1aef7db8-9a3e-7dc9-d7a5-781ec0efd200</td>\n",
-       "      <td>0.0</td>\n",
+       "      <td>NaN</td>\n",
        "      <td>user</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -1050,25 +1058,25 @@
        "2017-01-01T12:01:09  7256b7b0-e502-f576-62ec-ed73533c9c84     0.0      wake  \n",
        "2017-01-01T12:01:34  9226c94b-bb4b-a6c8-8e02-cb42b53e9c90     0.0       NaN  \n",
        "2017-01-01T12:02:09                                   NaN     0.0    update  \n",
-       "2017-01-01T12:02:36  122f1c6a-403c-2221-6ed1-b5caa08f11e0     0.0       NaN  \n",
+       "2017-01-01T12:02:36  122f1c6a-403c-2221-6ed1-b5caa08f11e0     NaN       NaN  \n",
        "2017-01-01T12:03:04  0897dbe5-9c5b-71ca-73a1-7586959ca198     0.0  interval  \n",
        "2017-01-01T12:03:51  1c07ab9b-5f66-137d-a74f-921a41001f4e     1.0       NaN  \n",
-       "2017-01-01T12:04:35  7a60219f-6621-e548-180e-ca69624f9824     0.0  interval  \n",
+       "2017-01-01T12:04:35  7a60219f-6621-e548-180e-ca69624f9824     NaN  interval  \n",
        "2017-01-01T12:05:05  a8b87754-a162-da28-2527-4bce4b3d4191     1.0       NaN  \n",
        "2017-01-01T12:05:41  585f1a3c-0679-0ffe-9132-508933c70343     0.0      wake  \n",
-       "2017-01-01T12:06:21  e09b6001-125d-51cf-9c3f-9cb686c19d02     0.0       NaN  \n",
+       "2017-01-01T12:06:21  e09b6001-125d-51cf-9c3f-9cb686c19d02     NaN       NaN  \n",
        "2017-01-01T12:06:53  607c9f6e-2bdf-a606-6d16-3004c6958436     1.0    update  \n",
-       "2017-01-01T12:07:41  03e1a07b-3e14-412c-3a69-6b45bc79f81c     0.0    update  \n",
+       "2017-01-01T12:07:41  03e1a07b-3e14-412c-3a69-6b45bc79f81c     NaN    update  \n",
        "2017-01-01T12:08:08                                   NaN     0.0  interval  \n",
        "2017-01-01T12:08:35                                   NaN     0.0      wake  \n",
        "2017-01-01T12:09:05  b9890c1e-79d5-8979-63ae-6c08a4cd476a     0.0       NaN  \n",
-       "2017-01-01T12:09:48  b60bd7de-4057-8a85-f806-e6eec1350338     0.0  interval  \n",
+       "2017-01-01T12:09:48  b60bd7de-4057-8a85-f806-e6eec1350338     NaN  interval  \n",
        "2017-01-01T12:10:23  b1dacc73-c8b7-1d7d-ee02-578da781a71e     0.0      test  \n",
-       "2017-01-01T12:10:57  1aef7db8-9a3e-7dc9-d7a5-781ec0efd200     0.0      user  \n",
+       "2017-01-01T12:10:57  1aef7db8-9a3e-7dc9-d7a5-781ec0efd200     NaN      user  \n",
        "2017-01-01T12:11:34  8075d058-7dae-e2ec-d47e-58ec6d26899b     1.0       NaN  "
       ]
      },
-     "execution_count": 21,
+     "execution_count": 20,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -1086,7 +1094,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 22,
+   "execution_count": 21,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -1097,7 +1105,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 23,
+   "execution_count": 22,
    "metadata": {},
    "outputs": [
     {
@@ -1106,15 +1114,15 @@
      "text": [
       "number missing for column temperature: 22633\n",
       "number missing for column build: 32350\n",
-      "number missing for column latest: 0\n",
+      "number missing for column latest: 32298\n",
       "number missing for column note: 48704\n"
      ]
     }
    ],
    "source": [
     "for col in incomplete_columns:\n",
     "    num_missing = df[df[col].isnull() == True].shape[0]\n",
-    "    print(\"number missing for column {}: {}\".format(col, num_missing))                                                                                           "
+    "    print(f\"number missing for column {col}: {num_missing}\")                                                                                           "
    ]
   },
   {
@@ -1149,7 +1157,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.4"
+   "version": "3.11.10"
   },
   "latex_envs": {
    "LaTeX_envs_menu_present": true,