diff --git a/docs/1intro/case-study.ipynb b/docs/1intro/case-study.ipynb index 4acacbf..7231915 100644 --- a/docs/1intro/case-study.ipynb +++ b/docs/1intro/case-study.ipynb @@ -17,7 +17,7 @@ "\n", "1. Daten laden und verstehen\n", "\n", - " * Nutzung eines offenen Datensatzes (z.B. Boston Housing Dataset oder Kaggle Immobilienpreise).\n", + " * Nutzung eines offenen Datensatzes (z.B. California Housing Dataset oder Kaggle Immobilienpreise).\n", " * Untersuchung der Datenverteilung, Korrelationen und möglicher Ausreißer.\n", "\n", "2. Datenvorbereitung\n", @@ -39,6 +39,47 @@ "## Code-Beispiel" ] }, + { + "cell_type": "code", + "execution_count": 3, + "id": "d7f69c6d-4db0-484d-9c68-c3ec4fce16b9", + "metadata": { + "collapsed": true, + "jupyter": { + "outputs_hidden": true + } + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Defaulting to user installation because normal site-packages is not writeable\n", + "Collecting scikit-learn\n", + " Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (31 kB)\n", + "Requirement already satisfied: numpy>=1.19.5 in /Users/minye/Library/Python/3.9/lib/python/site-packages (from scikit-learn) (1.26.3)\n", + "Requirement already satisfied: scipy>=1.6.0 in /Users/minye/Library/Python/3.9/lib/python/site-packages (from scikit-learn) (1.12.0)\n", + "Collecting joblib>=1.2.0 (from scikit-learn)\n", + " Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)\n", + "Collecting threadpoolctl>=3.1.0 (from scikit-learn)\n", + " Using cached threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)\n", + "Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl (11.1 MB)\n", + "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m11.1/11.1 MB\u001b[0m \u001b[31m6.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m00:01\u001b[0m0:01\u001b[0m\n", + "\u001b[?25hUsing cached joblib-1.4.2-py3-none-any.whl (301 kB)\n", + "Using cached threadpoolctl-3.5.0-py3-none-any.whl (18 kB)\n", + "Installing collected packages: threadpoolctl, joblib, scikit-learn\n", + "Successfully installed joblib-1.4.2 scikit-learn-1.6.1 threadpoolctl-3.5.0\n", + "\n", + "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m24.3.1\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m25.0.1\u001b[0m\n", + "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49m/Applications/Xcode.app/Contents/Developer/usr/bin/python3 -m pip install --upgrade pip\u001b[0m\n" + ] + } + ], + "source": [ + "import sys\n", + "# !{sys.executable} -m pip install scikit-learn\n" + ] + }, { "cell_type": "markdown", "id": "9d22c329-4a99-4a23-af24-6e4b2eafec89", @@ -67,7 +108,7 @@ "id": "7346190a-b639-455f-95ef-420470149e57", "metadata": {}, "source": [ - "### Beispieldatensatz laden (Boston Housing Dataset)" + "### Beispieldatensatz laden (California Housing Dataset)" ] }, { @@ -799,6 +840,49 @@ "model.fit(x_train_scaled, y_train)" ] }, + { + "cell_type": "code", + "execution_count": 7, + "id": "59a43b36-584b-44a1-8886-794e6dae7387", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "array([ 0.85438303, 0.12254624, -0.29441013, 0.33925949, -0.00230772,\n", + " -0.0408291 , -0.89692888, -0.86984178])" + ] + }, + "execution_count": 7, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.coef_" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "f1d07fc0-8600-44be-b5b4-50a6352b7846", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "2.0719469373788777" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.intercept_" + ] + }, { "cell_type": "markdown", "id": "37a770e9-051c-4842-b54d-75c67a5df7a2", @@ -809,7 +893,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 9, "id": "84deab4f-653c-496e-b72e-76a3cedb0575", "metadata": {}, "outputs": [], @@ -827,7 +911,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 10, "id": "1a1e7040-cc53-4f9f-afa1-0c8c9ff1e6dd", "metadata": {}, "outputs": [ @@ -835,8 +919,8 @@ "name": "stdout", "output_type": "stream", "text": [ - "Mittlerer quadratischer Fehler (MSE): 0.5558915986952444\n", - "Bestimmtheitsmaß (R²): 0.5757877060324508\n" + "Mittlerer quadratischer Fehler (MSE): 0.5558915986952442\n", + "Bestimmtheitsmaß (R²): 0.575787706032451\n" ] } ], @@ -857,13 +941,13 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 11, "id": "16270434-db30-472f-ab59-033142994c49", "metadata": {}, "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ "
" ] @@ -879,6 +963,14 @@ "plt.title(\"Tatsächliche vs. Vorhergesagte Immobilienpreise\")\n", "plt.show()" ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "ac7dd956-5204-46e0-b6ee-8fc767ed4f30", + "metadata": {}, + "outputs": [], + "source": [] } ], "metadata": { @@ -897,7 +989,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.12.9" + "version": "3.9.6" }, "widgets": { "application/vnd.jupyter.widget-state+json": { diff --git a/docs/1intro/evaluation.rst b/docs/1intro/evaluation.rst index 231db0b..75542f2 100644 --- a/docs/1intro/evaluation.rst +++ b/docs/1intro/evaluation.rst @@ -101,7 +101,7 @@ Accuracy (Genauigkeit) Prozentsatz der korrekten Vorhersagen: .. math:: - \text{Accuracy} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}} + \text{Accuracy} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}} = \frac{\text{TP}+\text{TN}}{all} .. warning: Accuracy hat eine Einschränkung bei (stark) unausgewogenen Datensätzen, da diff --git a/docs/1intro/index.rst b/docs/1intro/index.rst index bc3fd0d..8c6bb43 100644 --- a/docs/1intro/index.rst +++ b/docs/1intro/index.rst @@ -46,4 +46,5 @@ Gliederung linear-regression case-study reflection + usecase-pitfalls extra diff --git a/docs/1intro/linear-regression.rst b/docs/1intro/linear-regression.rst index 489da15..d37c3ba 100644 --- a/docs/1intro/linear-regression.rst +++ b/docs/1intro/linear-regression.rst @@ -71,4 +71,4 @@ Schritte zur Implementierung eines ML-Modells 4. **Modell evaluieren und Interpretation** * Bewertung der Modellperformance auf dem Testdatensatz. - * Interpretation der wichtigsten Einflussgrößen. + * Interpretation der wichtigsten Einflussgrößen. \ No newline at end of file diff --git a/docs/2deep_ml_ops/usecase-pitfalls.rst b/docs/1intro/usecase-pitfalls.rst similarity index 77% rename from docs/2deep_ml_ops/usecase-pitfalls.rst rename to docs/1intro/usecase-pitfalls.rst index e413749..19bdde9 100644 --- a/docs/2deep_ml_ops/usecase-pitfalls.rst +++ b/docs/1intro/usecase-pitfalls.rst @@ -11,6 +11,9 @@ Use Case Fallgruben – Diskussion zur Kundenabwanderung (Customer Churn Predict Ein Telekommunikationsunternehmen möchte vorhersagen, ob ein Kunde abwandern wird oder nicht. Die Lernenden sollen erarbeiten: +Relevante Gedankengänge: +~~~~~~~~~~~~~~~~~~~~~~~~~ + 1. **Wie definiert man Kundenabwanderung?** - z.B. Vertragskunde: kündigt in den nächsten drei Monaten seinen Vertrag @@ -18,13 +21,15 @@ Ein Telekommunikationsunternehmen möchte vorhersagen, ob ein Kunde abwandern wi 2. **Welche Daten sind relevant?** -2. **Wie sollten Features gestaltet werden?** (z. B. Anrufhäufigkeit, Vertragslaufzeit, Reklamationen?) +3. **Wie sollten Features gestaltet werden?** + +Tip: Anrufhäufigkeit, Vertragslaufzeit, Reklamationen? -3. **Welche ML-Methoden eignen sich?** (Klassifikation, Feature Engineering) +4. **Welche ML-Methoden eignen sich?** (Klassifikation, Feature Engineering) -4. **Wie validiert man das Modell?** +5. **Wie validiert man das Modell?** -5. **Welche Herausforderungen können auftreten?** +6. **Welche Herausforderungen können auftreten?** **Diskussionsfragen:** diff --git a/docs/2deep_ml_ops/cnn-beispiel.ipynb b/docs/2deep_ml_ops/cnn-beispiel.ipynb new file mode 100644 index 0000000..6792a51 --- /dev/null +++ b/docs/2deep_ml_ops/cnn-beispiel.ipynb @@ -0,0 +1,1066 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "53b766a3-8e54-40b0-92ba-12fcbe9025ec", + "metadata": {}, + "source": [ + "# Praxisbeispiel - Bildklassifikation mit CNNs\n", + "\n", + "## Ziel:\n", + "Einführung in Convolutional Neural Networks mit TensorFlow/Keras anhand eines Bildklassifikationsproblems.\n" + ] + }, + { + "cell_type": "markdown", + "id": "d4dee2c8-8af5-4492-ae60-87e3181697b6", + "metadata": {}, + "source": [ + "## 1. Bibliotheken laden" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "bcb16094-dffa-4960-be59-37041ef1cd94", + "metadata": {}, + "outputs": [], + "source": [ + "import tensorflow as tf\n", + "from tensorflow.keras import layers, models\n", + "from tensorflow.keras.datasets import mnist\n", + "import matplotlib.pyplot as plt" + ] + }, + { + "cell_type": "markdown", + "id": "d0f3b447-e147-4440-9d57-510303f0b327", + "metadata": {}, + "source": [ + "## 2. Daten laden" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "722a1383-267a-4526-8832-721336a47f04", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz\n", + "\u001b[1m11490434/11490434\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m2s\u001b[0m 0us/step \n" + ] + } + ], + "source": [ + "(x_train, y_train), (x_test, y_test) = mnist.load_data()" + ] + }, + { + "cell_type": "markdown", + "id": "468189a4-a053-418e-b880-9ae50e5b5de0", + "metadata": {}, + "source": [ + "## 3. Daten einsehen" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "ccf8205f-d371-455b-8d92-e2ebf407f635", + "metadata": { + "scrolled": true + }, + "outputs": [ + { + "data": { + "text/plain": [ + "array([[[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]],\n", + "\n", + " [[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]],\n", + "\n", + " [[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]],\n", + "\n", + " ...,\n", + "\n", + " [[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]],\n", + "\n", + " [[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]],\n", + "\n", + " [[0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " ...,\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0],\n", + " [0, 0, 0, ..., 0, 0, 0]]], dtype=uint8)" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "x_train" + ] + }, + { + "cell_type": "markdown", + "id": "d990992b-150d-4473-af09-0a366ef7cff0", + "metadata": {}, + "source": [ + "## 4. Daten vorbereiten (Data Preprocessing)" + ] + }, + { + "cell_type": "markdown", + "id": "620c9750-9f53-4071-be66-05a251ab8a4d", + "metadata": {}, + "source": [ + "### Normalisierung\n", + "\n", + "Normalisieren von Bilderdaten ist wiederum anders als von numerischen Daten. \n", + "\n", + "Der Grund für die Normalisierung der Bilder(daten) ist die Vermeidung der Möglichkeit von explodierenden Gradienten aufgrund des großen Pixelbereichs [0, 255] und die Verbesserung der Konvergenzgeschwindigkeit. \n", + "Daher kann entweder \n", + "1. man jedes Bild normalisieren, so dass der Pixelbereich sich in [-1, 1] befindet \n", + "oder\n", + "2. man teilt jeden Wert durch den maximalen Pixelwert, d.h. 255, so dass der Bereich der Pixel im Bereich [0, 1] liegt.\n", + "\n", + "Ein weiterer Grund für die Normalisierung von Bilddaten ist wenn man Transfer Learning verwendet. \n", + "Wenn z. B. ein bereits trainiertes Modell verwendet wird, das mit Bildern trainiert wurde, deren Pixel im Bereich [0, 1] liegen, sollte man sicherstellen, dass die neuen Werte, die man dem Modell liefert, im gleichen Bereich liegen. Andernfalls werden die Ergebnisse verfälscht werden." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "6bcbf900-e870-4dbb-ab9f-1de80f2377a0", + "metadata": {}, + "outputs": [], + "source": [ + "# Normalisierung\n", + "x_train, x_test = x_train / 255.0, x_test / 255.0 " + ] + }, + { + "cell_type": "markdown", + "id": "07dee44a-37e2-4dd6-a6ae-9b8bcb7c4bf3", + "metadata": {}, + "source": [ + "### Dimension erweitern\n", + "\n", + "Zuden existierenden Dimensionen der Bilddaten fügen wir eine neue Dimension hinzu. \n", + "Diese neue Dimension stellt die Anzahl der in den Daten vorhandenen Kanäle dar.\n", + "\n", + "Bei Farbbildern wären dies 3 Kanäle, die den roten, grünen und blauen Kanal darstellen. \n", + "In diesem Fall handelt es sich um Schwarz-Weiß-Bilder, so dass nur 1 Kanal vorhanden ist." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "54f9b079-3d31-4b6e-bcda-54f9b525c6f0", + "metadata": {}, + "outputs": [], + "source": [ + "# Dimension erweitern\n", + "x_train = x_train[..., tf.newaxis] \n", + "x_test = x_test[..., tf.newaxis]" + ] + }, + { + "cell_type": "markdown", + "id": "614c8498-fdb3-41ca-807c-79c395860466", + "metadata": {}, + "source": [ + "## 5. Modell definieren" + ] + }, + { + "cell_type": "markdown", + "id": "d0c0b7e5-dd65-45a3-a53d-843b89266edb", + "metadata": {}, + "source": [ + "CNN Layers:\n", + "- Conv2D:\n", + "\n", + "\n", + " Die am häufigsten verwendete Art der Faltung ist die 2D-Faltungsschicht und wird üblicherweise als conv2D abgekürzt. Ein Filter oder ein Kernel in einer conv2D-Schicht „gleitet“ über die 2D-Eingangsdaten und führt eine elementweise Multiplikation durch. Das Ergebnis ist die Summierung der Ergebnisse zu einem einzigen Ausgabepixel.\n", + "\n", + " Parameter bei der Erstellung einer Conv2D Schicht:\n", + "\n", + " 1. 32: Anzahl von Filtern in dieser Convolution-Schicht. Hierfür wird immer empfohlen, Potenzen von 2 als Werte zu verwenden.\n", + " 2. (3, 3): bestimmt die Dimensionen des Kernels. Übliche Abmessungen sind 1×1, 3×3, 5×5 oder 7×7, entsprechend als (1, 1), (3, 3), (5, 5) oder (7, 7)-Tupel übergeben.\n", + " Es muss hier eine ganze Zahl oder ein Tupel/Liste von 2 ganzen Zahlen, die die Höhe und Breite des 2D-Faltungsfensters angeben. Zudem muss dieser Parameter eine ungerade ganze Zahl sein.\n", + " 4. activation=\"..\": gibt den Namen der Aktivierungsfunktion an, die nach der Faltung/convolution verwendet werden soll. (siehe unten)\n", + " \n", + " \n", + "- MaxPooling2D (more details: https://www.geeksforgeeks.org/cnn-introduction-to-pooling-layer/?ref=header_outind) \n", + "\n", + " Die Pooling-Schicht wird in CNNs verwendet, um die räumlichen Dimensionen (Breite und Höhe) der eingegebenen Merkmalskarten zu reduzieren und gleichzeitig die wichtigsten Informationen beizubehalten. Dabei wird ein zweidimensionaler Filter über jeden Kanal einer Merkmalskarte gezogen und die Merkmale innerhalb des vom Filter abgedeckten Bereichs zusammengefasst.\n", + "\n", + " Zudem hilft es die Dimensionalität zu verringern, da Pooling-Schichten die räumliche Größe der Feature-Matrix reduzieren, somit die Anzahl der Parameter und Berechnungen im Network verringert wird. So wird das Modell schneller und effizienter. Außerdem trägt die Reduzierung der räumlichen Dimensionen dazu bei, Overfitting zu verhindern. \n", + "\n", + "- Flatten:\n", + "\n", + "\n", + " Eine flache Schicht des neuronalen Netzes wird verwendet, um die mehrdimensionale Ausgabe der vorhergehenden Schicht in ein eindimensionales Feld umzuwandeln, bevor sie zur weiteren Verarbeitung in eine vollständig verbundene Schicht (dense layers) eingespeist wird.\n", + "\n", + " Zudem reduziert es die Dimension in den Daten und vereinfacht die Modellarchitektur.\n", + "\n", + " \n", + "- Dense:\n", + " Die Dense Schicht ist eine vollständig verbundene Schicht." + ] + }, + { + "cell_type": "markdown", + "id": "5aa5e504-e04f-4907-8677-4ce8335d992a", + "metadata": {}, + "source": [ + "### (typische) Aktivierungsfunktionen \n", + "- relu:\n", + " \n", + " Die ReLU-Aktivierungsfunktion wird verwendet, um Nichtlinearität in ein neuronales Netz einzuführen. Sie trägt dazu bei, das Problem des verschwindenden Gradienten beim Training von Modellen des maschinellen Lernens zu entschärfen, und ermöglicht es neuronalen Netzen, komplexere Beziehungen in Daten zu lernen.\n", + " Wenn eine Modelleingabe positiv ist, gibt die ReLU-Funktion denselben Wert aus. Wenn eine Modelleingabe negativ ist, gibt die ReLU-Funktion den Wert Null aus.\n", + "\n", + "- softmax:\n", + "\n", + " Die Softmax-Funktion, die häufig in der letzten Schicht eines neuronalen Netzmodells für Klassifizierungsaufgaben verwendet wird, wandelt rohe Ausgabeergebnisse - auch als Logits bekannt - in Wahrscheinlichkeiten um, indem sie den Exponentialwert jeder Ausgabe nimmt und diese Werte normalisiert, indem sie durch die Summe aller Exponentialwerte dividiert wird.\n", + "\n", + " https://botpenguin.com/glossary/softmax-function" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "id": "169980df-2df4-42af-b2b9-eb2cf15671dc", + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/Users/minye/Documents/gitHub/ainvone/cusy-gfu/gfu/schulung-ki_von_grund_auf/01-Einfuehrung-in-KI/.venv312/lib/python3.12/site-packages/keras/src/layers/convolutional/base_conv.py:107: UserWarning: Do not pass an `input_shape`/`input_dim` argument to a layer. When using Sequential models, prefer using an `Input(shape)` object as the first layer in the model instead.\n", + " super().__init__(activity_regularizer=activity_regularizer, **kwargs)\n" + ] + } + ], + "source": [ + "# Modell definieren\n", + "model = models.Sequential(\n", + " [\n", + " layers.Conv2D(32, (3, 3), activation=\"relu\", input_shape=(28, 28, 1)),\n", + " layers.MaxPooling2D((2, 2)),\n", + " layers.Conv2D(64, (3, 3), activation=\"relu\"),\n", + " layers.MaxPooling2D((2, 2)),\n", + " layers.Conv2D(64, (3, 3), activation=\"relu\"),\n", + " layers.Flatten(),\n", + " layers.Dense(64, activation=\"relu\"),\n", + " layers.Dense(10, activation=\"softmax\"),\n", + " ]\n", + ")" + ] + }, + { + "cell_type": "markdown", + "id": "0dcef3d2-9b6e-4c35-b0af-24816e1fefac", + "metadata": {}, + "source": [ + "Gute Visualisierungen solch ähnlicher Struktur können hier gefunden werden:\n", + "\n", + "https://miro.medium.com/v2/resize:fit:1400/format:webp/1*vkQ0hXDaQv57sALXAJquxA.jpeg\n", + "\n", + "https://miro.medium.com/v2/resize:fit:1400/format:webp/1*uAeANQIOQPqWZnnuH-VEyw.jpeg\n", + "\n", + "(Credits an Sumit Saha: https://medium.com/towards-data-science/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53)" + ] + }, + { + "cell_type": "markdown", + "id": "cc005536-b5d2-43a4-a27a-195b9fc0a6ff", + "metadata": {}, + "source": [ + "## 6. Modell kompilieren" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "0af77c33-c547-47b5-8549-f77169a4585d", + "metadata": {}, + "outputs": [], + "source": [ + "# Modell kompilieren\n", + "model.compile(\n", + " optimizer=\"adam\",\n", + " loss=\"sparse_categorical_crossentropy\",\n", + " metrics=[\"accuracy\"],\n", + ")" + ] + }, + { + "cell_type": "markdown", + "id": "322f7757-10d8-48b6-8b6c-89bdd6f83d3f", + "metadata": {}, + "source": [ + "## 7. Training" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "id": "159676e6-736b-473b-93a0-1cc4e759a9f6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Epoch 1/5\n", + "\u001b[1m1875/1875\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m13s\u001b[0m 7ms/step - accuracy: 0.5201 - loss: 1.3256 - val_accuracy: 0.9181 - val_loss: 0.2701\n", + "Epoch 2/5\n", + "\u001b[1m1875/1875\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m12s\u001b[0m 6ms/step - accuracy: 0.9247 - loss: 0.2469 - val_accuracy: 0.9536 - val_loss: 0.1489\n", + "Epoch 3/5\n", + "\u001b[1m1875/1875\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m12s\u001b[0m 6ms/step - accuracy: 0.9534 - loss: 0.1544 - val_accuracy: 0.9650 - val_loss: 0.1072\n", + "Epoch 4/5\n", + "\u001b[1m1875/1875\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m13s\u001b[0m 7ms/step - accuracy: 0.9662 - loss: 0.1099 - val_accuracy: 0.9733 - val_loss: 0.0798\n", + "Epoch 5/5\n", + "\u001b[1m1875/1875\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m12s\u001b[0m 6ms/step - accuracy: 0.9714 - loss: 0.0891 - val_accuracy: 0.9786 - val_loss: 0.0680\n" + ] + }, + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.fit(x_train, y_train, epochs=5, validation_data=(x_test, y_test))" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "id": "54e16a32-c8c8-46c5-89a8-d9ed94151f50", + "metadata": { + "collapsed": true, + "jupyter": { + "outputs_hidden": true + } + }, + "outputs": [ + { + "data": { + "text/plain": [ + "[array([[[[-1.22406550e-01, -1.04940124e-01, 1.05540431e+00,\n", + " 7.33939633e-02, -1.00426063e-01, -5.34634618e-03,\n", + " 7.14282170e-02, -1.25062847e+00, 6.30540550e-02,\n", + " -2.37185694e-02, -7.45562315e-02, -1.64713878e-02,\n", + " -1.12705171e+00, -1.32961959e-01, -5.87262250e-02,\n", + " 1.01219498e-01, 6.92881346e-01, 1.01272047e+00,\n", + " 1.19992472e-01, 1.23000138e-01, -3.42749394e-02,\n", + " -9.46973711e-02, 4.86068949e-02, 1.68845132e-02,\n", + " -1.17901556e-01, -4.75684665e-02, -1.04668069e+00,\n", + " -9.32694674e-02, -9.69426095e-01, 9.41504955e-01,\n", + " 1.00876343e+00, 1.07508950e-01]],\n", + " \n", + " [[ 6.25128299e-02, 1.03033878e-01, 1.63415444e+00,\n", + " -5.86562604e-02, 6.17862120e-03, 6.60237372e-02,\n", + " -8.15676749e-02, -1.47776830e+00, -1.31476879e-01,\n", + " -1.34139717e-01, 1.89567413e-02, 1.34701788e-01,\n", + " -1.18035138e+00, -3.27071249e-02, 5.31418025e-02,\n", + " -9.48082097e-03, 1.22419310e+00, 1.30111873e+00,\n", + " 9.74448249e-02, 9.95283425e-02, 1.48501322e-02,\n", + " 1.00815147e-01, 2.78599281e-02, 1.32996678e-01,\n", + " -4.16899063e-02, 9.56013501e-02, -1.41377544e+00,\n", + " 5.99457696e-02, -1.19312155e+00, 1.50736153e+00,\n", + " 1.61045134e+00, -9.09326226e-02]],\n", + " \n", + " [[-7.83583298e-02, -8.82351398e-02, 1.94420063e+00,\n", + " -6.19674921e-02, 1.21926457e-01, -1.64310466e-02,\n", + " -6.62469305e-03, -1.89023638e+00, 6.79314369e-03,\n", + " -5.72794601e-02, -1.79723538e-02, -1.20034032e-01,\n", + " -1.47505045e+00, -6.51922971e-02, -1.18146993e-01,\n", + " 1.31704301e-01, 1.69707072e+00, 1.73330379e+00,\n", + " -9.68419313e-02, -6.24438561e-02, 5.91679960e-02,\n", + " 3.02885417e-02, -1.17697634e-01, 4.59196344e-02,\n", + " 8.85993317e-02, -1.74901017e-03, -1.84632277e+00,\n", + " -1.35182694e-01, -1.48471940e+00, 1.83147061e+00,\n", + " 1.73361361e+00, -5.30065596e-02]]],\n", + " \n", + " \n", + " [[[-9.57763493e-02, 1.06843095e-02, 1.75813472e+00,\n", + " -1.29688382e-01, -7.96640888e-02, 9.84542742e-02,\n", + " 1.28048778e-01, -1.80853605e+00, -1.17492847e-01,\n", + " -3.03778518e-02, 4.00241576e-02, -8.16433206e-02,\n", + " -1.90246665e+00, -6.18674979e-02, 1.03265770e-01,\n", + " -9.87912118e-02, 1.41587746e+00, 1.59109902e+00,\n", + " -4.26441692e-02, -1.09283321e-01, 1.34045720e-01,\n", + " 6.59470335e-02, -9.85139515e-03, -5.01345322e-02,\n", + " -2.21411921e-02, 1.61392754e-03, -1.82987559e+00,\n", + " -2.80206427e-02, -1.82214963e+00, 1.68708861e+00,\n", + " 1.71702063e+00, -1.81070566e-02]],\n", + " \n", + " [[-1.21809751e-01, 3.73796299e-02, 2.49048185e+00,\n", + " -8.52861255e-02, 9.44486335e-02, 1.21906884e-01,\n", + " -1.11697055e-02, -1.82091975e+00, 5.71683533e-02,\n", + " 8.27445015e-02, -6.15169182e-02, 6.67865109e-03,\n", + " -1.97300541e+00, 1.92017406e-02, 9.39941406e-03,\n", + " -5.58954440e-02, 2.34084105e+00, 2.49039578e+00,\n", + " 1.05479367e-01, 1.11193741e-02, -5.72169982e-02,\n", + " -9.02368352e-02, -8.29203147e-03, 4.14377116e-02,\n", + " 2.34825872e-02, -6.77365437e-02, -1.78600693e+00,\n", + " 5.83842322e-02, -1.64335132e+00, 2.46693969e+00,\n", + " 2.24549413e+00, -7.59055838e-02]],\n", + " \n", + " [[-2.31350586e-02, 4.71984670e-02, 1.97533929e+00,\n", + " 6.71978071e-02, -7.17302039e-02, -2.24373341e-02,\n", + " 5.07648801e-03, -2.12082839e+00, 8.82488862e-02,\n", + " -7.06230700e-02, -1.48546234e-01, 1.33056059e-01,\n", + " -2.07195067e+00, -1.08200125e-01, -3.93704139e-02,\n", + " -5.73396087e-02, 2.17356730e+00, 2.17443180e+00,\n", + " 5.66516481e-02, 4.58226390e-02, -5.51303923e-02,\n", + " 9.86828879e-02, -1.33762971e-01, -9.46188718e-02,\n", + " -3.34561355e-02, -1.92110725e-02, -1.94994235e+00,\n", + " -2.60656327e-02, -2.00395918e+00, 2.10578084e+00,\n", + " 1.85894048e+00, 3.11964843e-02]]],\n", + " \n", + " \n", + " [[[ 6.48115575e-02, 4.62496839e-02, 1.31863916e+00,\n", + " 6.87884986e-02, 2.86218897e-02, 5.42872176e-02,\n", + " -1.51097635e-02, -1.52965164e+00, 2.06916425e-02,\n", + " -1.74260139e-02, -1.67195164e-02, -3.93627696e-02,\n", + " -1.71877074e+00, 3.72256860e-02, 1.02261432e-01,\n", + " 5.50065525e-02, 1.47071218e+00, 1.35496914e+00,\n", + " 1.12139270e-01, 7.77536109e-02, -1.66937225e-02,\n", + " -2.74120513e-02, -3.52033749e-02, 4.27518710e-02,\n", + " 2.96470895e-02, 7.74797425e-02, -1.63591981e+00,\n", + " -6.24467283e-02, -1.49033296e+00, 1.51481032e+00,\n", + " 1.43474472e+00, 6.48858845e-02]],\n", + " \n", + " [[ 1.25385031e-01, 1.93701517e-02, 1.35700619e+00,\n", + " -3.29198055e-02, -1.35597497e-01, 9.18423459e-02,\n", + " -1.29965737e-01, -1.41640520e+00, -9.96136293e-02,\n", + " -3.75120044e-02, -3.45025845e-02, -1.12801664e-01,\n", + " -1.65582597e+00, 9.59943309e-02, -3.54000740e-02,\n", + " -4.21205461e-02, 1.63431835e+00, 1.57297838e+00,\n", + " 4.73094434e-02, -1.13333479e-01, 1.17508225e-01,\n", + " -1.23712495e-01, 8.00190940e-02, -8.36999044e-02,\n", + " 1.23406455e-01, 1.18419128e-02, -1.26421440e+00,\n", + " -5.20271473e-02, -1.36224902e+00, 1.35520363e+00,\n", + " 1.39786804e+00, 1.11324854e-01]],\n", + " \n", + " [[ 1.20124757e-01, 5.89667214e-03, 9.07224596e-01,\n", + " -9.21126157e-02, -1.34972453e-01, 1.06169097e-01,\n", + " -5.43355346e-02, -7.48154938e-01, -8.53973702e-02,\n", + " 3.73354144e-02, 1.08885683e-01, -1.39362082e-01,\n", + " -1.32957542e+00, -1.14915244e-01, -7.53873289e-02,\n", + " 1.49036013e-02, 1.12235367e+00, 1.08785880e+00,\n", + " -4.18222100e-02, 4.17723209e-02, -3.86383181e-05,\n", + " 9.45675746e-03, 3.36362980e-02, -4.63068299e-02,\n", + " -2.00620797e-02, -1.23409078e-01, -8.52762043e-01,\n", + " 4.43898439e-02, -1.08875692e+00, 1.16234934e+00,\n", + " 7.55028188e-01, 1.05900802e-01]]]], dtype=float32),\n", + " array([-0.00466503, -0.00600477, 0.00457475, -0.00599602, -0.00599961,\n", + " -0.00517343, -0.00599918, 0.05253192, -0.00600454, -0.00600148,\n", + " -0.00359347, -0.00220906, 0.05363466, -0.00078721, -0.00600311,\n", + " -0.00303029, 0.00311596, 0.00346661, -0.00630751, -0.00222704,\n", + " -0.00600247, -0.00614355, -0.0059998 , -0.00600276, -0.00600332,\n", + " -0.00600424, 0.04722345, -0.00599897, 0.0475119 , 0.00465371,\n", + " 0.00539291, -0.0056139 ], dtype=float32),\n", + " array([[[[-4.09513079e-02, 6.53369576e-02, 5.56352772e-02, ...,\n", + " 1.78319160e-02, 3.39432918e-02, -3.58552150e-02],\n", + " [ 2.47284397e-02, 3.53016071e-02, 6.65583462e-02, ...,\n", + " -2.61687115e-02, 6.35163262e-02, -5.15351743e-02],\n", + " [-2.22452357e-01, -4.54687215e-02, -4.80623581e-02, ...,\n", + " -4.98063723e-03, -6.70940503e-02, -5.90361245e-02],\n", + " ...,\n", + " [-2.66597062e-01, -3.98694575e-02, -1.12784944e-01, ...,\n", + " -8.07477832e-02, 7.76869878e-02, -2.90160239e-01],\n", + " [-2.23186836e-01, -6.77605346e-02, -1.66173652e-02, ...,\n", + " -3.00479103e-02, 5.50204478e-02, -1.05014518e-01],\n", + " [-7.85470307e-02, -3.20744477e-02, 3.95169184e-02, ...,\n", + " -6.43990338e-02, -8.35013518e-04, 6.09391630e-02]],\n", + " \n", + " [[ 4.09062728e-02, -7.40245059e-02, 2.20822245e-02, ...,\n", + " -2.43453868e-03, 7.34328479e-02, -6.81948885e-02],\n", + " [-1.07655879e-02, 5.58332168e-02, -1.34183485e-02, ...,\n", + " -1.93944741e-02, -1.23288482e-02, -3.74378860e-02],\n", + " [ 2.96264142e-01, -9.46638919e-03, -5.45962274e-01, ...,\n", + " -6.95578456e-02, -9.17147920e-02, -8.07937980e-02],\n", + " ...,\n", + " [ 4.38567430e-01, -5.05007021e-02, -5.19621611e-01, ...,\n", + " -7.21395388e-02, 2.83865985e-02, -1.77612677e-01],\n", + " [ 2.72482246e-01, 4.66637313e-02, -4.40830916e-01, ...,\n", + " -2.00214460e-02, -6.14985153e-02, -1.48249999e-01],\n", + " [ 6.05688915e-02, 3.36087979e-02, -7.32045323e-02, ...,\n", + " 5.90418689e-02, -2.53055207e-02, 3.52625586e-02]],\n", + " \n", + " [[ 1.00557189e-02, -4.79275286e-02, 9.53041762e-03, ...,\n", + " -4.77158539e-02, -7.76287913e-02, -8.01696628e-03],\n", + " [ 6.95207641e-02, 3.19592208e-02, -5.21815345e-02, ...,\n", + " -2.97903102e-02, 6.85276613e-02, -5.29903881e-02],\n", + " [ 1.71262100e-01, 1.36805242e-02, -9.78173018e-01, ...,\n", + " 4.49864306e-02, -1.20615307e-02, -2.84896433e-01],\n", + " ...,\n", + " [ 1.71821341e-01, 2.18086075e-02, -9.61809039e-01, ...,\n", + " 5.50260358e-02, -9.68773663e-03, -3.86274487e-01],\n", + " [ 1.60585135e-01, 4.09759246e-02, -7.95136929e-01, ...,\n", + " 2.87758000e-02, 1.87965482e-02, -3.41403008e-01],\n", + " [ 1.96204372e-02, 3.06844991e-02, -2.38991342e-02, ...,\n", + " -5.21317907e-02, 2.88740452e-02, 5.26520275e-02]]],\n", + " \n", + " \n", + " [[[ 5.87632172e-02, -8.22747350e-02, -3.34531330e-02, ...,\n", + " -6.42238185e-02, -1.10533163e-02, -6.01161979e-02],\n", + " [ 4.42620032e-02, 7.78351128e-02, 6.86004013e-02, ...,\n", + " -4.92207194e-03, 4.17802390e-03, -5.29544502e-02],\n", + " [ 1.80385873e-01, -6.30437732e-02, -1.26061618e-01, ...,\n", + " 6.30052313e-02, 4.30273972e-02, -3.90959948e-01],\n", + " ...,\n", + " [ 2.31140316e-01, -1.80431828e-02, -2.00009853e-01, ...,\n", + " -4.68120119e-03, -4.29315753e-02, -4.45163518e-01],\n", + " [ 2.65494496e-01, 4.85510565e-02, -1.15276620e-01, ...,\n", + " 1.69637648e-03, 3.52750495e-02, -3.95026982e-01],\n", + " [ 8.41122717e-02, -4.40930463e-02, -1.07017783e-02, ...,\n", + " -3.00858682e-03, -3.21241841e-02, 2.35249344e-02]],\n", + " \n", + " [[ 4.23739143e-02, -3.92357372e-02, -1.63357295e-02, ...,\n", + " 9.08324029e-03, 7.45074078e-02, -2.95386836e-02],\n", + " [ 8.75813812e-02, -7.73116052e-02, -2.93690488e-02, ...,\n", + " 2.73313113e-02, -3.16706188e-02, 4.83886674e-02],\n", + " [ 5.65019667e-01, -3.46408747e-02, -6.41785145e-01, ...,\n", + " -4.36245799e-02, -1.66090264e-03, -4.39111143e-01],\n", + " ...,\n", + " [ 5.93827307e-01, -3.87401599e-03, -6.45603538e-01, ...,\n", + " -2.82105263e-02, 3.12332362e-02, -4.72609550e-01],\n", + " [ 4.74565119e-01, -7.93136731e-02, -6.07311606e-01, ...,\n", + " 2.62665581e-02, 6.36101142e-02, -5.15639246e-01],\n", + " [ 6.92659616e-02, -2.31724046e-02, 4.59018424e-02, ...,\n", + " -5.38128801e-02, -3.86629738e-02, 2.16949563e-02]],\n", + " \n", + " [[-5.09778857e-02, -2.56684553e-02, -4.65940572e-02, ...,\n", + " -2.24864893e-02, 5.98053634e-02, -3.33038643e-02],\n", + " [-4.89353910e-02, -5.94337359e-02, -3.05621680e-02, ...,\n", + " -1.74723398e-02, -1.26119517e-02, 7.22276121e-02],\n", + " [ 4.27562505e-01, -7.00907260e-02, -1.51265748e-02, ...,\n", + " -3.63055877e-02, 3.77160870e-02, -3.35449606e-01],\n", + " ...,\n", + " [ 5.34057260e-01, 5.37596922e-03, 5.90588860e-02, ...,\n", + " -2.23858450e-02, -4.39759269e-02, -4.74299133e-01],\n", + " [ 4.68883842e-01, 4.67453059e-03, -1.07363835e-02, ...,\n", + " -5.03335521e-02, 6.17169142e-02, -3.97303224e-01],\n", + " [-6.89325705e-02, 2.09207926e-02, 6.66928813e-02, ...,\n", + " 1.09824250e-02, 6.55553713e-02, 7.71144405e-02]]],\n", + " \n", + " \n", + " [[[-1.97533462e-02, -5.83553733e-03, -6.98258951e-02, ...,\n", + " -2.01653466e-02, -1.41384220e-02, 3.08275688e-02],\n", + " [ 1.42864808e-02, 6.97184727e-02, 7.59560391e-02, ...,\n", + " -5.29891141e-02, -4.83914688e-02, 4.91325147e-02],\n", + " [-5.54303825e-03, -1.26073090e-02, -4.71151650e-01, ...,\n", + " -2.78666001e-02, -8.68165642e-02, -1.18691437e-01],\n", + " ...,\n", + " [-5.74064963e-02, -5.98900020e-03, -6.38170838e-01, ...,\n", + " -8.69315991e-04, -3.79942767e-02, -2.97842801e-01],\n", + " [-2.29144637e-02, 5.93629219e-02, -4.72507209e-01, ...,\n", + " 4.12018448e-02, 2.71730740e-02, -3.18835378e-01],\n", + " [ 8.15796331e-02, 2.51329765e-02, 5.64804859e-03, ...,\n", + " 2.70471610e-02, -5.53913526e-02, -5.22312755e-03]],\n", + " \n", + " [[-2.81268992e-02, -1.71664648e-03, -2.59977784e-02, ...,\n", + " 3.32215242e-02, -8.31729695e-02, -8.05165321e-02],\n", + " [ 7.21393004e-02, 3.44517343e-02, 8.06643534e-03, ...,\n", + " 1.90443415e-02, 1.78395640e-02, -2.70510036e-02],\n", + " [ 2.44110003e-01, -2.84078578e-03, -4.59649205e-01, ...,\n", + " -3.39153633e-02, 2.68028434e-02, 3.49525571e-01],\n", + " ...,\n", + " [ 3.69173735e-01, 2.78887711e-02, -5.01491487e-01, ...,\n", + " 6.77736988e-03, -6.90143555e-02, 2.68187821e-01],\n", + " [ 3.17912370e-01, 2.90262271e-02, -4.88924950e-01, ...,\n", + " -6.36181459e-02, -5.71498461e-02, 1.36232108e-01],\n", + " [ 4.04094532e-02, -2.83132493e-02, -4.72990127e-04, ...,\n", + " 5.18598892e-02, 9.73773468e-03, -5.75573072e-02]],\n", + " \n", + " [[-8.04608688e-02, 3.08847427e-02, -4.04163823e-02, ...,\n", + " 6.85387850e-02, -7.79923797e-02, -7.31467605e-02],\n", + " [ 8.47627148e-02, 4.50354367e-02, -7.16433302e-03, ...,\n", + " 6.19982854e-02, -6.19668588e-02, 2.09368914e-02],\n", + " [ 4.49168593e-01, -2.93983165e-02, 2.44198084e-01, ...,\n", + " -7.84730166e-03, -2.02843752e-02, 3.40622038e-01],\n", + " ...,\n", + " [ 5.60770750e-01, 5.69978617e-02, 2.70948112e-01, ...,\n", + " -5.29176369e-02, 5.11268228e-02, 2.42241070e-01],\n", + " [ 4.79552686e-01, -6.09705336e-02, 2.10609511e-01, ...,\n", + " 7.63696060e-02, -1.84087232e-02, 1.77408844e-01],\n", + " [-3.74305770e-02, 4.71676774e-02, -5.75387478e-02, ...,\n", + " 3.90911661e-02, -2.25753058e-02, 3.31210904e-02]]]],\n", + " dtype=float32),\n", + " array([ 5.0731726e-02, -6.5370905e-03, 7.3645994e-02, -3.1689333e-03,\n", + " -3.0370019e-02, 5.1700506e-02, -4.8823613e-03, -1.6101491e-02,\n", + " -7.9340730e-03, 4.9064219e-02, -7.0074289e-03, -6.0041053e-03,\n", + " -6.0031614e-03, 4.9787950e-02, -2.4142025e-02, -2.1615267e-02,\n", + " -6.0047242e-03, -7.7282340e-05, -1.0096843e-02, -6.0587190e-03,\n", + " 8.4531337e-02, 2.0987438e-02, -3.1731434e-02, -4.8332978e-03,\n", + " 3.9843556e-02, -3.6939710e-02, -5.9687099e-03, -6.0045891e-03,\n", + " -6.0048811e-03, -7.1099498e-03, -6.1658891e-03, -1.1944458e-02,\n", + " -2.7621938e-02, -2.5463229e-02, -6.3406507e-04, -2.6880821e-02,\n", + " -7.4103735e-03, -4.9300166e-03, -1.1226194e-02, -3.5644656e-03,\n", + " -1.4320927e-03, 4.3262521e-04, -1.4444536e-02, -1.0344965e-02,\n", + " 6.4538099e-02, -8.7140584e-03, -1.5734933e-02, 8.1914388e-02,\n", + " -4.0456492e-02, 6.5072395e-02, -1.2234733e-02, 2.9029636e-02,\n", + " -6.0050460e-03, -3.3119125e-03, -6.0045579e-03, -2.1562304e-02,\n", + " -3.5139427e-03, -5.8292379e-03, -6.0048150e-03, -1.1523294e-03,\n", + " -1.0892602e-02, -6.0025603e-03, -3.3935241e-03, 2.6472285e-02],\n", + " dtype=float32),\n", + " array([[[[-6.77588284e-02, 2.20274855e-03, 2.99741030e-02, ...,\n", + " -1.02044838e-02, -1.58815347e-02, 2.59737298e-02],\n", + " [-4.84939553e-02, -2.06980687e-02, -5.60233518e-02, ...,\n", + " -6.21065237e-02, -8.72860942e-03, 3.03782523e-02],\n", + " [ 6.16623163e-02, 3.21431011e-02, 3.25699784e-02, ...,\n", + " 1.17047809e-01, -2.47664955e-02, -4.19078358e-02],\n", + " ...,\n", + " [ 4.48789671e-02, 2.42642276e-02, -1.59621984e-03, ...,\n", + " -1.86351314e-02, 6.38029352e-02, -3.06290830e-03],\n", + " [-2.87983976e-02, -7.94108957e-03, 6.51264787e-02, ...,\n", + " -2.74584629e-02, -3.73801589e-02, 1.90621875e-02],\n", + " [-2.16469709e-02, 4.30435315e-02, 5.76777421e-02, ...,\n", + " -3.32496017e-02, -8.54106173e-02, -3.01648788e-02]],\n", + " \n", + " [[-4.78787906e-02, 3.23773287e-02, -6.11309370e-04, ...,\n", + " 1.26614094e-01, 2.36432087e-02, -5.90588190e-02],\n", + " [ 3.59422364e-03, 5.86653166e-02, 3.12487260e-02, ...,\n", + " 6.69940934e-02, -5.80463260e-02, -6.56544045e-02],\n", + " [ 1.18795559e-02, -9.21184495e-02, -5.56785092e-02, ...,\n", + " -2.49458954e-01, 2.80045364e-02, 1.99826416e-02],\n", + " ...,\n", + " [-6.72316328e-02, -5.85822202e-02, 3.74447480e-02, ...,\n", + " -4.17119935e-02, 9.38113488e-04, -2.45996173e-02],\n", + " [-5.52432574e-02, -6.02680854e-02, -6.05881698e-02, ...,\n", + " -2.15650704e-02, 2.96953805e-02, -3.42316516e-02],\n", + " [ 6.47027269e-02, -2.91282497e-02, -6.04169331e-02, ...,\n", + " -2.05045994e-02, 5.47368824e-02, 4.88121063e-02]],\n", + " \n", + " [[-1.13176079e-02, -7.21214488e-02, -1.98519975e-02, ...,\n", + " 1.88939333e-01, -7.92412311e-02, -6.13443330e-02],\n", + " [ 6.38257861e-02, 1.56186130e-02, -5.36187924e-02, ...,\n", + " -4.67634201e-02, 6.12646043e-02, -4.85889390e-02],\n", + " [-2.96882465e-02, 1.51898526e-02, -9.12287235e-02, ...,\n", + " -1.80930674e-01, 4.60227691e-02, -4.13853191e-02],\n", + " ...,\n", + " [ 1.03720725e-02, 3.70528065e-02, 3.20532173e-03, ...,\n", + " 4.96021798e-03, -3.74522507e-02, -5.94452880e-02],\n", + " [ 5.67702465e-02, -5.15246540e-02, -3.40847229e-03, ...,\n", + " -1.33436536e-02, -2.18520053e-02, 8.93314183e-03],\n", + " [ 2.32600607e-02, -3.02573126e-02, -2.01285742e-02, ...,\n", + " -2.17192560e-01, -3.92585881e-02, -1.96688734e-02]]],\n", + " \n", + " \n", + " [[[-1.31473243e-02, 4.30563604e-03, -8.74016955e-02, ...,\n", + " 2.50245519e-02, 4.73613776e-02, -7.22233206e-02],\n", + " [-3.19643766e-02, -4.31475230e-02, 5.31325787e-02, ...,\n", + " 4.96112229e-03, -6.35493025e-02, -1.41577478e-02],\n", + " [-4.46854644e-02, -6.16688319e-02, -1.08877558e-03, ...,\n", + " -1.07957714e-03, 8.01343005e-03, -2.04664450e-02],\n", + " ...,\n", + " [ 5.05997390e-02, 3.32729816e-02, 1.33315176e-02, ...,\n", + " -2.05177888e-02, -4.95410338e-02, -2.29872596e-02],\n", + " [-4.66450453e-02, 5.74672632e-02, 3.70416567e-02, ...,\n", + " 4.40301299e-02, 5.70785031e-02, -1.92973036e-02],\n", + " [ 9.16888565e-03, 4.06818874e-02, -7.77892247e-02, ...,\n", + " 2.50012696e-01, 1.06723420e-02, 3.93631123e-02]],\n", + " \n", + " [[-1.85088329e-02, -4.42485772e-02, 7.18603516e-03, ...,\n", + " -1.07027076e-01, -7.43248090e-02, 3.62998582e-02],\n", + " [ 5.17364554e-02, -1.96498986e-02, -6.19538538e-02, ...,\n", + " 4.23023626e-02, 1.13501688e-02, -6.03644103e-02],\n", + " [ 5.76595366e-02, -7.50290230e-02, -4.94544692e-02, ...,\n", + " -2.61475384e-01, -5.48628755e-02, -2.71031186e-02],\n", + " ...,\n", + " [-3.99222374e-02, 5.60345873e-02, -3.66110802e-02, ...,\n", + " -5.38463555e-02, -4.46803030e-03, 5.09350859e-02],\n", + " [ 5.64508401e-02, 5.68455681e-02, 4.77742329e-02, ...,\n", + " -4.49834764e-02, 1.34397869e-03, 8.74625053e-03],\n", + " [ 4.74369787e-02, 3.86862457e-02, 8.30656476e-03, ...,\n", + " 1.11709051e-01, 5.02744596e-03, 1.54393408e-02]],\n", + " \n", + " [[-5.12286834e-02, -4.57517877e-02, 3.29876170e-02, ...,\n", + " 9.96750444e-02, -5.28524891e-02, 4.56503369e-02],\n", + " [ 3.89702581e-02, -1.06641045e-02, -3.81669998e-02, ...,\n", + " -1.46490242e-02, 2.37572175e-02, -3.21111120e-02],\n", + " [-4.46778275e-02, -4.90375273e-02, -8.67610574e-02, ...,\n", + " 4.07065749e-01, -7.27922842e-02, 4.27938364e-02],\n", + " ...,\n", + " [-4.30758521e-02, -5.89693263e-02, -3.76514606e-02, ...,\n", + " -9.67393722e-03, 5.87980039e-02, -2.92121363e-03],\n", + " [ 5.90541121e-03, -5.55726923e-02, -2.65220068e-02, ...,\n", + " -3.33338417e-02, 4.62677851e-02, -1.28199011e-02],\n", + " [-5.91470394e-03, -1.81701519e-02, -9.07925963e-02, ...,\n", + " 7.21939579e-02, -7.48036662e-03, -5.05576283e-02]]],\n", + " \n", + " \n", + " [[[-3.85871977e-02, -8.68022814e-02, -2.40917522e-02, ...,\n", + " -1.56738572e-02, 3.65018286e-02, -1.85995977e-02],\n", + " [-3.78075913e-02, -2.95530465e-02, 2.18991935e-02, ...,\n", + " 2.44227685e-02, 3.81797776e-02, -3.28961276e-02],\n", + " [ 3.09773982e-02, -1.24242818e-02, -3.42548452e-02, ...,\n", + " 9.25620645e-03, -2.92590801e-02, -4.68145870e-02],\n", + " ...,\n", + " [-6.85492381e-02, -1.40666896e-02, 4.94359210e-02, ...,\n", + " -3.93450893e-02, -1.93639342e-02, 6.83873445e-02],\n", + " [ 5.05576318e-04, -6.19990285e-03, -2.55681425e-02, ...,\n", + " -5.44838831e-02, 2.39748675e-02, -6.64056391e-02],\n", + " [-3.30624022e-02, -6.65481910e-02, 2.51229946e-02, ...,\n", + " 4.94755059e-02, -4.49179634e-02, -7.36099184e-02]],\n", + " \n", + " [[ 4.23321202e-02, 2.97866408e-02, 2.33436786e-02, ...,\n", + " 8.53242278e-02, -7.07813026e-03, 4.14080173e-02],\n", + " [-5.49987294e-02, -2.92220265e-02, -6.94556832e-02, ...,\n", + " 6.09453730e-02, -2.83748563e-02, 5.60829900e-02],\n", + " [ 2.07184963e-02, 1.98485777e-02, -3.56923486e-03, ...,\n", + " 1.52495205e-01, -8.83794390e-04, -1.27912201e-02],\n", + " ...,\n", + " [ 2.53824182e-02, -3.50722931e-02, -3.73297557e-02, ...,\n", + " 2.72302888e-02, -6.72836206e-04, -2.32999809e-02],\n", + " [-1.77186504e-02, -7.24398568e-02, 5.56261220e-04, ...,\n", + " 7.64290616e-02, -7.81513471e-03, 6.85167536e-02],\n", + " [ 3.62182409e-03, -6.11639991e-02, 1.95676256e-02, ...,\n", + " 2.53234580e-02, -1.75850902e-04, 2.60092318e-02]],\n", + " \n", + " [[-6.77168965e-02, -9.71147865e-02, -1.65844485e-02, ...,\n", + " -2.36974046e-01, 2.54155006e-02, -3.81687433e-02],\n", + " [ 2.41206270e-02, -6.52763098e-02, 2.85268873e-02, ...,\n", + " -2.40547080e-02, -3.35692279e-02, 1.61384791e-02],\n", + " [ 6.41730577e-02, 2.43203659e-02, -2.69184029e-03, ...,\n", + " 4.24523443e-01, -6.81265369e-02, -5.46571575e-02],\n", + " ...,\n", + " [-4.00961339e-02, 3.94167118e-02, 1.06965154e-02, ...,\n", + " -5.94192185e-02, 4.29948010e-02, 7.72575615e-03],\n", + " [ 3.30222361e-02, -6.37925789e-02, -2.47988850e-02, ...,\n", + " -4.97528352e-02, 3.69183533e-03, 1.24212746e-02],\n", + " [ 5.26041165e-02, 6.50643883e-03, -7.16269463e-02, ...,\n", + " 2.10398167e-01, -2.73971539e-02, 4.08791229e-02]]]],\n", + " dtype=float32),\n", + " array([-0.00597647, -0.00592799, -0.00870279, -0.00598878, -0.01648423,\n", + " -0.01458442, -0.01836243, -0.0636421 , 0.02648541, 0.07465245,\n", + " -0.00620836, 0.02147621, 0.00727089, -0.00635401, -0.01991015,\n", + " -0.01080035, -0.00645889, 0.00049094, -0.01246897, -0.02521407,\n", + " -0.00600487, 0.08201219, -0.0243096 , -0.01732669, -0.01840139,\n", + " -0.00134726, -0.03898312, -0.01615051, -0.00679975, -0.00140235,\n", + " -0.01687402, -0.01145719, -0.06657502, -0.00450062, -0.0568934 ,\n", + " -0.0258188 , -0.00581816, -0.02063407, -0.00600462, -0.01115616,\n", + " -0.00582715, 0.0226899 , 0.01437778, 0.01981827, -0.032563 ,\n", + " -0.00743619, -0.02184827, -0.05019416, -0.00805772, -0.03283894,\n", + " -0.01049039, -0.00781332, -0.0382159 , 0.06350283, -0.0065008 ,\n", + " -0.00736187, -0.00345836, -0.00449441, -0.00792683, -0.01904942,\n", + " 0.04208557, -0.03795724, -0.00628128, -0.00974068], dtype=float32),\n", + " array([[-0.09185279, -0.08864406, 0.07367334, ..., 0.03200333,\n", + " 0.07789004, 0.04746935],\n", + " [ 0.09739629, 0.03832531, -0.02122908, ..., 0.0439161 ,\n", + " -0.02092455, 0.05045022],\n", + " [-0.0880066 , 0.09418431, -0.08355792, ..., -0.03458135,\n", + " -0.02729838, -0.05673207],\n", + " ...,\n", + " [ 0.13907701, -0.0463694 , -0.01554128, ..., 0.21222137,\n", + " -0.13243416, -0.08443874],\n", + " [ 0.02594028, -0.08970061, 0.05106094, ..., 0.03016211,\n", + " -0.06699792, -0.09419772],\n", + " [-0.02880331, 0.00064806, -0.03517756, ..., -0.04236604,\n", + " 0.09366744, 0.02290797]], dtype=float32),\n", + " array([ 0.06808085, -0.00975904, -0.00285351, 0.05911933, 0.00888091,\n", + " -0.0083362 , -0.08058061, -0.06973764, 0.07285105, 0.12510723,\n", + " -0.02541726, -0.00497621, 0.09497405, 0.01185297, 0.02194878,\n", + " -0.02191131, 0.01238914, -0.03589321, 0.04940122, 0.10837622,\n", + " -0.03305043, 0.07701242, -0.08698685, 0.12424077, -0.01409515,\n", + " 0.01491846, -0.01576733, -0.03922584, -0.00502902, -0.03992312,\n", + " -0.014053 , -0.00102963, 0.00205929, -0.0182695 , 0.00493339,\n", + " -0.00217036, -0.02756455, -0.04314969, -0.01223689, -0.02844172,\n", + " -0.00869887, -0.07419655, -0.00817417, 0.00466795, -0.03130533,\n", + " -0.04176845, -0.02984148, -0.00221793, -0.03603784, -0.0165845 ,\n", + " -0.01594525, 0.01229428, -0.00780975, -0.01449327, 0.01651074,\n", + " -0.03242023, 0.00524851, 0.11353564, -0.01411175, -0.00610878,\n", + " -0.11137784, 0.05338038, 0.06014742, -0.02137435], dtype=float32),\n", + " array([[ 0.18559797, -0.27311072, 0.01527372, 0.1667958 , -0.6008345 ,\n", + " 0.3159435 , -0.5216771 , 0.2750416 , 0.01216201, 0.22444129],\n", + " [-0.17745526, 0.11224291, -0.20360905, -0.09113023, -0.06051031,\n", + " 0.10407807, 0.1030496 , -0.08924961, 0.20556907, 0.02068579],\n", + " [-0.27077624, -0.15237704, 0.15392381, -0.019488 , -0.21341197,\n", + " 0.04876609, 0.26545262, 0.01613875, 0.13257483, 0.0043325 ],\n", + " [ 0.00524768, -0.08751301, 0.15689705, 0.27446026, 0.03383272,\n", + " -0.06179533, -0.1814533 , -0.51472723, 0.2606688 , -0.35078168],\n", + " [-0.29350206, -0.11415462, 0.4038854 , 0.04978709, 0.16851981,\n", + " 0.24796341, -0.2639416 , -0.10832281, -0.33657458, 0.37864706],\n", + " [-0.22046587, 0.15484355, -0.14180325, 0.0856993 , -0.21411614,\n", + " 0.12637348, -0.2716083 , 0.11466607, 0.24692845, 0.20042904],\n", + " [ 0.15338853, 0.35099944, 0.15256815, -0.36093542, -0.24002992,\n", + " 0.3184705 , -0.2406162 , 0.4650115 , -0.3069936 , 0.02111373],\n", + " [ 0.05054694, -0.23012488, 0.12789647, 0.08831997, 0.08784705,\n", + " 0.05929139, -0.12433138, 0.46622413, -0.35942605, -0.54049563],\n", + " [-0.18717451, -0.72133374, -0.0115177 , -0.35869747, 0.22846606,\n", + " 0.15737483, 0.15764931, -0.38010204, 0.22650003, 0.06280418],\n", + " [ 0.26188982, -0.39597288, -0.5757446 , 0.02510367, 0.2879426 ,\n", + " -0.29269058, 0.1291492 , -0.5937857 , 0.489574 , 0.3951149 ],\n", + " [ 0.02824754, -0.18750103, -0.24379265, -0.15277593, -0.2616862 ,\n", + " -0.11316513, -0.18987413, -0.10279651, 0.00307356, 0.20360096],\n", + " [ 0.0889672 , -0.27085298, -0.07818568, -0.04857931, 0.26699746,\n", + " 0.27253887, 0.13635758, 0.20185456, -0.21887997, -0.04505806],\n", + " [ 0.24088947, -0.15809816, -0.30324033, 0.32222757, -0.4815252 ,\n", + " -0.15549862, -0.12925379, -0.2341969 , 0.17756256, 0.11413763],\n", + " [-0.2911384 , -0.14499116, 0.0049213 , 0.41103235, -0.2739251 ,\n", + " 0.20617214, -0.56356406, 0.29324108, 0.1796953 , -0.15911548],\n", + " [-0.44207096, 0.5638581 , -0.09978738, 0.13820046, -0.09684686,\n", + " 0.07571828, 0.15660231, -0.4522957 , 0.02295363, -0.04906129],\n", + " [ 0.06692921, -0.1146377 , -0.20020963, 0.07373878, 0.175486 ,\n", + " -0.22167481, -0.25405025, -0.24551588, 0.03334694, 0.00379215],\n", + " [-0.15106998, -0.27643594, 0.2916736 , 0.409728 , -0.32726678,\n", + " -0.37141395, -0.24061966, -0.2830291 , 0.42238238, -0.03705543],\n", + " [-0.06238353, 0.22148384, -0.11515956, -0.2466735 , 0.22509186,\n", + " 0.01145077, 0.01299847, -0.20515227, -0.12300055, 0.06140441],\n", + " [ 0.40663242, -0.5287505 , 0.08713097, 0.1811561 , 0.3119356 ,\n", + " 0.11860475, 0.3004479 , -0.24464774, -0.2475557 , 0.23569347],\n", + " [ 0.18816838, -0.27300677, -0.40234625, -0.32845914, -0.33594438,\n", + " 0.40800986, 0.36867064, -0.12859762, 0.196742 , 0.44018117],\n", + " [-0.3253747 , 0.07417136, -0.3145336 , -0.18829519, 0.12210796,\n", + " 0.07297806, 0.0066867 , -0.10749532, -0.16823493, -0.02764349],\n", + " [ 0.12949178, -0.47820517, 0.27980348, -0.11410157, -0.2167273 ,\n", + " 0.2086147 , 0.18950069, -0.46491635, -0.07266409, -0.0612276 ],\n", + " [ 0.23653965, 0.15099631, 0.09443749, -0.52582467, 0.06388835,\n", + " -0.6205905 , 0.02477816, 0.63442653, -0.03840058, -0.20507059],\n", + " [ 0.15331094, -0.5856383 , 0.03286755, -0.34037223, 0.13611066,\n", + " -0.5115831 , -0.04399058, -0.09334271, 0.5094095 , -0.09425292],\n", + " [ 0.2540139 , 0.20344292, 0.21460418, -0.21874039, 0.06295377,\n", + " 0.20402728, 0.08109889, 0.2739563 , -0.04060334, 0.18409622],\n", + " [-0.1093787 , -0.02947157, 0.09986844, 0.29385972, -0.0125134 ,\n", + " 0.08148661, -0.78703356, 0.16302125, -0.08231801, 0.13777393],\n", + " [ 0.23390974, -0.03894943, 0.00211752, -0.11775871, 0.07282112,\n", + " 0.139505 , -0.19621724, -0.09976989, 0.1795159 , 0.07007407],\n", + " [ 0.35990015, 0.3459826 , -0.49273464, -0.2828125 , -0.52876997,\n", + " -0.08519766, -0.36835986, 0.33231884, 0.10246973, -0.00127755],\n", + " [ 0.06828795, -0.031198 , 0.04726082, -0.09958206, -0.11234741,\n", + " -0.03712786, 0.01512796, 0.05343895, 0.15364365, -0.07676879],\n", + " [-0.06499076, -0.06642399, -0.366879 , -0.30402142, 0.29198042,\n", + " 0.53114074, -0.14407964, 0.47127908, -0.15015964, -0.37670112],\n", + " [-0.02499727, -0.08661019, -0.14099768, -0.12561761, 0.2028338 ,\n", + " 0.2530595 , 0.12981778, 0.18186334, -0.15628599, -0.16664077],\n", + " [ 0.15188472, -0.05055901, -0.24041085, 0.15565348, -0.00468388,\n", + " 0.24099864, -0.0921819 , 0.14400557, -0.11632543, 0.20992793],\n", + " [-0.14860031, -0.09105953, -0.10214144, 0.3028628 , 0.26851135,\n", + " 0.06549001, -0.93654615, 0.10836818, -0.1256314 , 0.42355675],\n", + " [-0.04537524, -0.17462449, -0.12427247, 0.00481299, -0.06823428,\n", + " -0.00809711, 0.12423966, -0.11359449, -0.14621122, -0.08394695],\n", + " [ 0.30618694, -0.26674655, -0.27028254, 0.23045729, -0.72168577,\n", + " -0.30981228, 0.15687896, 0.24613713, -0.286744 , 0.29990444],\n", + " [ 0.22940825, -0.1299561 , 0.12769087, -0.25860775, 0.21869509,\n", + " 0.22318347, -0.00288847, 0.19313459, -0.00163152, -0.27683058],\n", + " [-0.19264702, -0.17462036, -0.28016275, -0.22538798, -0.03631222,\n", + " -0.13697451, -0.18460888, 0.0743093 , 0.09512224, 0.19194269],\n", + " [ 0.40017086, 0.292549 , 0.13513093, -0.3339484 , 0.269705 ,\n", + " -0.4797384 , 0.12899716, -0.47031328, -0.2271472 , -0.0085939 ],\n", + " [-0.04702419, -0.07615919, -0.115963 , -0.16872914, 0.15664066,\n", + " -0.03475128, -0.16791098, 0.21822177, -0.11241832, 0.02188025],\n", + " [-0.01699849, 0.03249685, -0.1861632 , 0.06627662, 0.11205025,\n", + " 0.1486169 , -0.0610617 , -0.09733338, 0.23441704, 0.21430926],\n", + " [ 0.17754906, 0.14666772, 0.0739053 , -0.11227049, 0.02750205,\n", + " 0.23046485, -0.25042364, -0.12743914, 0.19553241, 0.18650456],\n", + " [ 0.01413395, -0.12288608, 0.6965986 , -0.43952045, 0.11586455,\n", + " -0.11987592, -0.06369293, 0.38486838, -0.55859375, -0.13545969],\n", + " [-0.10305157, -0.04945757, 0.04087194, -0.14824198, 0.2462682 ,\n", + " 0.1411338 , 0.1348989 , -0.16403393, -0.00815618, 0.24623275],\n", + " [ 0.19837348, -0.02752618, -0.42066678, 0.03882539, 0.34261274,\n", + " 0.36462694, 0.5088082 , 0.28455532, -0.2084445 , -0.3482247 ],\n", + " [-0.3265298 , 0.04716945, -0.3801287 , -0.20364554, 0.19342104,\n", + " -0.24302767, 0.23731868, 0.10557338, -0.71381503, -0.01366054],\n", + " [ 0.12520793, -0.1765534 , -0.1401379 , -0.15058628, -0.15790021,\n", + " 0.00437207, -0.21201445, 0.1876923 , 0.11102927, -0.01035017],\n", + " [ 0.47232 , 0.19505255, 0.00116834, 0.03654027, 0.19161451,\n", + " -0.26607552, 0.28115118, -0.40405995, -0.76557356, 0.1490531 ],\n", + " [-0.07026906, -0.00780696, -0.0214348 , -0.12663366, 0.00270588,\n", + " -0.11748821, -0.02560265, 0.17894788, -0.09310419, 0.18391229],\n", + " [ 0.05815082, 0.03282784, 0.39610478, 0.00641445, -0.01176597,\n", + " -0.4745875 , -0.04102951, 0.07604022, -0.1260373 , 0.19123802],\n", + " [ 0.11074285, 0.1294036 , -0.28424704, -0.14866841, 0.20542029,\n", + " 0.1165528 , -0.03898513, -0.17555453, 0.27962217, 0.26348287],\n", + " [-0.12302679, 0.11007027, 0.2742532 , -0.04499654, 0.16735874,\n", + " -0.02710269, -0.21448018, 0.08974988, -0.10053015, 0.17155947],\n", + " [-0.29028526, 0.14155896, -0.5791296 , -0.40916735, 0.53818685,\n", + " -0.1641448 , 0.18189283, 0.3412483 , 0.21541823, 0.20131546],\n", + " [-0.01186826, 0.04993342, -0.23226942, 0.2225301 , 0.10204543,\n", + " 0.1943843 , 0.13412805, 0.16293979, -0.2006093 , 0.05441086],\n", + " [-0.26056543, 0.02323167, -0.0015296 , -0.11721803, -0.24186985,\n", + " -0.0963889 , 0.17938763, -0.00543331, 0.01509079, 0.18296184],\n", + " [-0.49410722, 0.24523072, 0.22284663, 0.32980958, -0.13155726,\n", + " 0.05894878, 0.16636033, 0.09222839, 0.17611213, -0.58574736],\n", + " [-0.09948803, 0.20319562, -0.21868108, 0.10254838, -0.2094825 ,\n", + " -0.1692296 , 0.13092874, -0.23704106, 0.02225009, 0.09926336],\n", + " [-0.31647605, 0.37694058, 0.17469397, -0.12611651, 0.12901165,\n", + " -0.41524988, -0.21000667, 0.21409419, 0.3235765 , 0.01054287],\n", + " [-0.2865008 , -0.59122723, 0.1963901 , -0.31103402, -0.35556117,\n", + " 0.18691869, 0.24213761, 0.00609558, 0.42919514, 0.09425966],\n", + " [ 0.26849365, -0.21575768, -0.14220595, -0.06347691, -0.29176414,\n", + " -0.19544017, -0.28446892, -0.19848925, 0.2535855 , 0.17486499],\n", + " [-0.2659144 , -0.04278589, -0.24608164, -0.24818967, -0.15233153,\n", + " 0.16368787, -0.09293711, 0.06584688, -0.0975661 , -0.19781224],\n", + " [-0.05821171, 0.16471031, 0.41971296, -0.23256129, 0.14253083,\n", + " -0.1455678 , 0.10576846, 0.33960342, -0.8148478 , -0.06659503],\n", + " [ 0.12745759, 0.3702152 , -0.27308476, -0.25207722, -0.41478533,\n", + " 0.4310856 , 0.15967306, -0.4570679 , -0.05391107, -0.29273134],\n", + " [ 0.294219 , -0.14976916, -0.56055194, -0.40888074, 0.1531452 ,\n", + " 0.3659002 , -0.32704675, -0.38213524, -0.17781752, 0.2353824 ],\n", + " [-0.05576838, 0.00892646, -0.07968741, -0.1295656 , -0.09649703,\n", + " -0.01505735, 0.22799006, 0.2427742 , 0.1689535 , -0.00908666]],\n", + " dtype=float32),\n", + " array([-0.00490798, -0.01904711, -0.04782519, 0.01603404, -0.04538268,\n", + " 0.00338098, -0.06986066, -0.05395231, 0.12297566, 0.04917476],\n", + " dtype=float32)]" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.get_weights()" + ] + }, + { + "cell_type": "markdown", + "id": "1d97bde9-9dcc-46cd-a078-f26f1c276e87", + "metadata": {}, + "source": [ + "## 8. Modell evaluieren" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "id": "5c224092-5868-4718-8921-bab572acf683", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[1m313/313\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m1s\u001b[0m 2ms/step - accuracy: 0.9749 - loss: 0.0818 \n", + "Testgenauigkeit: 0.978600025177002\n", + "Test Loss: 0.06802631169557571\n" + ] + } + ], + "source": [ + "# Evaluation\n", + "test_loss, test_acc = model.evaluate(x_test, y_test)\n", + "print(f\"Testgenauigkeit: {test_acc}\")\n", + "print(f\"Test Loss: {test_loss}\")" + ] + }, + { + "cell_type": "markdown", + "id": "646cbc80-31a8-4e7d-9776-8682ebec0752", + "metadata": {}, + "source": [ + "## 9. Beispielhafte Vorhersage\n" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "id": "7e9759ce-76ae-49dc-ab07-e400c18da124", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[1m313/313\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m1s\u001b[0m 2ms/step \n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "predictions = model.predict(x_test)\n", + "plt.imshow(x_test[0].reshape(28, 28), cmap=\"gray\")\n", + "plt.title(f\"Vorhergesagte Klasse: {predictions[0].argmax()}\")\n", + "plt.show()" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "010a3735-c35e-4084-9f5e-5c0088e8d7e6", + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.9" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/docs/2deep_ml_ops/cnn-beispiel.rst b/docs/2deep_ml_ops/cnn-beispiel.rst deleted file mode 100644 index 4636807..0000000 --- a/docs/2deep_ml_ops/cnn-beispiel.rst +++ /dev/null @@ -1,57 +0,0 @@ -Praxisbeispiel – Bildklassifikation mit CNNs ------------------------------------------------------------- - -**Ziel:** Einführung in Convolutional Neural Networks mit TensorFlow/Keras anhand eines Bildklassifikationsproblems. - -.. note: - Code Beispiel auch mit pytorch! als "Gegenbeispiel" zu tensorflows - - -**Code-Beispiel: Klassifikation des MNIST-Datensatzes (Handgeschriebene Ziffern)** - -.. code-block:: python - - import tensorflow as tf - from tensorflow.keras import layers, models - from tensorflow.keras.datasets import mnist - import matplotlib.pyplot as plt - - # Daten laden - (x_train, y_train), (x_test, y_test) = mnist.load_data() - x_train, x_test = x_train / 255.0, x_test / 255.0 # Normalisierung - x_train = x_train[..., tf.newaxis] # Dimension erweitern - x_test = x_test[..., tf.newaxis] - - # Modell definieren - model = models.Sequential( - [ - layers.Conv2D(32, (3, 3), activation="relu", input_shape=(28, 28, 1)), - layers.MaxPooling2D((2, 2)), - layers.Conv2D(64, (3, 3), activation="relu"), - layers.MaxPooling2D((2, 2)), - layers.Conv2D(64, (3, 3), activation="relu"), - layers.Flatten(), - layers.Dense(64, activation="relu"), - layers.Dense(10, activation="softmax"), - ] - ) - - # Modell kompilieren - model.compile( - optimizer="adam", - loss="sparse_categorical_crossentropy", - metrics=["accuracy"], - ) - - # Training - model.fit(x_train, y_train, epochs=5, validation_data=(x_test, y_test)) - - # Evaluation - test_loss, test_acc = model.evaluate(x_test, y_test) - print(f"Testgenauigkeit: {test_acc}") - - # Beispielhafte Vorhersage - predictions = model.predict(x_test) - plt.imshow(x_test[0].reshape(28, 28), cmap="gray") - plt.title(f"Vorhergesagte Klasse: {predictions[0].argmax()}") - plt.show() diff --git a/docs/2deep_ml_ops/deduplicate.ipynb b/docs/2deep_ml_ops/deduplicate.ipynb new file mode 100644 index 0000000..bd21506 --- /dev/null +++ b/docs/2deep_ml_ops/deduplicate.ipynb @@ -0,0 +1,1563 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "da945f8f-ac13-4a5d-85e2-76618c5861f3", + "metadata": {}, + "source": [ + "# Praxisbeispiel - Datenverarbeitung - Deduplizieren\n", + "\n", + "## 1. Daten \n", + "## 1.1 Beispieldaten laden" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "id": "b40d877a-7429-463b-9443-1f423d36121a", + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "c5fca3df-d2c0-47a5-81e7-1ffa864bb90a", + "metadata": {}, + "outputs": [], + "source": [ + "customers = pd.read_csv(\n", + " \"https://raw.githubusercontent.com/kjam/data-cleaning-101/master/data/customer_data_duped.csv\",\n", + " encoding=\"utf-8\",\n", + ")" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "c7bd864d-3e9d-4711-8003-2cd2dd4596b3", + "metadata": {}, + "outputs": [], + "source": [] + }, + { + "cell_type": "markdown", + "id": "67b62ec8-4c31-4e77-b46d-32364b01a79b", + "metadata": {}, + "source": [ + "## 1.2 Daten verstehen \n", + "### 1.2.1. Daten anzeigen" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "c7cf08e8-bebd-47f7-824d-60f16c86c85b", + "metadata": { + "scrolled": true + }, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
namejobcompanystreet_addresscitystateemailuser_name
0Patricia SchaeferProgrammer, systemsEstrada-Best398 Paul DriveChristianviewDelawarelambdavid@gmail.comndavidson
1Olivie DuboisIngénieur recherche et développement en agroal...Morenorue Lucas BenardSaint Anastasie-les-BainsARberthelotjacqueline@mahe.frmanonallain
2Mary Davies-KirkPublic affairs consultantBaker LtdFlat 3\\nPugh mewsStanleyfurtZAmiddletonconor@hotmail.comcolemanmichael
3Miroslawa EckbauerDispensing opticianLadeck GmbHMijo-Lübs-Straße 12NeubrandenburgBerlinsophia01@yahoo.deromanjunitz
4Richard BauerAccountant, chartered certifiedHoffman-Rocha6541 Rodriguez WallCarlosmouthTexastross@jensen-ware.orgadam78
...........................
2075Maurice SteySystems developerLinke Margraf GmbH & Co. OHGLaila-Scheibe-Allee 2/0LuckenwaldeHamburggutknechtevelyn@niemeier.comdkreusel
2076Linda AlexanderCommrcil horiculuriWebb, Ballald and Vasquel5594 Persn CiffMooneyburyMarylandahleythoa@ail.cokennethrchn
2077Diane BaillyPharmacienVoisin527, rue DijouxDuval-les-BainsCHaruiz@reynaud.frdorothee41
2078Jorge Riba CerdánHotel managerAmador-DiegoRambla de Adriana Barceló 854 Puerta 3HuescaAsturiasmanuelamosquera@yahoo.comeugenia17
2079Ryan ThompsonBrewing technologistSmith-Sullivan136 Rodriguez PointBradfordboroughNorth Dakotalcruz@gmail.comcnewton
\n", + "

2080 rows × 8 columns

\n", + "
" + ], + "text/plain": [ + " name job \\\n", + "0 Patricia Schaefer Programmer, systems \n", + "1 Olivie Dubois Ingénieur recherche et développement en agroal... \n", + "2 Mary Davies-Kirk Public affairs consultant \n", + "3 Miroslawa Eckbauer Dispensing optician \n", + "4 Richard Bauer Accountant, chartered certified \n", + "... ... ... \n", + "2075 Maurice Stey Systems developer \n", + "2076 Linda Alexander Commrcil horiculuri \n", + "2077 Diane Bailly Pharmacien \n", + "2078 Jorge Riba Cerdán Hotel manager \n", + "2079 Ryan Thompson Brewing technologist \n", + "\n", + " company street_address \\\n", + "0 Estrada-Best 398 Paul Drive \n", + "1 Moreno rue Lucas Benard \n", + "2 Baker Ltd Flat 3\\nPugh mews \n", + "3 Ladeck GmbH Mijo-Lübs-Straße 12 \n", + "4 Hoffman-Rocha 6541 Rodriguez Wall \n", + "... ... ... \n", + "2075 Linke Margraf GmbH & Co. OHG Laila-Scheibe-Allee 2/0 \n", + "2076 Webb, Ballald and Vasquel 5594 Persn Ciff \n", + "2077 Voisin 527, rue Dijoux \n", + "2078 Amador-Diego Rambla de Adriana Barceló 854 Puerta 3 \n", + "2079 Smith-Sullivan 136 Rodriguez Point \n", + "\n", + " city state email \\\n", + "0 Christianview Delaware lambdavid@gmail.com \n", + "1 Saint Anastasie-les-Bains AR berthelotjacqueline@mahe.fr \n", + "2 Stanleyfurt ZA middletonconor@hotmail.com \n", + "3 Neubrandenburg Berlin sophia01@yahoo.de \n", + "4 Carlosmouth Texas tross@jensen-ware.org \n", + "... ... ... ... \n", + "2075 Luckenwalde Hamburg gutknechtevelyn@niemeier.com \n", + "2076 Mooneybury Maryland ahleythoa@ail.co \n", + "2077 Duval-les-Bains CH aruiz@reynaud.fr \n", + "2078 Huesca Asturias manuelamosquera@yahoo.com \n", + "2079 Bradfordborough North Dakota lcruz@gmail.com \n", + "\n", + " user_name \n", + "0 ndavidson \n", + "1 manonallain \n", + "2 colemanmichael \n", + "3 romanjunitz \n", + "4 adam78 \n", + "... ... \n", + "2075 dkreusel \n", + "2076 kennethrchn \n", + "2077 dorothee41 \n", + "2078 eugenia17 \n", + "2079 cnewton \n", + "\n", + "[2080 rows x 8 columns]" + ] + }, + "execution_count": 3, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers" + ] + }, + { + "cell_type": "markdown", + "id": "c4c0955c-a8cc-4fbe-b304-cecc97f41bea", + "metadata": {}, + "source": [ + "### 1.2.2. Datentypen anzeigen \n", + "Hierfür verwenden wir pandas.DataFrame.dtypes:" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "578db81c-f9ad-47c1-bf1f-c4183e6498f4", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "name object\n", + "job object\n", + "company object\n", + "street_address object\n", + "city object\n", + "state object\n", + "email object\n", + "user_name object\n", + "dtype: object" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers.dtypes\n" + ] + }, + { + "cell_type": "markdown", + "id": "c58db531-b981-43a2-ac1b-319eb321c767", + "metadata": {}, + "source": [ + "### 1.2.3. Fehlende Werte ermitteln\n", + "pandas.isnull zeigt für ein array-ähnliches Objekt an, ob Werte fehlen:\n", + "\n", + "- NaN in numerischen Arrays\n", + "\n", + "- None oder NaN in Objekt-Arrays\n", + "\n", + "- NaT in datetimelike\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "0540e3f9-4db0-4b91-9f7f-878f53dc1a44", + "metadata": { + "scrolled": true + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "name 0\n", + "job 0\n", + "company 0\n", + "street_address 0\n", + "city 0\n", + "state 0\n", + "email 0\n", + "user_name 0\n" + ] + } + ], + "source": [ + "for col in customers.columns:\n", + " print(col, customers[col].isnull().sum())" + ] + }, + { + "cell_type": "markdown", + "id": "799d56c7-a0e3-46a3-943c-befaacc5a74d", + "metadata": {}, + "source": [ + "## 2. Duplizierte Datensätze ermitteln und löschen\n", + "### 2.1. mit Pandas " + ] + }, + { + "cell_type": "markdown", + "id": "a53120ae-2f8a-4bb5-b7a3-4cb3e96f55c0", + "metadata": {}, + "source": [ + "#### 2.1.1 Duplizierte Datenpunkte ermitteln" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "1ae2365b-d980-409f-9f36-e2cee7525a35", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "0 False\n", + "1 False\n", + "2 False\n", + "3 False\n", + "4 False\n", + " ... \n", + "2075 False\n", + "2076 False\n", + "2077 False\n", + "2078 False\n", + "2079 False\n", + "Length: 2080, dtype: bool" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers.duplicated()\n" + ] + }, + { + "cell_type": "markdown", + "id": "30a1a1c0-839d-458c-8cce-853895cff9a8", + "metadata": {}, + "source": [ + "customers.duplicated() gibt uns noch nicht den gewünschten Hinweis, ob es doppelte Datensätze gibt. Im Folgenden lassen wir uns alle Datensätze ausgeben, für die True zurückgegeben wird:\n" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "id": "8857b4f6-ec55-4c24-8adc-1645eca3c1c1", + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
namejobcompanystreet_addresscitystateemailuser_name
\n", + "
" + ], + "text/plain": [ + "Empty DataFrame\n", + "Columns: [name, job, company, street_address, city, state, email, user_name]\n", + "Index: []" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers[customers.duplicated()]\n" + ] + }, + { + "cell_type": "markdown", + "id": "5b07a4fd-a06c-4d6e-8b31-9600ff5b5726", + "metadata": {}, + "source": [ + "Offenbar gibt es keine identischen Datensätze.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "id": "bd1c85e5-526b-4831-abba-77cab5d0d095", + "metadata": {}, + "source": [ + "### 2.1.2. Deduplizieren \n", + "\n", + "Da pandas keine Duplikate erkennen konnte, wird das Löschen doppelter Datensätzemit drop_duplicates demnach nichts ändern und die Anzahl des Datensatzes bei 2080 belassen.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "id": "757fa2fb-381c-4a92-b001-6ddf0ea51d7e", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "(2080, 8)\n", + "(2080, 8)\n" + ] + } + ], + "source": [ + "print(customers.shape)\n", + "customers.drop_duplicates(inplace=True)\n", + "print(customers.shape)" + ] + }, + { + "cell_type": "markdown", + "id": "349b31db-dbe8-4fd1-b7a1-a6dea4192c04", + "metadata": {}, + "source": [ + "### 2.1.3. user_name-spezifische Ermittlung und Deduplizierung" + ] + }, + { + "cell_type": "markdown", + "id": "a219298d-9998-4540-9b9e-a7af85b4d47f", + "metadata": {}, + "source": [ + "Wir gehen einen Detailschritt weiter und lassen uns diejenigen Datensätze anzeigen, bei denen nur der user_name identisch ist:" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "id": "950221bf-7983-4bc7-bb80-8f250b6903fe", + "metadata": { + "scrolled": true + }, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
namejobcompanystreet_addresscitystateemailuser_name
337Aysel BinnerReccig officerKuhl Kalleww Swifwunw & Co. KGaABatix-Kanz-Staß 5/4FuldaBerlifrncoise@wgnercochristinefinke
377Jolanta RoggeAccommodation managrScholl e.V.Lrchplz 4/6MettmnnThüringeninrharff@yah.dwalentinabeier
506Mrs. Frances PetersFuiue desieRsgers, Lawrence and RichardsStudio \\nCarpntr kysWes SimnBOhalenewilliams@wilson-sandes.ogamy17
545Gerhart Krebs MBA.SurgeonRoskothKühnertweg 863StadeBayernolav44@bolander.debettyhahn
592Folkert GnatzMeteorologistBolnbachHeinfried-Austermühle-Ring 05EilenburgThüringenjaentschbirgitt@boerner.orgfrancesco44
633Manon JacquotIngénieur en aéronautiqueJacob8, chemin Éléonore EvrardMarechal-les-BainsARilemaitre@voila.frastrid58
658Austin WallerInsurance risk surveyorSexton Group11097 Hansen FieldDavidmouthTexaschristina74@doyle-baker.bizolynn
723Wanda MoranSolicitor, ScotlandEstes PLC08011 Hernandez Streets Apt. 149NatalieshireOregonhowardreginald@gmail.comdana91
762Charles RussellScientist, research (physical sciences)Preston-Wilson6709 Ashley Circle Apt. 309DanielbergSouth Dakotanancyescobar@brown.netruben71
772Waltrud WohlgemutDesigner, fashion/clothingNerger AGElmar-Ullmann-Allee 6SchlüchternRheinland-Pfalzauch-schlauchindietlind@gmx.dezitakuhl
783Caroline MataEngineer, elecricalGrimes Grrur80157 Whte Alley Sute 79Soh MarkIwjared52@aoo.comthomasthompson
889Ricardo Ripoll LucenaTeevisi camera peratrLuzq Estraqa anq GalinqqCaejón Rosario Viapana 16PalenciaLgoev0@oo.comcolomerenrique
928Sophie Letellier du CarpentierCnucteu e étValle7 SARL3, boulvard Jan AugrSaint DaviddanBSrdorm@dbmi.comanne28
979Irene Roda DávilaEitor, maazine featresDaza IncRoda Carla Miró 5ViyLa Rioasldrpére@ps.cmipeñalver
995Abigail HernandezMechanical engineerSmith Ltd766 Adrian RanchEllismouthColoradojordan60@gmail.commendozajody
1015Mr. Paul NewtonGovernment soa researh offerLemnardmWatsmnStudi 86\\nKaty illWest JueVEem@mil.cmbbennett
1043Anna AdamsProgrammer alcatonsJones Gjoup22 Kateen ovaNoth JoaKZasleig65@aisay.colloydann
1052Aurélie VidalMagistratMartins88, rue Stéphanie LetellierRouxnecSEboutineric@blin.friwagner
1062Regina Schacht-KuschHerbalistHartung GmbH & Co. KGaAWenke-Hörle-Ring 36EggenfeldenSachsen-Anhaltoluebs@troest.dexklotz
1120Jeffrey BenjaminPubl house managerChcn Inc27 Rodgrs Rdgs Apt. 269Suth JefferergIinoisstepanie90@rogers.colori67
1170Julio Agustín AmayaTax aviserPiñolk Belmonke and CodinaCalleón de Gregorio Bustamante 28 Piso 7La PalaSalamancausolana@jáuregui-pedraza.omgloriaolmo
1339Ing. Andrew Schleich B.A.LnHolt Putz GnRHugasse 8/8HainichnNeersachsenjun@putz.comjesselmaja
1360Frédérique Lejeune-DanielTecce cseSctmittchemin Denise FerrandSaint ChalotteVilleIEjchretien@costacomjoseph60
1384Kenneth MooreMagazine journalistCross, Bfll anf Diaz753 Lindsey PineThompsonsheColoraoashey28@rice.cotodd72
1423Thomas CoulonCollecteur de fondsLevy91, rue Laetitia ColletDias-sur-NormandSCdeschampsgabriel@guyot.frmichelepetit
1433Jerry BarnesTour mnerCol-Wllllams30 Mpy OvepassJeiferviewUtahinsnashl@gas-hais.cmchristopher62
1452Karen WeeksPsychotherapist, childRodriguez, Brady and Jackson233 Kevin StreetLarrysideIndianagregg39@hernandez-gomez.comknapprobert
1489Herr Johann EigenwilligImmigration officerSüßebier Hänel GmbHLangernplatz 0StadtsteinachThüringenhaasemarieluise@noack.comistoll
1544Pasquale SchwitalTrade mark attorneyFinkeDetlef-Binner-Platz 0/1BurgNiedersachsenhanne-lore98@gmx.dethomas14
1557Stephanie YoungHerpetologistBryant and Sons5163 Rebecca Creek Suite 421North TheresabergAlaskastephenwilliams@summers.comahawkins
1567Carolina Reguera SanzFam manaeCami77, C7aparr7 a7d N7gu7raVil e Imel Oorio 25MaddVicayamordóñ@cámara.infoeva16
1616Sonia AmoresSenir tax prfessina/tax inspectrJ5an-NúñezAvnida d Grgorio Manón 344 Prta 8PonevedrLugoicent4@montenero-brroso.infosanmartínguillermo
1647Juan Carlos Iker Boix RosPre phtgrapherPont, P44om4r4s 4nd Arjon4Pasadzo de Josep Bentez PsoLas PalmasMiasrgio24@gail.coluis-miguel23
1652Jörg HenschelChaity officeSchicke AGHennyLorchRng 484Hohensein-EnshBadenWürtteberghuerhes@hmal.deanne-katrin51
1703Marc TateShip brokerWagner, Mitchell and Grimes721 Christopher View Suite 840WatsonmouthConnecticutchenjessica@hotmail.compatricia34
1707Joseph HinesPyhiatri nreCr4ig, G4rci4 4nd Rich4rds85663 Savage GlesMcgeeonAlsbcaldern@htmail.cmemilytorres
1722Julie BaldwinSet deignerW5ll55mson-G5rz558513 Paricia Res Suie 45So MeAlaskadiuez@uess.cmoss
1759Sarah HoffmanExhibitin designeHensont Wiley and Ryan9490 Curts Spur Sute 82JseptwnArizonancole@yahoo.comcsmith
1796Valentine Devaux-RogerDireceur d'ôialLeiris57, enue de GrosBenadBouALrogrlro@munoz.omxherve
1809Slavica SeidelPsychotherapist, childWulff Hande KGPreißgasse 0/4SoestRheinland-Pfalztloos@krause.netabien
1820Wenke SchweitzerEnginr, automotiWesa4k KGEies. 7Ba LnwraThürigersthveriue@mies.rgkwernecke
1829Dr. Thomas HeinCopyGeiselLadeckgasse 11RockenhausenNordrhein-Westfalengrein-grotharnim@kallert.desiegmar08
1837Andrew HartEngineer, civil (contracting)Barnett LLC258 Day Hollow Suite 410KimberlyhavenColoradobrandy00@yahoo.comamy30
1914Shelby FowlerAir traffic controllerFields-Sanchez533 Fitzpatrick BypassFrancesbergMichiganterrystephen@anderson.orggcain
1938Susan AubryDirecteur d'agence bancairePayet Georges S.A.S.67, rue Inès ValentinNicolasFImilletedith@sfr.frtthierry
1948Richard Karge-KobeltJunalist maaineAbberb Keubeb AGMitschkeee 8SachsnAnhaltnrejwgner@gmx.emuehlehenni
1960Anna de LobatoMedcl techcl ocerMaciag PLCCalleón de Dolore Parea 21 At 7PalnciaCantariavázqzlornzo@al.omdaniel70
1968Zoltan Wähner B.A.Professor EmeritsTh8e8Stotr. 1SaulgauShlsg-Holstarlenpruschke@salz.orkklemm
1995Kenneth DunnProgrammer, systemsLeonard Inc5361 Patterson Mission Suite 504VillaburghRhode Islandkristen54@gmail.comjkent
2010Gertraude SchomberInsurance risk surveyorBruderChrista-Ullrich-Allee 0/1Schwäbisch HallHessengumprichalice@schmidt.defruppert
2075Maurice SteySystems developerLinke Margraf GmbH & Co. OHGLaila-Scheibe-Allee 2/0LuckenwaldeHamburggutknechtevelyn@niemeier.comdkreusel
\n", + "
" + ], + "text/plain": [ + " name job \\\n", + "337 Aysel Binner Reccig officer \n", + "377 Jolanta Rogge Accommodation managr \n", + "506 Mrs. Frances Peters Fuiue desie \n", + "545 Gerhart Krebs MBA. Surgeon \n", + "592 Folkert Gnatz Meteorologist \n", + "633 Manon Jacquot Ingénieur en aéronautique \n", + "658 Austin Waller Insurance risk surveyor \n", + "723 Wanda Moran Solicitor, Scotland \n", + "762 Charles Russell Scientist, research (physical sciences) \n", + "772 Waltrud Wohlgemut Designer, fashion/clothing \n", + "783 Caroline Mata Engineer, elecrical \n", + "889 Ricardo Ripoll Lucena Teevisi camera peratr \n", + "928 Sophie Letellier du Carpentier Cnucteu e ét \n", + "979 Irene Roda Dávila Eitor, maazine featres \n", + "995 Abigail Hernandez Mechanical engineer \n", + "1015 Mr. Paul Newton Government soa researh offer \n", + "1043 Anna Adams Programmer alcatons \n", + "1052 Aurélie Vidal Magistrat \n", + "1062 Regina Schacht-Kusch Herbalist \n", + "1120 Jeffrey Benjamin Publ house manager \n", + "1170 Julio Agustín Amaya Tax aviser \n", + "1339 Ing. Andrew Schleich B.A. Ln \n", + "1360 Frédérique Lejeune-Daniel Tecce cse \n", + "1384 Kenneth Moore Magazine journalist \n", + "1423 Thomas Coulon Collecteur de fonds \n", + "1433 Jerry Barnes Tour mner \n", + "1452 Karen Weeks Psychotherapist, child \n", + "1489 Herr Johann Eigenwillig Immigration officer \n", + "1544 Pasquale Schwital Trade mark attorney \n", + "1557 Stephanie Young Herpetologist \n", + "1567 Carolina Reguera Sanz Fam manae \n", + "1616 Sonia Amores Senir tax prfessina/tax inspectr \n", + "1647 Juan Carlos Iker Boix Ros Pre phtgrapher \n", + "1652 Jörg Henschel Chaity office \n", + "1703 Marc Tate Ship broker \n", + "1707 Joseph Hines Pyhiatri nre \n", + "1722 Julie Baldwin Set deigner \n", + "1759 Sarah Hoffman Exhibitin designe \n", + "1796 Valentine Devaux-Roger Direceur d'ôial \n", + "1809 Slavica Seidel Psychotherapist, child \n", + "1820 Wenke Schweitzer Enginr, automoti \n", + "1829 Dr. Thomas Hein Copy \n", + "1837 Andrew Hart Engineer, civil (contracting) \n", + "1914 Shelby Fowler Air traffic controller \n", + "1938 Susan Aubry Directeur d'agence bancaire \n", + "1948 Richard Karge-Kobelt Junalist maaine \n", + "1960 Anna de Lobato Medcl techcl ocer \n", + "1968 Zoltan Wähner B.A. Professor Emerits \n", + "1995 Kenneth Dunn Programmer, systems \n", + "2010 Gertraude Schomber Insurance risk surveyor \n", + "2075 Maurice Stey Systems developer \n", + "\n", + " company \\\n", + "337 Kuhl Kalleww Swifwunw & Co. KGaA \n", + "377 Scholl e.V. \n", + "506 Rsgers, Lawrence and Richards \n", + "545 Roskoth \n", + "592 Bolnbach \n", + "633 Jacob \n", + "658 Sexton Group \n", + "723 Estes PLC \n", + "762 Preston-Wilson \n", + "772 Nerger AG \n", + "783 Grimes Grrur \n", + "889 Luzq Estraqa anq Galinqq \n", + "928 Valle7 SARL \n", + "979 Daza Inc \n", + "995 Smith Ltd \n", + "1015 LemnardmWatsmn \n", + "1043 Jones Gjoup \n", + "1052 Martins \n", + "1062 Hartung GmbH & Co. KGaA \n", + "1120 Chcn Inc \n", + "1170 Piñolk Belmonke and Codina \n", + "1339 Holt Putz GnR \n", + "1360 Sctmitt \n", + "1384 Cross, Bfll anf Diaz \n", + "1423 Levy \n", + "1433 Col-Wllllams \n", + "1452 Rodriguez, Brady and Jackson \n", + "1489 Süßebier Hänel GmbH \n", + "1544 Finke \n", + "1557 Bryant and Sons \n", + "1567 Cami77, C7aparr7 a7d N7gu7ra \n", + "1616 J5an-Núñez \n", + "1647 Pont, P44om4r4s 4nd Arjon4 \n", + "1652 Schicke AG \n", + "1703 Wagner, Mitchell and Grimes \n", + "1707 Cr4ig, G4rci4 4nd Rich4rds \n", + "1722 W5ll55mson-G5rz5 \n", + "1759 Hensont Wiley and Ryan \n", + "1796 Leiris \n", + "1809 Wulff Hande KG \n", + "1820 Wesa4k KG \n", + "1829 Geisel \n", + "1837 Barnett LLC \n", + "1914 Fields-Sanchez \n", + "1938 Payet Georges S.A.S. \n", + "1948 Abberb Keubeb AG \n", + "1960 Maciag PLC \n", + "1968 Th8e8 \n", + "1995 Leonard Inc \n", + "2010 Bruder \n", + "2075 Linke Margraf GmbH & Co. OHG \n", + "\n", + " street_address city \\\n", + "337 Batix-Kanz-Staß 5/4 Fulda \n", + "377 Lrchplz 4/6 Mettmnn \n", + "506 Studio \\nCarpntr kys Wes Simn \n", + "545 Kühnertweg 863 Stade \n", + "592 Heinfried-Austermühle-Ring 05 Eilenburg \n", + "633 8, chemin Éléonore Evrard Marechal-les-Bains \n", + "658 11097 Hansen Field Davidmouth \n", + "723 08011 Hernandez Streets Apt. 149 Natalieshire \n", + "762 6709 Ashley Circle Apt. 309 Danielberg \n", + "772 Elmar-Ullmann-Allee 6 Schlüchtern \n", + "783 80157 Whte Alley Sute 79 Soh Mark \n", + "889 Caejón Rosario Viapana 16 Palencia \n", + "928 3, boulvard Jan Augr Saint Daviddan \n", + "979 Roda Carla Miró 5 Viy \n", + "995 766 Adrian Ranch Ellismouth \n", + "1015 Studi 86\\nKaty ill West Jue \n", + "1043 22 Kateen ova Noth Joa \n", + "1052 88, rue Stéphanie Letellier Rouxnec \n", + "1062 Wenke-Hörle-Ring 36 Eggenfelden \n", + "1120 27 Rodgrs Rdgs Apt. 269 Suth Jeffererg \n", + "1170 Calleón de Gregorio Bustamante 28 Piso 7 La Pala \n", + "1339 Hugasse 8/8 Hainichn \n", + "1360 chemin Denise Ferrand Saint ChalotteVille \n", + "1384 753 Lindsey Pine Thompsonshe \n", + "1423 91, rue Laetitia Collet Dias-sur-Normand \n", + "1433 30 Mpy Ovepass Jeiferview \n", + "1452 233 Kevin Street Larryside \n", + "1489 Langernplatz 0 Stadtsteinach \n", + "1544 Detlef-Binner-Platz 0/1 Burg \n", + "1557 5163 Rebecca Creek Suite 421 North Theresaberg \n", + "1567 Vil e Imel Oorio 25 Madd \n", + "1616 Avnida d Grgorio Manón 344 Prta 8 Ponevedr \n", + "1647 Pasadzo de Josep Bentez Pso Las Palmas \n", + "1652 HennyLorchRng 484 Hohensein-Ensh \n", + "1703 721 Christopher View Suite 840 Watsonmouth \n", + "1707 85663 Savage Gles Mcgeeon \n", + "1722 58513 Paricia Res Suie 45 So Me \n", + "1759 9490 Curts Spur Sute 82 Jseptwn \n", + "1796 57, enue de Gros BenadBou \n", + "1809 Preißgasse 0/4 Soest \n", + "1820 Eies. 7 Ba Lnwra \n", + "1829 Ladeckgasse 11 Rockenhausen \n", + "1837 258 Day Hollow Suite 410 Kimberlyhaven \n", + "1914 533 Fitzpatrick Bypass Francesberg \n", + "1938 67, rue Inès Valentin Nicolas \n", + "1948 Mitschkeee 8 Mß \n", + "1960 Calleón de Dolore Parea 21 At 7 Palncia \n", + "1968 Stotr. 1 Saulgau \n", + "1995 5361 Patterson Mission Suite 504 Villaburgh \n", + "2010 Christa-Ullrich-Allee 0/1 Schwäbisch Hall \n", + "2075 Laila-Scheibe-Allee 2/0 Luckenwalde \n", + "\n", + " state email user_name \n", + "337 Berli frncoise@wgnerco christinefinke \n", + "377 Thüringen inrharff@yah.d walentinabeier \n", + "506 BO halenewilliams@wilson-sandes.og amy17 \n", + "545 Bayern olav44@bolander.de bettyhahn \n", + "592 Thüringen jaentschbirgitt@boerner.org francesco44 \n", + "633 AR ilemaitre@voila.fr astrid58 \n", + "658 Texas christina74@doyle-baker.biz olynn \n", + "723 Oregon howardreginald@gmail.com dana91 \n", + "762 South Dakota nancyescobar@brown.net ruben71 \n", + "772 Rheinland-Pfalz auch-schlauchindietlind@gmx.de zitakuhl \n", + "783 Iw jared52@aoo.com thomasthompson \n", + "889 Lgo ev0@oo.com colomerenrique \n", + "928 BS rdorm@dbmi.com anne28 \n", + "979 La Rioa sldrpére@ps.cm ipeñalver \n", + "995 Colorado jordan60@gmail.com mendozajody \n", + "1015 VE em@mil.cm bbennett \n", + "1043 KZ asleig65@aisay.co lloydann \n", + "1052 SE boutineric@blin.fr iwagner \n", + "1062 Sachsen-Anhalt oluebs@troest.de xklotz \n", + "1120 Iinois stepanie90@rogers.co lori67 \n", + "1170 Salamanca usolana@jáuregui-pedraza.om gloriaolmo \n", + "1339 Neersachsen jun@putz.com jesselmaja \n", + "1360 IE jchretien@costacom joseph60 \n", + "1384 Colorao ashey28@rice.co todd72 \n", + "1423 SC deschampsgabriel@guyot.fr michelepetit \n", + "1433 Utah insnashl@gas-hais.cm christopher62 \n", + "1452 Indiana gregg39@hernandez-gomez.com knapprobert \n", + "1489 Thüringen haasemarieluise@noack.com istoll \n", + "1544 Niedersachsen hanne-lore98@gmx.de thomas14 \n", + "1557 Alaska stephenwilliams@summers.com ahawkins \n", + "1567 Vicaya mordóñ@cámara.info eva16 \n", + "1616 Lugo icent4@montenero-brroso.info sanmartínguillermo \n", + "1647 Mia srgio24@gail.co luis-miguel23 \n", + "1652 BadenWürtteberg huerhes@hmal.de anne-katrin51 \n", + "1703 Connecticut chenjessica@hotmail.com patricia34 \n", + "1707 Als bcaldern@htmail.cm emilytorres \n", + "1722 Alaska diuez@uess. cmoss \n", + "1759 Arizona ncole@yahoo.com csmith \n", + "1796 AL rogrlro@munoz.om xherve \n", + "1809 Rheinland-Pfalz tloos@krause.net abien \n", + "1820 Thürige rsthveriue@mies.rg kwernecke \n", + "1829 Nordrhein-Westfalen grein-grotharnim@kallert.de siegmar08 \n", + "1837 Colorado brandy00@yahoo.com amy30 \n", + "1914 Michigan terrystephen@anderson.org gcain \n", + "1938 FI milletedith@sfr.fr tthierry \n", + "1948 SachsnAnhalt nrejwgner@gmx.e muehlehenni \n", + "1960 Cantaria vázqzlornzo@al.om daniel70 \n", + "1968 Shlsg-Holst arlenpruschke@salz.or kklemm \n", + "1995 Rhode Island kristen54@gmail.com jkent \n", + "2010 Hessen gumprichalice@schmidt.de fruppert \n", + "2075 Hamburg gutknechtevelyn@niemeier.com dkreusel " + ] + }, + "execution_count": 13, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers[customers.duplicated([\"user_name\"])]\n" + ] + }, + { + "cell_type": "markdown", + "id": "f268d35d-797f-49f3-9d24-63a83f62fc59", + "metadata": {}, + "source": [ + "Ein darauf den user_name gefilterter Datensatz kann so aussehen:\n" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "id": "46e76915-de2b-4227-aba6-0d53c43b651b", + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
namejobcompanystreet_addresscitystateemailuser_name
236Aysel BinnerRecycling officerKuhl Kallert Stiftung & Co. KGaABeatrix-Kranz-Straße 5/4FuldaBerlinfrancoise22@wagner.comchristinefinke
337Aysel BinnerReccig officerKuhl Kalleww Swifwunw & Co. KGaABatix-Kanz-Staß 5/4FuldaBerlifrncoise@wgnercochristinefinke
\n", + "
" + ], + "text/plain": [ + " name job company \\\n", + "236 Aysel Binner Recycling officer Kuhl Kallert Stiftung & Co. KGaA \n", + "337 Aysel Binner Reccig officer Kuhl Kalleww Swifwunw & Co. KGaA \n", + "\n", + " street_address city state email \\\n", + "236 Beatrix-Kranz-Straße 5/4 Fulda Berlin francoise22@wagner.com \n", + "337 Batix-Kanz-Staß 5/4 Fulda Berli frncoise@wgnerco \n", + "\n", + " user_name \n", + "236 christinefinke \n", + "337 christinefinke " + ] + }, + "execution_count": 15, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "customers[customers[\"user_name\"] == \"christinefinke\"]\n" + ] + }, + { + "cell_type": "markdown", + "id": "cd8ef668-a32a-41d7-840d-268baa03b2f7", + "metadata": {}, + "source": [ + "Nun können wir diejenigen Datenpunkte löschen, deren user_name identisch ist:" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "id": "fe3c078d-e6cc-403d-9443-9415a798327d", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "(2080, 8)\n", + "(2029, 8)\n" + ] + } + ], + "source": [ + "print(customers.shape)\n", + "customers.drop_duplicates([\"user_name\"], inplace=True)\n", + "print(customers.shape)" + ] + }, + { + "cell_type": "markdown", + "id": "65a4323b-c93d-447a-82fd-45b0c4d85532", + "metadata": {}, + "source": [ + "Dies hat 2080-2029=51 Original-Datenpunkte gelöscht." + ] + }, + { + "cell_type": "markdown", + "id": "78474f25-57ce-42e0-bed0-7f10fd6d61cc", + "metadata": {}, + "source": [ + "## 2.2. Deduplizieren mit fuzzywuzzy\n", + "\n", + "Als Alternative und zum Vergleich fürs Identifizieren von Duplikation und das entsprechende Deduplizieren schauen wir uns die Bibliothek fuzzywuzzy an: \n", + "\n", + "https://www.python4data.science/de/latest/clean-prep/string-matching.html\n" + ] + }, + { + "cell_type": "markdown", + "id": "68d6b9d4-0fd7-4416-bca2-b6a2e42781ea", + "metadata": {}, + "source": [ + "\n", + " " + ] + }, + { + "cell_type": "markdown", + "id": "31089ed7-9186-4c8d-86ff-5542cd444b1f", + "metadata": {}, + "source": [ + "## 2.3. Deduplizieren mit Dedupe\n", + "\n", + "Alternativ können wir die duplizierte Daten mit der Dedupe-Bibliothek (https://docs.dedupe.io/en/latest/) erkennen, die ein flaches neuronales Netzwerk verwendet, um aus einem kleinen Training zu lernen.\n", + "\n", + "Das entsprechende Notebook finden wir hier: \n", + "\n", + "https://www.python4data.science/de/latest/clean-prep/deduplicate.html#3.-Dedupe" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "41592878-3dac-4a9b-9929-1bd5c11f2de9", + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.9" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/docs/2deep_ml_ops/index.rst b/docs/2deep_ml_ops/index.rst index 8c96597..3d5e632 100644 --- a/docs/2deep_ml_ops/index.rst +++ b/docs/2deep_ml_ops/index.rst @@ -5,12 +5,51 @@ Vertiefung: Neuronale Netze, Deep Learning, Systemüberblick, Use Case Fallgrube - Zusammenfassung der Konzepte aus Tag 1: Überwachtes, unüberwachtes und bestärkendes Lernen. -- Wichtige Begriffe: **Modell, Trainingsdaten, Testdaten, Overfitting, Regularisierung, Optimierung.** +- Wichtige Begriffe: **Modell, Trainingsdaten, Testdaten.** - Diskussion der zentralen Herausforderungen im ML: **Bias, Datenqualität, Modellinterpretierbarkeit.** - Offene Fragen und Klarstellungen + + +* Logistic Regression +* Decision Tree => Random Forest +* SVM () + +.. list-table:: Vergleich von Regression, Klassifikation, Clustering und autonomen Aufgaben + :header-rows: 1 + + * - Merkmal + - :ref:`regression` + - :ref:`classification` + - :ref:`clustering` + - :ref:`autonomous` + - :ref:`generative` + * - Art der Vorhersage + - Kontinuierlicher Wert + - Diskrete Klassen + - Gruppenbildung ohne Labels + - Eigenständige Entscheidungsfindung + - Erzeugung neuer Daten + * - Use Case Beispiele + - Preisprognosen, Finanzanalysen + - Bilderkennung, Spam-Filter + - Kundensegmentierung, Anomalieerkennung + - Selbstfahrende Autos, Industrieroboter + - KI-generierte Bilder, Texte, Musik + * - Gängige "Klassischen" Algorithmen + - Lineare Regression, neuronale Netze + - Decision Trees (Entscheidungsbäume), Random Forest, SVM + - K-Means Clustering, K-nearest neighbour (kNN), DBSCAN + - Reinforcement Learning, Deep Learning + - GANs, VAEs, Transformer + + +Heutiger Kursinhalt +~~~~~~~~~~~~~~~~~~~~ + + .. list-table:: :header-rows: 1 @@ -18,6 +57,8 @@ Vertiefung: Neuronale Netze, Deep Learning, Systemüberblick, Use Case Fallgrube - Inhalte * - Recap der wichtigsten Themen - Wiederholung der ML-Konzepte, Diskussion, Quiz + * - Modellverhalten + - Overfitting, Regularisierung und Optimierung * - Theorie: Neuronale Netze und Deep Learning - Aufbau, Backpropagation, Aktivierungsfunktionen * - Praxis: Bildklassifikation mit CNNs @@ -31,7 +72,9 @@ Vertiefung: Neuronale Netze, Deep Learning, Systemüberblick, Use Case Fallgrube :titlesonly: :maxdepth: 0 + deduplicate + modellverhalten neural-net + neural-net-optimize cnn-beispiel mlops - usecase-pitfalls diff --git a/docs/2deep_ml_ops/modellverhalten.rst b/docs/2deep_ml_ops/modellverhalten.rst new file mode 100644 index 0000000..c07d957 --- /dev/null +++ b/docs/2deep_ml_ops/modellverhalten.rst @@ -0,0 +1,243 @@ +Modellverhalten: Overfitting, Regularisierung und Optimierung +================================================================ + +Einführung +--------------- + +Nachdem wir uns am ersten Tag mit **Regression und Klassifikation** beschäftigt haben, wenden wir uns nun einem zentralen Problem im maschinellen Lernen zu: +**Wie stellen wir sicher, dass unser Modell nicht nur auf Trainingsdaten gut funktioniert, sondern auch auf unbekannte Daten?** + +Dazu müssen wir drei wichtige Konzepte verstehen: + +1. **Overfitting und Underfitting** – Wann ist ein Modell zu komplex oder zu einfach? +2. **Regularisierung** – Wie können wir Overfitting verhindern? + +1. Overfitting und Underfitting +---------------------------------- + +Beim Training von ML-Modellen kann es vorkommen, dass ein Modell entweder **zu gut auf Trainingsdaten passt (Overfitting)** oder **nicht gut genug trainiert wird (Underfitting)**. + +- **Overfitting** tritt auf, wenn das Modell die Trainingsdaten **zu stark auswendig lernt** und nicht auf neue Daten generalisiert. +- **Underfitting** tritt auf, wenn das Modell **zu simpel ist**, um die Muster in den Daten zu erfassen. + + +Underfitting +------------ + +**Underfitting** tritt auf, wenn ein Modell zu einfach ist, um die zugrunde liegenden Muster in den Daten zu erfassen. +Dies geschieht oft, wenn das Modell zu wenige Parameter hat oder wenn es nicht ausreichend trainiert wurde. +Ein unterangepasstes Modell zeigt sowohl auf den Trainingsdaten als auch auf den Testdaten hohe Fehlerwerte, weil es die Struktur der Daten nicht richtig abbilden kann. +Ein typisches Beispiel ist die Verwendung einer linearen Regression für eine stark nicht-lineare Beziehung, wodurch das Modell die Zusammenhänge nicht ausreichend erfasst. + + +Overfitting +-------------- + +Overfitting ist eines der größten Probleme im maschinellen Lernen. + +Was ist Overfitting? +:::::::::::::::::::::::: + +Es tritt auf, wenn ein Modell die Trainingsdaten **zu stark auswendig lernt**, anstatt die zugrunde liegenden Muster zu erkennen. +Dies führt dazu, dass das Modell auf neuen, unbekannten Daten schlecht generalisiert. + +Das passiert leicht, wenn das ausgewählte und trainierte Modell zu komplex ist und sich **zu stark an den Trainingsdatensatz anpasst**, sodass es auf neuen Daten nicht mehr gut funktioniert. + +**Beispiel:** + +Stellen wir uns vor, wir möchten den Zusammenhang zwischen der Körpergröße und dem Gewicht von Personen vorhersagen. + +- Ein einfaches Modell (z. B. lineare Regression) könnte sagen: **„Größere Menschen wiegen tendenziell mehr.“** +- Ein überangepasstes Modell könnte sich jedoch **zu stark an zufällige Ausreißer anpassen** und unnötig komplexe Regeln aufstellen wie: + +**„Personen mit einer Körpergröße von 1,78m wiegen exakt 73,2kg, aber bei 1,79m sinkt das Gewicht plötzlich auf 71,5kg.“** + +Das überangepasste Modell wird zwar auf den Trainingsdaten eine sehr niedrige Fehlerquote haben, +**aber es wird auf neuen, unbekannten Daten sehr schlecht funktionieren**. + +.. figure:: ../_static/images/day2-overfitting.png + :alt: Illustration von Overfitting und Underfitting + :align: center + :width: 400px + + **Abbildung 1:** Overfitting, citation: By Chabacano - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=3610704 + +Eine gute Darstellung von Overfitting, Underfitting und einem gut generalisierten Modell kann `hier `_ gefunden werden. + + +Wie erkennt man überangepasste Modelle? +---------------------------------------- + +**Overfitting** ist nicht immer sofort sichtbar, aber es gibt einige **Hinweise**, anhand derer man es erkennen kann: + +1. **Großer Unterschied zwischen Trainings- und Testfehler** + - Wenn der Fehler auf den Trainingsdaten sehr niedrig, aber auf den Testdaten hoch ist, liegt meist Overfitting vor. + +2. **Zu hohe Modellkomplexität** + - Wenn ein Modell sehr viele Parameter (Gewichte) hat, ist das Risiko hoch, dass es Overfitting betreibt. + +3. **Sehr gute Leistung auf bekannten, aber schlechte Leistung auf neuen Daten** + - Wenn das Modell sich perfekt an die Trainingsdaten anpasst, aber auf neuen Daten katastrophale Fehler macht. + +1. Trainings- und Testverlust: +::::::::::::::::::::::::::::::: + +Definition +~~~~~~~~~~~~ + +**Training Loss (Trainingsverlust)** + +Der Trainingsverlust ist eine Metrik, mit der bewertet wird, wie gut ein Deep-Learning-Modell zu den Trainingsdaten passt. Das heißt, er bewertet den Fehler des Modells in der Trainingsmenge. Beachten Sie, dass der Trainingssatz ein Teil eines Datensatzes ist, der für das anfängliche Training des Modells verwendet wird. Rechnerisch wird der Trainingsverlust durch die Summe der Fehler für jedes Beispiel im Trainingssatz berechnet. + +Es ist auch wichtig zu beachten, dass der Trainingsverlust nach jedem Stapel gemessen wird. Dies wird in der Regel durch das Aufzeichnen einer Kurve des Trainingsverlustes veranschaulicht. + + +**Validierungsverlust (Validation Loss)** + +Im Gegensatz dazu ist der Validierungsverlust eine Metrik, die verwendet wird, um die Leistung eines Deep-Learning-Modells auf dem Validierungsset zu bewerten. Der Validierungssatz ist ein Teil des Datensatzes, der beiseite gelegt wird, um die Leistung des Modells zu validieren. Der Validierungsverlust ist ähnlich wie der Trainingsverlust und wird aus der Summe der Fehler für jedes Beispiel im Validierungssatz berechnet. + +Zusätzlich wird der Validierungsverlust nach jeder Epoche gemessen. Dies gibt Aufschluss darüber, ob das Modell weiter optimiert oder angepasst werden muss oder nicht. Zu diesem Zweck wird normalerweise eine Lernkurve für den Validierungsverlust erstellt. + +Darstellung +~~~~~~~~~~~~ + +Eine typische Methode, um Overfitting zu erkennen, ist die **Lernkurve**, die zeigt, wie sich der Fehler für Trainings- und Testdaten über die Trainingszeit hinweg entwickelt: + +.. figure:: ../_static/images/day2-learning_curve.png + :alt: Lernkurve für Overfitting + :align: center + :width: 600px + + **Abbildung 3:** Lernkurve – Overfitting zeigt sich durch eine große Lücke zwischen Training- und Testfehler. + +**Interpretation des Trainingsverlustes (Training Loss)** + +Die Lernkurve eines Overfit-Modells weist zu Beginn einen sehr niedrigen Training-Loss auf, der mit dem Hinzufügen von Trainingsbeispielen allmählich leicht ansteigt und nicht abflacht. + +**Interpretieren des Validierungsverlustes (Validation Loss)** + +Die Lernkurve eines Overfit-Modells weist zu Beginn einen hohen Validierungsverlust auf, der mit dem Hinzufügen von Trainingsbeispielen allmählich sinkt und nicht abflacht. +Das deutet darauf hin, dass das Hinzufügen weiterer Trainingsbeispiele die Leistung des Modells bei ungesehenen Daten verbessern kann. +Es ist auch zu erkennen, dass die Trainings- und Validierungsverluste weit voneinander entfernt sind, die sich bei Hinzufügen zusätzlicher Trainingsdaten einander annähern können + + +2. Modelkomplexität +:::::::::::::::::::: + +Bei der Entscheidung der Modellkomplexität sind zwei Faktoren ausschlaggebend: +**Bias** vs. **Varianz** + +**Bias** + +Sei Y der wahre Wert eines Parameters, und sei +Y hat sei ein Schätzer von Y auf der Grundlage einer Datenstichprobe. Dann ist die Verzerrung des Schätzers Y-hat ist gegeben durch: + + .. math:: + Bias(\hat{Y}) = E(\hat{Y}) - Y + +wobei + +.. math:: E(\hat{Y}) + +der Erwartungswert des Schätzers + +.. math:: \hat{Y} + +ist. Es ist die Messung des Modells, wie gut es zu den Daten passt. + +**Geringe Verzerrung:** + +Eine geringe Verzerrung bedeutet, dass weniger Annahmen getroffen werden, um die Zielfunktion zu erstellen. +In diesem Fall stimmt das Modell gut mit dem Trainingsdatensatz überein. +Hohe Verzerrung: Ein hoher Verzerrungswert bedeutet, dass mehr Annahmen zur Erstellung der Zielfunktion getroffen werden. +In diesem Fall stimmt das Modell nicht genau mit dem Trainingsdatensatz überein. + +**Varianz** + +Die Varianz ist ein Streuungsmaß. Sie ist das Quadrat der Standardabweichung und stellt die Werte-Verteilung um den Mittelwert herum dar. +Berechnet wird die Varianz, indem die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel durch die Anzahl der Messwerte dividiert wird. + + .. math:: + Var(X) = \sigma^2 = \sum_{i=1}^{n} (x_i - \mu)^2 * p_i + +Das Zusammenspiel zwischen Bias und Varianz in Bezug auf Modelkomplexität kann wiefolgt dargestellt werden: + +.. figure:: ../_static/images/day2-model_complexity-bias_and_variance.png + :alt: Modelkomplexität - Bias vs Varianz + :align: center + :width: 500px + + **Abbildung 1:** Modelkomplexität - Bias vs Varianz, citation: By Bigbossfarin - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=105307219 + + + +2. Regularisierung: Verhinderung von Overfitting +--------------------------------------------------------- + +Methoden zur Regularisierung: +::::::::::::::::::::::::::::: + +* **Mehr Trainingsdaten verwenden** + * Je mehr Daten ein Modell sieht, desto besser kann es generalisieren. + * Besonders wichtig bei Deep Learning. + + +* **L1-Regularisierung (Lasso Regression)** + Setzt einige Koeffizienten auf 0, um unwichtige Merkmale zu eliminieren. + + .. math:: + L_1 = \sum{|x_i|} + +* **L2-Regularisierung (Ridge Regression)** + Bestraft große Koeffizienten, um ein stabileres Modell zu erzeugen. + + .. math:: + L_1 = \sqrt{\sum{{x_i}^2}} + + +* **Cross-Validation** + * K-Fold Cross Validation hilft, das Modell auf mehreren Trainings/Test-Splits zu überprüfen. + + +* **Dropout (bei neuronalen Netzen)** + Deaktiviert zufällig einige Neuronen während des Trainings. + +* **Early Stopping** + * Stoppt das Training, sobald sich die Testfehler nicht weiter verbessern. + +* **Datenaugmentierung** + Erhöht die Datenvielfalt (besonders nützlich in Computer Vision). + + +Code-Beispiel: Ridge & Lasso Regression +~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + +.. code-block:: python + + from sklearn.linear_model import Ridge, Lasso + from sklearn.model_selection import train_test_split + from sklearn.metrics import mean_squared_error + + # Trainings- und Testsplit + X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) + + # Ridge Regression + ridge = Ridge(alpha=1.0) + ridge.fit(X_train, y_train) + y_pred_ridge = ridge.predict(X_test) + + # Lasso Regression + lasso = Lasso(alpha=0.1) + lasso.fit(X_train, y_train) + y_pred_lasso = lasso.predict(X_test) + + # Fehlervergleich + print("MSE Ridge:", mean_squared_error(y_test, y_pred_ridge)) + print("MSE Lasso:", mean_squared_error(y_test, y_pred_lasso)) + + +Fazit & Ausblick +----------------- + +* Overfitting kann Modelle unbrauchbar machen – Regularisierung hilft. +* Ridge und Lasso sind wichtige Werkzeuge für lineare Modelle. diff --git a/docs/2deep_ml_ops/neural-net-optimize.rst b/docs/2deep_ml_ops/neural-net-optimize.rst new file mode 100644 index 0000000..6da2281 --- /dev/null +++ b/docs/2deep_ml_ops/neural-net-optimize.rst @@ -0,0 +1,123 @@ +Neuronale Netze und Deep Learning – Optimierung +============================================ + +Optimierung: Modellparameter effizient anpassen +--------------------------------------------------- + +Die Wahl der richtigen **Optimierungsmethode** ist entscheidend für die Leistung eines Modells. Optimierung bedeutet, dass wir die **Modellparameter so anpassen, dass der Fehler minimiert wird** und das Modell möglichst gut generalisiert. Dabei gibt es verschiedene Ansätze, die in den folgenden Unterabschnitten erklärt werden. + +Grundlagen der Optimierung +::::::::::::::::::::::::::::::::::::::::::::: + +* Jedes Machine-Learning-Modell hat eine **Kosten- oder Verlustfunktion (Loss Function)**, die misst, wie gut oder schlecht das Modell Vorhersagen trifft. +* Ziel der Optimierung ist es, diese Verlustfunktion zu minimieren. +* Dabei suchen wir die optimalen Modellparameter (z. B. Gewichte in neuronalen Netzen oder Koeffizienten in linearen Modellen), sodass der Fehler möglichst klein ist. + +Gradient Descent – Das Fundament der Optimierung +:::::::::::::::::::::::::::::::::::::::::::::::::: + +**Gradient Descent (Gradientenabstieg)** ist eine der häufigsten Optimierungstechniken. + +* Dessen Ziel liegt darin, den minimalen Verlustwert (Loss) zu finden. +* Dabei wird die **Ableitung der Verlustfunktion** verwendet, um herauszufinden, in welche Richtung sich die Parameter ändern müssen, um den Fehler zu minimieren. + +.. math:: + w := w - \alpha \frac{\partial L}{\partial w} + +* **w**: Modellparameter (z. B. Gewichte in einem neuronalen Netz) +* **L**: Verlustfunktion (Loss Function) +* **\alpha**: Lernrate – bestimmt, wie große Schritte das Modell bei der Optimierung macht + +Varianten von Gradient Descent +~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + +1. **Batch Gradient Descent:** + + * Verwendet **den gesamten Trainingsdatensatz**, um den Gradienten zu berechnen. + * **Vorteil:** Konvergiert stabil. + * **Nachteil:** Kann sehr langsam sein, insbesondere bei großen Datensätzen. + +2. **Stochastic Gradient Descent (SGD):** + + * wird als **stochastische Approximation** der Gradientenabstiegsoptimierung betrachtet: + * sie ersetzt den tatsächlichen Gradient (berechnet aus dem gesamten Datensatz) durch eine Schätzung davon (berechnet aus einer **zufällig selektierten Teilmenge** der Daten) + * **Vorteil:** Schneller als Batch Gradient Descent, da es nach jeder Instanz ein Update gibt. + * **Nachteil:** Kann aufgrund der ständigen Updates stark schwanken (stochastisches Verhalten). + +3. **Mini-Batch Gradient Descent:** + + * Ein **Kompromiss zwischen Batch und SGD** – nutzt kleine **Gruppen (Batches)** von Daten. + * **Vorteil:** Stabiler als SGD, aber effizienter als Batch. + * **Nachteil:** Erfordert eine optimale Wahl der **Batch-Größe**. + + +**Beispiel:** Auswirkungen der Lernrate auf das Training + +.. figure:: ../_static/images/day2-learning_rate_effect.png + :alt: Einfluss der Lernrate + :align: center + :width: 500px + + **Abbildung 2:** Eine zu hohe Lernrate konvergiert nicht, eine zu niedrige dauert zu lange. + +Erweiterte Optimierungsverfahren** +::::::::::::::::::::::::::::::::::::::::::::: + +Neben Gradient Descent gibt es weiterentwickelte Algorithmen, die schneller oder stabiler konvergieren: + +Momentum-based Methoden +~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + +**Momentum Optimizer:** + +* Verwendet einen **Impulswert**, um den Lernprozess zu beschleunigen und Schwankungen zu verringern. +* Formell wird ein "Momentumeffekt" hinzugefügt, der die Aktualisierung der Gewichte glättet. + +.. math:: + v_t = \beta v_{t-1} + (1-\beta) \nabla L(w) + +* **v_t**: Beschleunigung in Richtung des Minimums +* **\beta**: Momentum-Faktor (meist um 0.9) + +Adaptiven Lernraten-Methoden +~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + +**Adagrad:** + +* Passt die Lernrate individuell für jede Modellparameter-Aktualisierung an. +* **Vorteil:** Funktioniert gut für spärliche Daten. +* **Nachteil:** Lernrate kann zu stark abfallen. + +**RMSprop:** + +* Eine Erweiterung von Adagrad mit **gleitendem Durchschnitt der Gradienten**. +* Funktioniert besonders gut für **tiefe neuronale Netze**. + +**Adam-Optimizer (Adaptive Moment Estimation):** + +* Kombiniert die Vorteile von Momentum und RMSprop, d.h. passt eigenständig die Lernrate individuell für jede Modellparameter-Aktualisierung an, ohne dass die Lernrate zu stark abfällt. +* **Vorteil:** Stabile und schnelle Konvergenz, besonders in Deep Learning. +* **Nachteil:** Kann für einige Probleme eine zu hohe Variabilität aufweisen. + + +Hyperparameter-Tuning – Die richtige Balance finden +------------------------------------------------------ + +Neben der Optimierung der Modellparameter selbst müssen wir oft **Hyperparameter optimieren** (z. B. die Lernrate \( \alpha \)). Dazu gibt es verschiedene Methoden: + +**Grid Search:** + +* Testet systematisch alle möglichen Kombinationen von Hyperparametern. +* **Nachteil:** Sehr rechenintensiv. + +**Random Search:** + +* Wählt zufällige Kombinationen von Hyperparametern aus. +* **Vorteil:** Spart Rechenzeit, oft ähnlich gute Ergebnisse wie Grid Search. + +**Bayesian Optimization:** + +* Verwendet probabilistische Modelle zur effizienten Auswahl von Hyperparametern. +* **Vorteil:** Schneller als Grid Search bei komplexen Modellen. + + diff --git a/docs/2deep_ml_ops/neural-net.rst b/docs/2deep_ml_ops/neural-net.rst index 8f35807..609d28c 100644 --- a/docs/2deep_ml_ops/neural-net.rst +++ b/docs/2deep_ml_ops/neural-net.rst @@ -1,17 +1,52 @@ Neuronale Netze und Deep Learning – Theorie ----------------------------------------------------------- +============================================ -**Grundlagen:** +Grundlagen: +---------------------------------------------------------- Was sind künstliche neuronale Netze? Wie unterscheiden sie sich von klassischen ML-Modellen? -- Künstliche neuronale Netze bestehen aus **Schichten von Neuronen**, die durch gewichtete Verbindungen miteinander verbunden sind. +* Künstliche neuronale Netze bestehen aus **Schichten von Neuronen**, die durch gewichtete Verbindungen miteinander verbunden sind. +* Aufbau eines neuronalen Netzes: **Eingabeschicht, versteckte Schichten, Aktivierungsfunktionen, Ausgangsschicht.** +* Jedes Neuron führt eine Berechnung basierend auf einer **Aktivierungsfunktion** durch und gibt das Ergebnis an die nächste Schicht weiter. + + +.. figure:: ../_static/images/day2-deepLearn.png + :alt: Illustration von Deep Neural Networks + :align: center + :width: 700px + + **Abbildung 1:** Deep Neural Networks, source: `Lamarr-Institute `_, https://lamarr-institute.org/wp-content/uploads/deepLearn_2_EN.png + + +Wichtige Aktivierungsfunktionen: +:::::::::::::::::::::::::::::::: + +* **ReLU (Rectified Linear Unit):** + +Häufig in CNNs verwendet, eliminiert negative Werte. -- Aufbau eines neuronalen Netzes: **Eingabeschicht, versteckte Schichten, Aktivierungsfunktionen, Ausgangsschicht.** +* **Sigmoid:** -- Jedes Neuron führt eine Berechnung basierend auf einer **Aktivierungsfunktion** durch und gibt das Ergebnis an die nächste Schicht weiter. +Wandelt Werte in einen Bereich zwischen 0 und 1 um, nützlich für Wahrscheinlichkeitsprognosen. -**Forwardpropagation (Vorwärtsdurchlauf):** +* **Softmax:** + +Wird in Klassifikationsproblemen für mehr als zwei Klassen genutzt. + + +Fortgeschrittene Deep-Learning-Techniken: +:::::::::::::::::::::::::::::::::::::::::: + +* Convolutional Neural Networks (CNNs) für **Bildverarbeitung**. + +* Recurrent Neural Networks (RNNs) für **Sequenz- und Textverarbeitung**. + +* Transformer-Modelle für **NLP (z. B. BERT, GPT).** + + +Forwardpropagation (Vorwärtsdurchlauf): +---------------------------------------------------------- 1. Die Eingabedaten werden in das Netzwerk eingespeist. @@ -27,83 +62,77 @@ Was sind künstliche neuronale Netze? Wie unterscheiden sie sich von klassischen 5. Am Ende der Forward Propagation wird die Loss Function berechnet. -**Loss Functions (Verlustfunktionen) und ihre Rolle:** +Loss Functions (Verlustfunktionen) und ihre Rolle: +---------------------------------------------------------- -- Eine **Loss Function** misst die Differenz zwischen der Vorhersage des Modells und dem tatsächlichen Wert. +Eine **Loss Function** -- Sie gibt an, wie gut oder schlecht das Modell arbeitet. +* misst die Differenz zwischen der Vorhersage des Modells und dem tatsächlichen Wert. +* gibt an, wie gut oder schlecht das Modell arbeitet. +* wird während der Backpropagation genutzt, um die Gewichte des Netzwerks zu aktualisieren. -- Wird während der Backpropagation genutzt, um die Gewichte des Netzwerks zu aktualisieren. +Typische Loss Functions: +::::::::::::::::::::::::: -**Typische Loss Functions:** +Mean Squared Error (MSE) +~~~~~~~~~~~~~~~~~~~~~~~~ -1. **Mean Squared Error (MSE)** – Wird für **Regressionsprobleme** verwendet: +Wird für **Regressionsprobleme** verwendet: .. math:: MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 - - Bestraft größere Fehler überproportional. +* Bestraft größere Fehler überproportional. + +* Gut für kontinuierliche Werte wie Preisprognosen. - - Gut für kontinuierliche Werte wie Preisprognosen. +Cross-Entropy Loss +~~~~~~~~~~~~~~~~~~~~~~ -2. **Cross-Entropy Loss** – Wird für **Klassifikationsprobleme** verwendet: +Wird für **Klassifikationsprobleme** verwendet: .. math:: L = -\sum y_i \log(\hat{y}_i) - - Erhöht die Strafe, wenn das Modell sehr sicher, aber falsch ist. +* Erhöht die Strafe, wenn das Modell sehr sicher, aber falsch ist. - - Wird z. B. bei **Softmax-Klassifikationen** genutzt. +* Wird z. B. bei **Softmax-Klassifikationen** genutzt. -**Zusammenhang zwischen Loss Function und Gradient Descent:** +Zusammenhang zwischen Loss Function und Gradient Descent: +---------------------------------------------------------- -- Gradient Descent ist der Algorithmus, der die Gewichte des Modells so anpasst, dass die Loss Function minimiert wird. +* Gradient Descent ist der Algorithmus, der die Gewichte des Modells so anpasst, dass die Loss Function minimiert wird. -- Die Ableitung der Loss Function bestimmt die Richtung, in die die Gewichte aktualisiert werden. +* Die Ableitung der Loss Function bestimmt die Richtung, in die die Gewichte aktualisiert werden. -- **Formel für das Gewicht-Update:** +Formel für das Gewicht-Update: +::::::::::::::::::::::::::::::: + +Das Wichtigste an einem Modell sind die **Gewichte (weights)**. +Diese werden während der **Backwardpropagation (Rückwärtsdurchlauf)**-Phase aktualisiert, +indem man das Produkt der Learning-Rate (\alpha) und der Ableitung der Loss-Funktion +von den aktuellen Gewichten subtrahiert: .. math:: w := w - \alpha \frac{\partial L}{\partial w} - wobei \( \alpha \) die Lernrate ist. - -- Dies passiert während der **Backwardpropagation (Rückwärtsdurchlauf):** -**Backwardpropagation (Rückwärtsdurchlauf):** -1. Der Fehler des Netzwerks wird berechnet, indem die Differenz zwischen der vorhergesagten und der tatsächlichen Ausgabe bestimmt wird, d.h. indem die Loss Function evaluiert wird. +Backwardpropagation (Rückwärtsdurchlauf): +---------------------------------------------------------- -2. Die Fehler werden von der letzten Schicht zurück durch das Netzwerk propagiert, um **die Gewichte der Neuronen zu aktualisieren**. +* Nachdem in der Forwardpropagation die Input-Daten durch das Neural Network propagiert sind, werden die Ausgaben des Networks mit den gewünschten Ausgaben verglichen. +* Deren Differenz wird als der Fehler des Netzwerks in diesem Durchgang erachtet, d.h. Loss. +* Dieser Fehler wird dann in der `Backwardpropagation `_ über die letzten Schicht (Ausgabeschicht) zurück zur Eingabeschicht durch das Netzwerk propagiert, um **die Gewichte der Neuronen zu aktualisieren**. -3. Die Berechnung erfolgt mit Hilfe der **Kettenregel der Ableitungen**, um die Gradienten für jedes Gewicht zu bestimmen: +* Die Berechnung erfolgt mit Hilfe der **Kettenregel der Ableitungen**, um die Gradienten für jedes Gewicht zu bestimmen: .. .. math:: .. rac{\partial L}{\partial w} = rac{\partial L}{\partial y} \cdot rac{\partial y}{\partial z} \cdot rac{\partial z}{\partial w} -4. Durch die Anwendung des **Gradientenabstiegsverfahrens (Gradient Descent)** werden die Gewichte so angepasst, dass der Gesamtfehler des Netzwerks iterativ minimiert und somit das Modell optimiert wird. - -**Optimierungstechniken:** - -- **Stochastischer Gradientenabstieg (SGD):** Berechnet Gradienten basierend auf einer zufälligen Stichprobe aus den Trainingsdaten. - -- **Adam-Optimizer:** Eine erweiterte Form des SGD, die adaptives Lernen ermöglicht und schneller konvergiert. - -- **Momentum-Methoden:** Nutzen vergangene Gradienteninformationen, um stabilere Updates durchzuführen. - -**Wichtige Aktivierungsfunktionen:** - -- **ReLU (Rectified Linear Unit):** Häufig in CNNs verwendet, eliminiert negative Werte. - -- **Sigmoid:** Wandelt Werte in einen Bereich zwischen 0 und 1 um, nützlich für Wahrscheinlichkeitsprognosen. - -- **Softmax:** Wird in Klassifikationsproblemen für mehr als zwei Klassen genutzt. - - -**Fortgeschrittene Deep-Learning-Techniken:** - -- Convolutional Neural Networks (CNNs) für **Bildverarbeitung**. +* In jeder Epoche passt das Modell diese Parameter an und verringert so den Verlust, indem es dem Fehlergradienten folgt. +`Backpropagation `_ verwendet häufig Optimierungsalgorithmen wie Gradientenabstieg (Gradient Descent) oder stochastischer Gradientenabstieg (stochastic Gradient Descent). +* Der Algorithmus berechnet den Gradienten mit Hilfe der Kettenregel aus der Infinitesimalrechnung und kann so effektiv durch komplexe Schichten im neuronalen Netz navigieren, um die Kostenfunktion zu minimieren. -- Recurrent Neural Networks (RNNs) für **Sequenz- und Textverarbeitung**. +* Somit werden während der Backpropagation-Phase durch die Anwendung von z.B. **Gradientenabstiegsverfahrens (Gradient Descent)** die Gewichte so angepasst, dass der Gesamtfehler des Netzwerks iterativ minimiert und somit das Modell optimiert wird. -- Transformer-Modelle für **NLP (z. B. BERT, GPT).** diff --git a/docs/4gen_ai/cusy_genai.ipynb b/docs/4gen_ai/cusy_genai.ipynb deleted file mode 100644 index c55a287..0000000 --- a/docs/4gen_ai/cusy_genai.ipynb +++ /dev/null @@ -1,10 +0,0 @@ -{ - "cells": [], - "metadata": { - "language_info": { - "name": "python" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} diff --git a/docs/_static/images/day2-deepLearn.png b/docs/_static/images/day2-deepLearn.png new file mode 100644 index 0000000..9b530c0 Binary files /dev/null and b/docs/_static/images/day2-deepLearn.png differ diff --git a/docs/_static/images/day2-learning_curve.png b/docs/_static/images/day2-learning_curve.png new file mode 100644 index 0000000..54a257f Binary files /dev/null and b/docs/_static/images/day2-learning_curve.png differ diff --git a/docs/_static/images/day2-learning_rate_effect.png b/docs/_static/images/day2-learning_rate_effect.png new file mode 100644 index 0000000..e031476 Binary files /dev/null and b/docs/_static/images/day2-learning_rate_effect.png differ diff --git a/docs/_static/images/day2-model_complexity-bias_and_variance.png b/docs/_static/images/day2-model_complexity-bias_and_variance.png new file mode 100644 index 0000000..b9c9b45 Binary files /dev/null and b/docs/_static/images/day2-model_complexity-bias_and_variance.png differ diff --git a/docs/_static/images/day2-overfitting.png b/docs/_static/images/day2-overfitting.png new file mode 100644 index 0000000..66850b5 Binary files /dev/null and b/docs/_static/images/day2-overfitting.png differ