Skip to content

Commit c3e7624

Browse files
Dr. Min Yeveit
authored andcommitted
day 1 ready
1 parent 8ec5545 commit c3e7624

File tree

8 files changed

+229
-76
lines changed

8 files changed

+229
-76
lines changed

docs/1intro/def.rst

Lines changed: 26 additions & 20 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,8 @@
11
Definition von Künstlicher Intelligenz
22
======================================
33

4+
Was ist die **Künstliche Intelligenz (KI)**?
5+
46
Künstliche Intelligenz (KI) bezeichnet die Fähigkeit eines Computers oder einer
57
Maschine, menschenähnliche kognitive Funktionen auszuführen. Dazu gehören
68
Aufgaben wie Lernen, Problemlösung, Mustererkennung und Entscheidungsfindung.
@@ -17,12 +19,13 @@ Die Entwicklung der KI lässt sich in mehrere Phasen einteilen:
1719
* Erste Algorithmen zur symbolischen Verarbeitung und regelbasierten Systeme
1820
wurden entwickelt.
1921
* Alan Turings berühmter `Turing-Test
20-
<https://de.wikipedia.org/wiki/Turing-Test>`_ stellte eine frühe Methode
21-
zur Bewertung der Intelligenz einer Maschine vor.
22+
<https://de.wikipedia.org/wiki/Turing-Test>`_ stellte eine `frühe Methode
23+
zur Bewertung der Intelligenz einer Maschine
24+
<https://de.wikipedia.org/wiki/Turing-Test#/media/Datei:Turing-Test_ger_ABC.png>`_ vor.
2225
* In den 1960er Jahren entstanden erste Expertensysteme, die regelbasierte
2326
Entscheidungsfindung ermöglichten.
2427

25-
1980er–1990er: Erste Fortschritte und Rückschläge**
28+
1980er–1990er: Erste Fortschritte und Rückschläge
2629
* KI erlebte durch das Aufkommen von neuronalen Netzen und maschinellem
2730
Lernen einen Aufschwung.
2831
* Aufgrund hoher Rechenkosten und begrenzter Datenverfügbarkeit flachte das
@@ -39,8 +42,11 @@ Unterschiedliche Formen der Künstlichen Intelligenz
3942

4043
KI kann auf verschiedene Art und Weisen in verschiedene Kategorien unterteilt
4144
werden. Eine Möglichkeit ist die Kategorisierung nach ihrem Funktionsumfang und
42-
ihren Anwendungsmöglichkeiten, wie von Prof. Arend Hintze definiert, Forscher
43-
und Professor der Integrative Biology an der Michigan State University:
45+
ihren Anwendungsmöglichkeiten, wie von Prof. Arend Hintze, Forscher
46+
und Professor der Integrative Biology an der Michigan State University, in dessen
47+
`Understanding the four types of AI, from reactive robots to self-aware beings
48+
<https://theconversation.com/understanding-the-four-types-of-ai-from-reactive-robots-to-self-aware-beings-67616>`_
49+
definierte:
4450

4551
#. Reaktive KI (Reactive AI)
4652

@@ -98,9 +104,9 @@ Prädiktive vs. Generative KI
98104
----------------------------
99105

100106
Die aktuell in der Industrie gängigen Formen der KI lassen sind insbesondere in
101-
**prädiktive KI** und **generative KI** unterscheiden:
107+
**prädiktive KI** (Predictive AI) und **generative KI** (Generative AI) unterscheiden:
102108

103-
#. Prädiktive KI
109+
1. Prädiktive KI
104110

105111
* Diese KI nutzt historische Daten, um **zukünftige Ereignisse
106112
vorherzusagen**.
@@ -138,20 +144,20 @@ Bedeutung dieser Unterscheidung
138144
Anwendungsfälle von KI
139145
----------------------
140146

141-
KI findet heute in zahlreichen Bereichen Anwendung, darunter:
147+
KI findet heute in zahlreichen Bereichen Anwendung, hier sind nur eine Beispiele aufgelistet:
142148

143-
Gesundheitswesen
149+
Gesundheitswesen:
144150
Diagnosestellung durch KI-gestützte Bildverarbeitung,
145151
Medikamentenentwicklung.
146-
Finanzwesen
152+
Finanzwesen:
147153
Automatische Betrugserkennung, algorithmischer Handel.
148-
Industrie
154+
Industrie:
149155
Automatisierung von Prozessen, Qualitätskontrolle in der Fertigung.
150-
Autonome Systeme
156+
Autonome Systeme:
151157
Selbstfahrende Autos, Drohnen, Robotersteuerung.
152-
Sprachverarbeitung
158+
Sprachverarbeitung:
153159
Sprachassistenten wie Siri, Alexa oder Google Assistant.
154-
Kreative Anwendungen
160+
Kreative Anwendungen:
155161
Generierung von Texten, Musik und Kunst durch KI.
156162

157163
Ethische Fragestellungen in der KI
@@ -160,15 +166,15 @@ Ethische Fragestellungen in der KI
160166
Mit der rasanten Entwicklung der KI gehen auch bedeutende ethische Fragen
161167
einher:
162168

163-
Bias und Diskriminierung
164-
KI-Modelle können bestehende Vorurteile aus Trainingsdaten übernehmen.
165-
Arbeitsplatzverdrängung
169+
Bias und Diskriminierung:
170+
KI-Modelle können bestehende Vorurteile aus den gegebenen Trainingsdaten übernehmen.
171+
Arbeitsplatzverdrängung:
166172
Automatisierung kann menschliche Arbeitsplätze gefährden.
167-
Transparenz und Erklärbarkeit
173+
Transparenz und Erklärbarkeit:
168174
Viele KI-Modelle, insbesondere Deep Learning, sind schwer zu interpretieren.
169-
Verantwortung und Haftung
175+
Verantwortung und Haftung:
170176
Wer ist verantwortlich, wenn eine KI fehlerhafte oder schädliche
171177
Entscheidungen trifft?
172-
Datenschutz
178+
Datenschutz:
173179
KI-Anwendungen erfordern oft große Datenmengen, was Datenschutzprobleme
174180
aufwirft.

docs/1intro/evaluation.rst

Lines changed: 104 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -4,13 +4,96 @@ Evaluation von ML-Modellen
44
Warum ist die Modellbewertung wichtig?
55
--------------------------------------
66

7-
* Die Evaluation von ML-Modellen stellt sicher, dass das Modell zuverlässig und
8-
generalisierbar ist.
9-
* Ein gut evaluiertes Modell verhindert Overfitting und hilft, die besten
10-
Algorithmen und Parameter auszuwählen.
7+
* Die Evaluation von ML-Modellen stellt sicher, dass das Modell zuverlässig und generalisierbar ist.
8+
* Ein gut evaluiertes Modell verhindert Overfitting und hilft, die besten Algorithmen und Parameter auszuwählen.
119

12-
Wichtige Metriken für Klassifikationsprobleme
13-
---------------------------------------------
10+
11+
Wichtige Metriken und Tools für Klassifikationsprobleme
12+
----------------------------------------------------------
13+
14+
Die einfachste Form der Klassifikation ist die binäre Klassifikation (binary classification) und besteht aus zwei Zuständen.
15+
16+
Beispiel Covid-Schnelltest: Wir wollen untersuchen, wie gut der Infektionsstatus eines Patienten durch Corona-Schnelltests wiedergespiegelt wird.
17+
Hier würde der Corona-Schnelltest als der Klassifikator von genau zwei Zuständen dienen: infiziert oder nicht-infiziert.
18+
19+
Aus diesen zwei Klassen können sich genau 4 Kombinationen ergeben, je nach dem, was das Modell vorhergesagt hat und ob das mit der Realität übereinstimmt:
20+
21+
* **True Positive (TP)**:
22+
Der Schnelltest klassifiziert die Person als infiziert (Positive) und ein anschließender PCR-Test bestätigt dieses Ergebnis (True prediction). Somit war der Schnelltest korrekt.
23+
* **False Positive (FP)**:
24+
Der Schnelltest klassifiziert die Person als infiziert (Positive), jedoch ergibt ein anschließender PCR-Test, dass die Person nicht infiziert ist (False prediction).
25+
* **True Negative (TN)**:
26+
Der Schnelltest klassifiziert die Person als nicht-infiziert (Negative) und die Person ist tatsächlich nicht infiziert (True prediction).
27+
* **False Negative (FN)**:
28+
Der Corona-Schnelltest klassifiziert die Person als nicht-infiziert (Negative), jedoch ist die Person infiziert und sollte somit einen positiven Schnelltest haben (False prediction).
29+
30+
31+
Konfusionsmatrix / Wahrheitsmatrix (Confusion Matrix)
32+
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
33+
34+
*siehe auch*: `confusion matrix IBM <https://www.ibm.com/de-de/topics/confusion-matrix>`_,
35+
`Wahrheitsmatrix <https://de.wikipedia.org/wiki/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Wahrheitsmatrix:_Richtige_und_falsche_Klassifikationen>`_
36+
37+
Ein weiteres Tool, um diese 4 Kombinationen leicht sichtbar zu machen, ist die Konfusionsmatrix:
38+
39+
.. list-table:: Confusion Matrix
40+
:header-rows: 1
41+
:align: center
42+
43+
* - True Class ↓ / Predicted Class →
44+
- Positive
45+
- Negative
46+
* - Positive (Actual Positive)
47+
- True Positive (TP)
48+
- False Negative (FN)
49+
* - Negative (Actual Negative)
50+
- False Positive (FP)
51+
- True Negative (TN)
52+
53+
Anhand unseres Corona-Schnelltest-Beispiels:
54+
55+
Nehmen wir an, wir haben 100 Personen für den Testdatensatz an Corona-Schnelltests erfasst und
56+
die sind wiefolgt aufgeteilt:
57+
58+
.. list-table:: Confusion Matrix
59+
:header-rows: 1
60+
:align: center
61+
62+
* - True Class ↓ / Predicted Class →
63+
- Positive
64+
- Negative
65+
* - Positive (Actual Positive)
66+
- 60 (TP)
67+
- 20 (FN)
68+
* - Negative (Actual Negative)
69+
- 10 (FP)
70+
- 10 (TN)
71+
72+
Daraus lässt sich folgendes "ablesen":
73+
74+
* True Positive (TP) = 60:
75+
60 Personen sind laut Schnelltest infiziert (Positive) und sind tatsächlich infiziert (True).
76+
* False Positive (FP) = 10:
77+
10 Personen sind laut Schnelltest infiziert (Positive), sind in Wirklichkeit aber nicht infiziert (False).
78+
* True Negative (TN) = 10:
79+
10 Personen sind laut Schnelltest nicht-infiziert (Negative), und sind in Wirklichkeit auch wirklich gesund (True).
80+
* False Negative (FN) = 20:
81+
20 Personen sind laut Schnelltest nicht-infiziert (Negative), sind aber tatsächlich infiziert (False).
82+
83+
Die Konfusionsmatrix hilft stark dabei festzustellen, welche Art des Fehlers beim Klassifikator häufig(er) vorkommt.
84+
85+
In unserem Beispiel ist der Corona-Schnelltest in 70 % der Fälle korrekt ((60 + 10) / 100), was erst mal kein schlechter Wert ist.
86+
87+
Jedoch kommt in 10 % (20 / 100) aller Fälle ein False Negative Fehler vor.
88+
Das bedeutet, dass in 10 % aller Fälle, die Person als gesund ausgewiesen wird, obwohl sie eigentlich krank und ansteckend ist.
89+
90+
Im Fall einer Viruserkrankung ist also nicht nur die Genauigkeit entscheidend, sondern vor allem die **False Negative Rate**.
91+
92+
93+
Die wichtigsten (und meist genutzten) Metriken
94+
-----------------------------------------------
95+
96+
In der Industrie werden aktuell für Klassifikationsprobleme vor allem folgende Metriken genutzt (basierend auf den oben genannten Konzepten):
1497

1598
Accuracy (Genauigkeit)
1699
~~~~~~~~~~~~~~~~~~~~~~
@@ -60,6 +143,19 @@ ausgewogenes Maß zu erhalten:
60143
Der F1-Score ist besonders nützlich bei unausgewogenen Datensätzen (engl.:
61144
*unbiased data sets*).
62145

146+
False Negative Rate (FNR)
147+
~~~~~~~~~~~~~~~~~~~~~~~~~~
148+
149+
Die False Negative Rate (FNR) wird in der Business-Welt nicht so häufig verwendet,
150+
sondern vor allem in spezifiellen Domänen wie in unserem Beispiel der medizinischen Tests:
151+
152+
.. math::
153+
\text{FNR} = \frac{\text{FN} }{\text{TN} + \text{FN}}
154+
155+
Die FNR ist also beim Evaluieren eines Tests einer hoch-ansteckenden Viruserkrankung ein wichtiger Indikator,
156+
da es fatale Konsequenzen haben könnte, wenn zu viele *False Negatives* ausgelassen werden.
157+
158+
63159
Wichtige Metriken für Regressionsprobleme
64160
-----------------------------------------
65161

@@ -89,6 +185,8 @@ R²-Koeffizient (Bestimmtheitsmaß)
89185
* Zeigt, wie gut das Modell die Varianz der Zielvariable erklärt.
90186
* Wertebereich: 0 (keine Erklärung) bis 1 (perfekte Erklärung).
91187

188+
*siehe auch*: `Bestimmtheitsmaß-Wiki <https://de.wikipedia.org/wiki/Bestimmtheitsma%C3%9F>`_
189+
92190
Praktische Anwendung: Evaluierung eines Modells in Python
93191
---------------------------------------------------------
94192

docs/1intro/linear-regression.rst

Lines changed: 40 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -4,11 +4,12 @@ Praktische Einführung: Lineare Regression
44
Was ist Lineare Regression?
55
---------------------------
66

7-
- Die **Lineare Regression** ist eines der grundlegendsten Modelle des maschinellen Lernens.
7+
* Die **Lineare Regression** ist eines der grundlegendsten Modelle des maschinellen Lernens.
8+
* Sie wird verwendet, um eine abhängige Variable (Zielvariable) anhand einer oder mehrerer unabhängiger Variablen vorherzusagen.
9+
* Bei der linearen Regression ist die Voraussetzung, dass das `Skalenniveau <https://datatab.de/tutorial/skalenniveau>`_ der abhängigen Variable `intervallskaliert <https://de.statista.com/statistik/lexikon/definition/71/intervallskaliert/#:~:text=Eine%20Skala%20ist%20intervallskaliert%2C%20wenn,den%20Werten%205%20und%206.>`_ ist, sowie eine Normalverteilung vorliegt.
10+
* Ist die abhängige Variable kategorisch, wird eine logistische Regression verwendet.
811

9-
- Sie wird verwendet, um eine abhängige Variable (Zielvariable) anhand einer oder mehrerer unabhängiger Variablen vorherzusagen.
10-
11-
- Die Gleichung einer einfachen linearen Regression lautet:
12+
* Die Gleichung einer einfachen linearen Regression lautet:
1213

1314
.. math::
1415
y = wX + b
@@ -23,6 +24,27 @@ Was ist Lineare Regression?
2324

2425
- `b` der Achsenabschnitt (Bias).
2526

27+
28+
Interpretabilität von Linearen Regressions-Modellen
29+
----------------------------------------------------
30+
31+
Wie viele Modelle müssen für die Lineare Regression einige Voraussetzungen in den Daten erfüllt sein,
32+
damit die Ergebnisse der Regressionsanalyse interpretiert werden können.
33+
34+
* Linearität:
35+
Es muss ein linearer Zusammenhang zwischen der abhängigen und den unabhängigen Variablen bestehen.
36+
* Homoskedastizität:
37+
Die Residuen müssen eine konstante Varianz haben.
38+
* Normalität:
39+
Normalverteilte Fehlerkomponente
40+
* Keine Multikollinearität:
41+
Keine hohe Korrelation zwischen den unabhängigen Variablen
42+
* Keine Autokorrelation:
43+
Die Fehlerkomponente sollte keine Autokorrelation aufweisen.
44+
45+
.. seealso::
46+
* `datalab-tutorial <https://datatab.de/tutorial/lineare-regression>`_
47+
2648
Beispiel mit scikit-learn
2749
-------------------------
2850

@@ -31,14 +53,22 @@ Schritte zur Implementierung eines ML-Modells
3153

3254
1. **Daten laden und vorbereiten**
3355

34-
- Import von Bibliotheken und Laden eines Datensatzes.
56+
* Import von Bibliotheken und Laden eines Datensatzes.
57+
* Untersuchung der Datenverteilung, Korrelationen und möglicher Ausreißer.
58+
* Aufteilung der Daten in Trainings- und Testsets.
59+
60+
2. **Datenvorbereitung**
3561

36-
- Aufteilung der Daten in Trainings- und Testsets.
62+
* Umwandlung kategorischer Merkmale (One-Hot-Encoding).
63+
* Normalisierung und Skalierung numerischer Merkmale.
64+
* Aufteilung in Trainings- und Testdaten.
3765

38-
2. **Modell erstellen und trainieren**
66+
3. **Modell erstellen und trainieren**
3967

40-
- Ein Lineares Regressionsmodell aus `scikit-learn` erstellen und trainieren.
68+
* Ein Lineares Regressionsmodell aus `scikit-learn` erstellen und trainieren.
69+
* Verwendung von Metriken zur Bewertung der Modellgüte (z.B. MSE, R²).
4170

42-
3. **Modell evaluieren**
71+
4. **Modell evaluieren und Interpretation**
4372

44-
- Vorhersagen treffen und mit Metriken wie dem mittleren quadratischen Fehler (MSE) bewerten.
73+
* Bewertung der Modellperformance auf dem Testdatensatz.
74+
* Interpretation der wichtigsten Einflussgrößen.

0 commit comments

Comments
 (0)