Skip to content

Commit 3b281f2

Browse files
committed
feat: Add notes on data science.
1 parent 780cde6 commit 3b281f2

File tree

1 file changed

+112
-0
lines changed
  • documentation/07-daten/03-data-science

1 file changed

+112
-0
lines changed
Lines changed: 112 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,112 @@
1+
# Data-Science
2+
3+
- Business Intelligence (BI) vs Data-Science (DS)
4+
- BI: Deskriptiv, "was ist passiert"
5+
- DS: Prediktiv, "was wird passieren"
6+
- DS: Preskriptiv, "was sollten wir tun"
7+
- Data-Science ist interdisziplinär
8+
- Statistik
9+
- Programmierung
10+
- Domänenwissen
11+
- Statistik
12+
- Mittelwert (Mean)
13+
- 30k, 35k, 40k, 200k => 76k (sensibel gegen Ausreißer)
14+
- Median (Median)
15+
- 30k, 35k, 40k, 200k => 37.5k
16+
- Modus (Mode)
17+
- Welcher Wert kommt am häufigsten vor?
18+
- Varianz
19+
- Der Abstand vom Mittelwert
20+
- 30k, 35k, 40k
21+
- Abstände ermitteln: -5k, 0, 5k
22+
- Quadrieren: 25k, 0, 25k
23+
- Durchschnitt: 16,6k^2 <- Varianz in Quadrat-Euro
24+
- Wurzel
25+
- Ungefähr 4,1k <- Standardabweichung in Euro
26+
- Bei einer Normalverteilung liegen ungefähr 68% aller Werte innerhalb der Standardabweichung
27+
- Normalverteilung
28+
- Die meisten Werte liegen in der Mitte
29+
- Je weiter weg ein Wert von der Mitte ist, desto unwahrscheinlicher ist er
30+
- Symmetrische Verteilung
31+
- Die 68-95-99,7-Regel
32+
- 68% der Werte: Durchschnitt ± 1 * Standardabweichung
33+
- 95% der Werte: Durchschnitt ± 2 * Standardabweichung
34+
- 99,7% ...: Durchschnitt ± 3 * Standardabweichung
35+
- Korrelation
36+
- Maß für den linearen Zusammenhang zwischen Variablen
37+
- r = 0 -> keine Korrelation
38+
- r = +1 -> positive Korrelation
39+
- r = -1 -> negative Korrelation
40+
- Korrelation vs Kausalität
41+
- Bloß weil etwas korreliert, gibt es noch keinen kausalen Zusammenhang
42+
- Eine dritte Variable, die sowohl A und B beeinflusst, nennt man Confounder
43+
- Stochastik
44+
- P(Event): 0 <= P <= 1
45+
- Würfel: P(6) = 1/6 = 0.167
46+
- P(Spam) = 0.95
47+
- P(A oder B): P(A) + P(B) - P(A und B)
48+
- P(A und B): P(A) * P(B)
49+
- Bedingte Wahrscheinlichkeit
50+
- P(A | B): Wie hoch ist P(A), wenn B bereits eingetreten ist?
51+
- P(A | B) = P(A und B) / P(B)
52+
- P(A | B) = P(B | A) * P(A) / P(B)
53+
- Beispiel
54+
- 10.000 Menschen, 1% krank: 100 krank, 9.900 gesund
55+
- Test, 99%, bei kranken: 99% positiv, 1% negativ
56+
- Test, 99%, bei gesunden: 99 falsch–positiv, 9.801 negativ
57+
- Positiv insgesamt: 99 + 99 = 198
58+
- P(krank | positiv) = 99 / 198 = 50%
59+
- Bias und Varianz
60+
- Bias ist eine konsistente Verzerrung in eine Richtung
61+
- Varianz ist die Streuung
62+
- Gesucht ist niedriger Bias + niedrige Varianz
63+
64+
- Unsupervised Learning
65+
- Typische Anwendungsfälle
66+
- Clustering
67+
- Anomaly Detection
68+
- Dimensionality Reduction
69+
- k-Means als Beispielalgorithmus
70+
- Grundidee
71+
- Teile Daten in k Gruppen (Cluster)
72+
- Jede Gruppe hat einen Mittelwert (Centroid)
73+
- Alle Daten gehören zum nächstgelegenen Mittelwert
74+
- Ablauf
75+
- k Centroide zufällig (!) wählen
76+
- Cluster um Centroiden bilden
77+
- k neue Centroiden als Mittelpunkte der Cluster berechnen
78+
- Iterieren, bis entweder Cluster stabil sind, oder bis maximale Anzahl von Iterationen erreicht wurde
79+
80+
- Supervised Learning
81+
- Lernen mit Feedback
82+
- Idee
83+
- Trainingsdaten
84+
- Daten + Ergebnisse
85+
- Features + Labels
86+
- Modell lernt im Prinzip f: f(x) = y
87+
- Beispiel
88+
- x = E-Mails, y = Spam oder kein Spam
89+
- Auf 10.000 E-Mails eine Funktion dafür generieren (Training)
90+
- Hoffnung: Vorhersage für neue E-Mails, ob Spam oder kein Spam
91+
- Anwendungsfälle / Arten von Problemen
92+
- Klassifikation (y ist eine Kategorie)
93+
- Logistische Regression
94+
- Regression (y ist eine Zahl)
95+
- Lineare Regression (y = m * x + b)
96+
- Multiple lineare Regression
97+
- Overfitting vs Underfitting
98+
- Wie sieht die richtige Balance aus?
99+
- Split von Trainings- und Testdaten
100+
101+
- Decision Trees
102+
- Einzige existierende Variante von "Explainable AI" (XAI)
103+
- Ziel sind möglichst kompakte Bäume mit wenigen Fragen
104+
- Können berechnet werden
105+
- Genetischer Algorithmus
106+
- Ablauf
107+
- Wir raten n verschiedene Funktionen, die ein Problem lösen sollen
108+
- Wir messen die Qualität der n Funktionen
109+
- Schlechte Funktionen sortieren wir aus
110+
- Gute Funktionen rekombinieren wir
111+
- So entstehen neue Funktionen
112+
- Funktionen können auch mutieren

0 commit comments

Comments
 (0)