|
| 1 | +# Data-Science |
| 2 | + |
| 3 | +- Business Intelligence (BI) vs Data-Science (DS) |
| 4 | + - BI: Deskriptiv, "was ist passiert" |
| 5 | + - DS: Prediktiv, "was wird passieren" |
| 6 | + - DS: Preskriptiv, "was sollten wir tun" |
| 7 | +- Data-Science ist interdisziplinär |
| 8 | + - Statistik |
| 9 | + - Programmierung |
| 10 | + - Domänenwissen |
| 11 | +- Statistik |
| 12 | + - Mittelwert (Mean) |
| 13 | + - 30k, 35k, 40k, 200k => 76k (sensibel gegen Ausreißer) |
| 14 | + - Median (Median) |
| 15 | + - 30k, 35k, 40k, 200k => 37.5k |
| 16 | + - Modus (Mode) |
| 17 | + - Welcher Wert kommt am häufigsten vor? |
| 18 | + - Varianz |
| 19 | + - Der Abstand vom Mittelwert |
| 20 | + - 30k, 35k, 40k |
| 21 | + - Abstände ermitteln: -5k, 0, 5k |
| 22 | + - Quadrieren: 25k, 0, 25k |
| 23 | + - Durchschnitt: 16,6k^2 <- Varianz in Quadrat-Euro |
| 24 | + - Wurzel |
| 25 | + - Ungefähr 4,1k <- Standardabweichung in Euro |
| 26 | + - Bei einer Normalverteilung liegen ungefähr 68% aller Werte innerhalb der Standardabweichung |
| 27 | + - Normalverteilung |
| 28 | + - Die meisten Werte liegen in der Mitte |
| 29 | + - Je weiter weg ein Wert von der Mitte ist, desto unwahrscheinlicher ist er |
| 30 | + - Symmetrische Verteilung |
| 31 | + - Die 68-95-99,7-Regel |
| 32 | + - 68% der Werte: Durchschnitt ± 1 * Standardabweichung |
| 33 | + - 95% der Werte: Durchschnitt ± 2 * Standardabweichung |
| 34 | + - 99,7% ...: Durchschnitt ± 3 * Standardabweichung |
| 35 | + - Korrelation |
| 36 | + - Maß für den linearen Zusammenhang zwischen Variablen |
| 37 | + - r = 0 -> keine Korrelation |
| 38 | + - r = +1 -> positive Korrelation |
| 39 | + - r = -1 -> negative Korrelation |
| 40 | + - Korrelation vs Kausalität |
| 41 | + - Bloß weil etwas korreliert, gibt es noch keinen kausalen Zusammenhang |
| 42 | + - Eine dritte Variable, die sowohl A und B beeinflusst, nennt man Confounder |
| 43 | +- Stochastik |
| 44 | + - P(Event): 0 <= P <= 1 |
| 45 | + - Würfel: P(6) = 1/6 = 0.167 |
| 46 | + - P(Spam) = 0.95 |
| 47 | + - P(A oder B): P(A) + P(B) - P(A und B) |
| 48 | + - P(A und B): P(A) * P(B) |
| 49 | + - Bedingte Wahrscheinlichkeit |
| 50 | + - P(A | B): Wie hoch ist P(A), wenn B bereits eingetreten ist? |
| 51 | + - P(A | B) = P(A und B) / P(B) |
| 52 | + - P(A | B) = P(B | A) * P(A) / P(B) |
| 53 | + - Beispiel |
| 54 | + - 10.000 Menschen, 1% krank: 100 krank, 9.900 gesund |
| 55 | + - Test, 99%, bei kranken: 99% positiv, 1% negativ |
| 56 | + - Test, 99%, bei gesunden: 99 falsch–positiv, 9.801 negativ |
| 57 | + - Positiv insgesamt: 99 + 99 = 198 |
| 58 | + - P(krank | positiv) = 99 / 198 = 50% |
| 59 | +- Bias und Varianz |
| 60 | + - Bias ist eine konsistente Verzerrung in eine Richtung |
| 61 | + - Varianz ist die Streuung |
| 62 | + - Gesucht ist niedriger Bias + niedrige Varianz |
| 63 | + |
| 64 | +- Unsupervised Learning |
| 65 | + - Typische Anwendungsfälle |
| 66 | + - Clustering |
| 67 | + - Anomaly Detection |
| 68 | + - Dimensionality Reduction |
| 69 | + - k-Means als Beispielalgorithmus |
| 70 | + - Grundidee |
| 71 | + - Teile Daten in k Gruppen (Cluster) |
| 72 | + - Jede Gruppe hat einen Mittelwert (Centroid) |
| 73 | + - Alle Daten gehören zum nächstgelegenen Mittelwert |
| 74 | + - Ablauf |
| 75 | + - k Centroide zufällig (!) wählen |
| 76 | + - Cluster um Centroiden bilden |
| 77 | + - k neue Centroiden als Mittelpunkte der Cluster berechnen |
| 78 | + - Iterieren, bis entweder Cluster stabil sind, oder bis maximale Anzahl von Iterationen erreicht wurde |
| 79 | + |
| 80 | +- Supervised Learning |
| 81 | + - Lernen mit Feedback |
| 82 | + - Idee |
| 83 | + - Trainingsdaten |
| 84 | + - Daten + Ergebnisse |
| 85 | + - Features + Labels |
| 86 | + - Modell lernt im Prinzip f: f(x) = y |
| 87 | + - Beispiel |
| 88 | + - x = E-Mails, y = Spam oder kein Spam |
| 89 | + - Auf 10.000 E-Mails eine Funktion dafür generieren (Training) |
| 90 | + - Hoffnung: Vorhersage für neue E-Mails, ob Spam oder kein Spam |
| 91 | + - Anwendungsfälle / Arten von Problemen |
| 92 | + - Klassifikation (y ist eine Kategorie) |
| 93 | + - Logistische Regression |
| 94 | + - Regression (y ist eine Zahl) |
| 95 | + - Lineare Regression (y = m * x + b) |
| 96 | + - Multiple lineare Regression |
| 97 | + - Overfitting vs Underfitting |
| 98 | + - Wie sieht die richtige Balance aus? |
| 99 | + - Split von Trainings- und Testdaten |
| 100 | + |
| 101 | +- Decision Trees |
| 102 | + - Einzige existierende Variante von "Explainable AI" (XAI) |
| 103 | + - Ziel sind möglichst kompakte Bäume mit wenigen Fragen |
| 104 | + - Können berechnet werden |
| 105 | +- Genetischer Algorithmus |
| 106 | + - Ablauf |
| 107 | + - Wir raten n verschiedene Funktionen, die ein Problem lösen sollen |
| 108 | + - Wir messen die Qualität der n Funktionen |
| 109 | + - Schlechte Funktionen sortieren wir aus |
| 110 | + - Gute Funktionen rekombinieren wir |
| 111 | + - So entstehen neue Funktionen |
| 112 | + - Funktionen können auch mutieren |
0 commit comments