Pattern Analysis - Cheatsheet
Definition und Ziele der Mustererkennung
Definition:
Mustererkennung befasst sich mit der Interpretation und Klassifikation von Datenmustern.
Details:
- Ziel: Automatische Erkennung und Kategorisierung von Mustern in Daten
- Wichtige Schritte: Vorverarbeitung, Merkmalsextraktion, Klassifikation
- Anwendungsbereiche: Bild- und Sprachverarbeitung, medizinische Diagnostik, Finanzmarktanalyse
- Methoden: Neuronale Netze, Entscheidungsbäume, K-Nearest-Neighbor (KNN)
- Zentrale Herausforderung: Generalisierung auf unbekannte Daten
- Evaluierung: Genauigkeit, Präzision, Recall, F1-Score
Bayessche Entscheidungsregel und bedingte Wahrscheinlichkeiten
Definition:
Bayessche Entscheidungsregel nutzt bedingte Wahrscheinlichkeiten zur Klassifikation, basierend auf Bayes' Theorem: \( P(A|B) = \frac{P(B|A) \, P(A)}{P(B)} \)
Details:
- Bedingte Wahrscheinlichkeiten: Wahrscheinlichkeit eines Ereignisses A, gegeben dass B eingetreten ist: \( P(A|B) \)
- A-posteriori-Wahrscheinlichkeit: \( P(H|D) \), Wahrscheinlichkeit der Hypothese \( H \) nach Beobachtung der Daten \( D \)
- A-priori-Wahrscheinlichkeit: \( P(H) \), anfängliche Wahrscheinlichkeit der Hypothese \( H \)
- Likelihood: \( P(D|H) \), Wahrscheinlichkeit der Daten \( D \) gegeben die Hypothese \( H \)
- Normierungskonstante: \( P(D) \), Gesamtwahrscheinlichkeit der Daten \( D \)
- Entscheidungsregel: Weise die Klasse zu, die die höchste a-posteriori-Wahrscheinlichkeit \( P(C|x) \) maximiert
- Diskriminanzfunktion: \( g_i(x) = P(C_i|x) \), klassifiziert \( x \) in Klasse \( i \), wenn \( g_i(x) > g_j(x) \) für alle \( j e i \)
Unsupervised Learning vs. Supervised Learning
Definition:
Unsupervised Learning: Daten ohne vordefinierte Labels analysieren. Supervised Learning: Daten mit vordefinierten Labels analysieren.
Details:
- Unsupervised Learning: Ziel ist es, versteckte Muster oder Gruppierungen in den Daten zu finden.
- Keine bekannten Zielvariablen.
- Beispiele: Clustering (z.B. K-Means), Dimensionalitätsreduktion (z.B. PCA).
- Supervised Learning: Ziel ist es, eine Funktion von Input zu Output zu lernen.
- Bekannte Input-Output-Paare (Trainingsdaten).
- Beispiele: Klassifikation (z.B. SVM), Regression (z.B. Lineare Regression).
K-means Clustering Algorithmus
Definition:
K-means Clustering Algorithmus - unsupervised learning Methode zur Gruppierung ähnlicher Datenpunkte in k Cluster.
Details:
- Datenpunkte werden zufällig in k Cluster eingeteilt
- Centroiden jedes Clusters berechnen
- Datenpunkte den nächstgelegenen Centroiden zuordnen
- Prozess iterativ wiederholen bis Stabilität
- Ziel: Minimierung der Summe der quadratischen Abstände der Datenpunkte zu ihren jeweiligen Centroiden
- Formel zur Berechnung der Distanz zu Centroiden:
\[J = \sum_{i=1}^{k} \sum_{j=1}^{n} || x_j^{(i)} - \mu_i ||^2\]
Prinzipal-Komponenten-Analyse (PCA)
Definition:
Prinzipal-Komponenten-Analyse (PCA) ist ein Verfahren zur Dimensionsreduktion und Datenvisualisierung, das verwendet wird, um die wichtigsten Variabilitäten in einem Datensatz zu identifizieren.
Details:
- Ziel: Reduzierung der Anzahl der Dimensionen unter Erhalt der maximalen Varianz.
- Berechnung: Eigenwerte und Eigenvektoren der Kovarianzmatrix.
- Transformierte Daten: Hauptkomponenten (\textit{principal components}), die unkorreliert und linear unabhängig sind.
- Matrix V: Matrix der Eigenvektoren, Hauptachsen im neuen Raum
- Projektion: \textbf{Y} = \textbf{X} \times V
- Varianz maximiert entlang der ersten Hauptkomponente.
- Anwendung: Bildverarbeitung, Mustererkennung, Datenvorverarbeitung
Neuronale Netze strukturelle und funktionale Grundlagen
Definition:
Neuronale Netze sind Modellierungsansätze, die von biologischen neuronalen Strukturen inspiriert sind und für Mustererkennung und maschinelles Lernen verwendet werden.
Details:
- Bestehen aus Neuronen (Eingangs-, versteckte und Ausgangsschichten).
- Gewichte (\textit{weights}) und Bias beeinflussen die Neuronen-Aktivierung.
- Aktivierungsfunktionen (\textit{activation functions}) wie \textit{Sigmoid}, \textit{ReLU}, und \textit{tanh}.
- Verlustfunktion (\textit{loss function}) misst die Fehler, z.B. \textit{mean squared error} (MSE).
- Optimierungsverfahren wie \textit{Gradient Descent} und \textit{Backpropagation}.
- \textit{Feedforward}- und \textit{Recurrent Neural Networks (RNNs)}.
- Anwendungen: Bild- und Sprachverarbeitung, Vorhersagemodelle.
Trainingsalgorithmen wie Backpropagation
Definition:
Trainingsalgorithmen optimieren neuronale Netzwerke, Backpropagation nutzt Gradientenabstieg zur Justierung der Gewichte.
Details:
- Initialisiere Gewichte zufällig.
- Führe Vorwärtspropagation durch zur Berechnung der Ausgabe.
- Berechne Fehler durch Differenz zwischen erwarteter und tatsächlicher Ausgabe.
- Rückwärtspropagierung: \[ \frac{\text{d}E}{\text{d}w_{ij}} = \frac{\text{d}E}{\text{d}o_j} \frac{\text{d}o_j}{\text{d}net_j} \frac{\text{d}net_j}{\text{d}w_{ij}} \]
- Aktualisiere Gewichte: \[ w_{ij}^{\text{neu}} = w_{ij} - u \frac{\text{d}E}{\text{d}w_{ij}} \]
- Iteriere bis Konvergenz oder maximaler Epoche erreicht.
Evaluationsmetriken für Musterkennungssysteme
Definition:
Evaluationsmetriken bewerten die Leistungsfähigkeit eines Mustererkennungssystems.
Details:
- Genauigkeit (Accuracy): \[(TP + TN) / (TP + TN + FP + FN)\]
- Präzision (Precision): \[(TP) / (TP + FP)\]
- Recall (Empfindlichkeit): \[(TP) / (TP + FN)\]
- F1-Score: \[(2 * Precision * Recall) / (Precision + Recall)\]
- ROC-Kurve: Darstellt die Trade-offs zwischen Sensitivität und Spezifität
- AUROC (Area Under ROC): Fläche unter der ROC-Kurve