Pattern Analysis - Cheatsheet
Definition und Ziele der Mustererkennung
Definition:
Mustererkennung befasst sich mit der Interpretation und Klassifikation von Datenmustern.
Details:
- Ziel: Automatische Erkennung und Kategorisierung von Mustern in Daten
- Wichtige Schritte: Vorverarbeitung, Merkmalsextraktion, Klassifikation
- Anwendungsbereiche: Bild- und Sprachverarbeitung, medizinische Diagnostik, Finanzmarktanalyse
- Methoden: Neuronale Netze, Entscheidungsbäume, K-Nearest-Neighbor (KNN)
- Zentrale Herausforderung: Generalisierung auf unbekannte Daten
- Evaluierung: Genauigkeit, Präzision, Recall, F1-Score
Bayessche Entscheidungsregel und bedingte Wahrscheinlichkeiten
Definition:
Bayessche Entscheidungsregel nutzt bedingte Wahrscheinlichkeiten zur Klassifikation, basierend auf Bayes' Theorem:
Details:
- Bedingte Wahrscheinlichkeiten: Wahrscheinlichkeit eines Ereignisses A, gegeben dass B eingetreten ist:
- A-posteriori-Wahrscheinlichkeit: , Wahrscheinlichkeit der Hypothese nach Beobachtung der Daten
- A-priori-Wahrscheinlichkeit: , anfängliche Wahrscheinlichkeit der Hypothese
- Likelihood: , Wahrscheinlichkeit der Daten gegeben die Hypothese
- Normierungskonstante: , Gesamtwahrscheinlichkeit der Daten
- Entscheidungsregel: Weise die Klasse zu, die die höchste a-posteriori-Wahrscheinlichkeit maximiert
- Diskriminanzfunktion: , klassifiziert in Klasse , wenn für alle
Unsupervised Learning vs. Supervised Learning
Definition:
Unsupervised Learning: Daten ohne vordefinierte Labels analysieren. Supervised Learning: Daten mit vordefinierten Labels analysieren.
Details:
- Unsupervised Learning: Ziel ist es, versteckte Muster oder Gruppierungen in den Daten zu finden.
- Keine bekannten Zielvariablen.
- Beispiele: Clustering (z.B. K-Means), Dimensionalitätsreduktion (z.B. PCA).
- Supervised Learning: Ziel ist es, eine Funktion von Input zu Output zu lernen.
- Bekannte Input-Output-Paare (Trainingsdaten).
- Beispiele: Klassifikation (z.B. SVM), Regression (z.B. Lineare Regression).
K-means Clustering Algorithmus
Definition:
K-means Clustering Algorithmus - unsupervised learning Methode zur Gruppierung ähnlicher Datenpunkte in k Cluster.
Details:
- Datenpunkte werden zufällig in k Cluster eingeteilt
- Centroiden jedes Clusters berechnen
- Datenpunkte den nächstgelegenen Centroiden zuordnen
- Prozess iterativ wiederholen bis Stabilität
- Ziel: Minimierung der Summe der quadratischen Abstände der Datenpunkte zu ihren jeweiligen Centroiden
- Formel zur Berechnung der Distanz zu Centroiden:
Prinzipal-Komponenten-Analyse (PCA)
Definition:
Prinzipal-Komponenten-Analyse (PCA) ist ein Verfahren zur Dimensionsreduktion und Datenvisualisierung, das verwendet wird, um die wichtigsten Variabilitäten in einem Datensatz zu identifizieren.
Details:
- Ziel: Reduzierung der Anzahl der Dimensionen unter Erhalt der maximalen Varianz.
- Berechnung: Eigenwerte und Eigenvektoren der Kovarianzmatrix.
- Transformierte Daten: Hauptkomponenten (\textit{principal components}), die unkorreliert und linear unabhängig sind.
- Matrix V: Matrix der Eigenvektoren, Hauptachsen im neuen Raum
- Projektion: \textbf{Y} = \textbf{X} \times V
- Varianz maximiert entlang der ersten Hauptkomponente.
- Anwendung: Bildverarbeitung, Mustererkennung, Datenvorverarbeitung
Neuronale Netze strukturelle und funktionale Grundlagen
Definition:
Neuronale Netze sind Modellierungsansätze, die von biologischen neuronalen Strukturen inspiriert sind und für Mustererkennung und maschinelles Lernen verwendet werden.
Details:
- Bestehen aus Neuronen (Eingangs-, versteckte und Ausgangsschichten).
- Gewichte (\textit{weights}) und Bias beeinflussen die Neuronen-Aktivierung.
- Aktivierungsfunktionen (\textit{activation functions}) wie \textit{Sigmoid}, \textit{ReLU}, und \textit{tanh}.
- Verlustfunktion (\textit{loss function}) misst die Fehler, z.B. \textit{mean squared error} (MSE).
- Optimierungsverfahren wie \textit{Gradient Descent} und \textit{Backpropagation}.
- \textit{Feedforward}- und \textit{Recurrent Neural Networks (RNNs)}.
- Anwendungen: Bild- und Sprachverarbeitung, Vorhersagemodelle.
Trainingsalgorithmen wie Backpropagation
Definition:
Trainingsalgorithmen optimieren neuronale Netzwerke, Backpropagation nutzt Gradientenabstieg zur Justierung der Gewichte.
Details:
- Initialisiere Gewichte zufällig.
- Führe Vorwärtspropagation durch zur Berechnung der Ausgabe.
- Berechne Fehler durch Differenz zwischen erwarteter und tatsächlicher Ausgabe.
- Rückwärtspropagierung:
- Aktualisiere Gewichte:
- Iteriere bis Konvergenz oder maximaler Epoche erreicht.
Evaluationsmetriken für Musterkennungssysteme
Definition:
Evaluationsmetriken bewerten die Leistungsfähigkeit eines Mustererkennungssystems.
Details:
- Genauigkeit (Accuracy):
- Präzision (Precision):
- Recall (Empfindlichkeit):
- F1-Score:
- ROC-Kurve: Darstellt die Trade-offs zwischen Sensitivität und Spezifität
- AUROC (Area Under ROC): Fläche unter der ROC-Kurve