Big Data & Data Science WS2021 at FOM Hochschule Für Oekonomie & Management | Flashcards & Summaries

Select your language

Suggested languages for you:
Log In Start studying!

Lernmaterialien für Big Data & Data Science WS2021 an der FOM Hochschule für Oekonomie & Management

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Big Data & Data Science WS2021 Kurs an der FOM Hochschule für Oekonomie & Management zu.

TESTE DEIN WISSEN

Definieren einer Baseline

Lösung anzeigen
TESTE DEIN WISSEN

▪ Unabhängig vom vorliegenden Modell und den ausgewählten Metriken ist es sinnvoll eine Baseline zu definieren anhand derer die Vorhersagegenauigkeit des Modells gemessen werden kann

▪ Für öffentliche Datensätze (z.B. Kaggle) existieren in der Regel eine Vielzahl von Ergebnissen, welche mit verschiedensten Methoden erzielt wurden -> die „State-of-the-Art“ Ergebnisse sollten hierbei als Baseline für eigene Experimente herangezogen werden (z.B. ImageNet Classfication Error)

▪ Darüber hinaus kann die Definition einer „Random-Baseline“ (z.B. sklearn dummy classifier) sinnvoll sein, um das eigene Modell gegen eine rein zufällig Vorhersagen abzugrenzen

Lösung ausblenden
TESTE DEIN WISSEN

Suitable Fitting

Lösung anzeigen
TESTE DEIN WISSEN

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben ausreichend genau

▪ Gute Ergebnisse auf dem Training set, sehr gute Ergebnisse auf dem Validation und Test set

Lösung ausblenden
TESTE DEIN WISSEN

Supervised Learning Grundlagen

Lösung anzeigen
TESTE DEIN WISSEN

▪ Der Datensatz enthält min. ein abhängiges Merkmal (Output), das auf Grundlage der verbleibenden unabhängigen Merkmale (Input) vorhergesagt werden soll

▪ Trainieren des Modells: Lernen einer Transformation (Modell) der Eingabedaten (Input) auf die Ausgabedaten (Output) anhand von Beispielen

▪ Vorhersagen mit dem Modell treffen: Verwenden des trainierten Modells zur Vorhersage der Ausgabedaten auf Grundlage der Eingabedaten (Die Qualität der Vorhersagen ist durch Vergleich des vorhergesagten Output mit dem tatsächlichen Output messbar)

▪ Populäre Algorithmen: Decision-/Regression Trees, Random Forest, Naive Bayes, Linear-/Logistic Regression, Support Vector Machines (SVM), Neural Networks

Lösung ausblenden
TESTE DEIN WISSEN

Accuracy

Lösung anzeigen
TESTE DEIN WISSEN
  • Misst den Anteil der richtig klassifizierten Objekte an der Menge aller Objekte
  • Nicht geeignet für Datensätze mit stark „unbalancierten“ Klassen
  • Beispiel: Datensatz mit 1000 Observationen
    • 950 Observationen in Klasse A
    • 50 Observationen in Klasse B
  • Die Genauigkeit ist demnach ungeeignet für die Beurteilung der Qualität d. Vorhersagen „seltener“ Ereignisse
Lösung ausblenden
TESTE DEIN WISSEN

Training-Validation-Test-Split

Lösung anzeigen
TESTE DEIN WISSEN

▪ Der Datensatz wird in Training, Validation und Test set unterteilt

▪ Das zusätzliche „Validation set“ ermöglicht es verschiedene Varianten des Trainings durchzuführen und zu validieren (z.B. mit verschiedenen Modellen/Feature Engineering Methoden/Hyperparametern)

▪ Die beste Variante wird anschließend verwendet um ein neues Modell auf Grundlage aller Daten aus dem Training set und Validation set zu trainieren

▪ Für dieses „finale“ Modell wird ein obj- ektiver Score auf dem Test set ermittelt

▪ De-Facto Standard für die Validierung von „Proof of Concept“ Projekten

▪ Erweiterung: k-Fold-Cross-Validation für Training/Validation-set (verbesserte Aussagekraft des Validation Score)

▪ Vor einem Praxiseinsatz in einem Produkt/Service sind ggf. weitere Tests nötig (fairness, privacy, security)

Lösung ausblenden
TESTE DEIN WISSEN

Underfitting Lösungen

Lösung anzeigen
TESTE DEIN WISSEN

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben nicht detailliert genug

▪ Schlechte Ergebnisse auf dem Training, Validation und Test set

Mögliche Lösungen:

- Verwendung eines komplexeren Modells

- Ändern der Hyperparameter

- Beschaffung zusätzlicher Daten

- Anpassung der Feature Engieering Methoden

Lösung ausblenden
TESTE DEIN WISSEN

Was ist Feature Engineering?

Lösung anzeigen
TESTE DEIN WISSEN

▪ Transformation der Ausgangsdaten in ein neues Format, das von Modellen besser interpretiert werden kann

▪ Reduziert die Komplexität und beschleunigt die Konvergenz der verwendeten Modelle

▪ Erfordert Expertenwissen über die zugrundeliegende Problemstellung

▪ Zunehmend automatisiert (z.B: durch Deep Learning )

Lösung ausblenden
TESTE DEIN WISSEN

Curse of Dimensionality (Fluch der Dimensionalität)

Lösung anzeigen
TESTE DEIN WISSEN
  • Viele aktuelle (insbesondere unstrukturierte) Datensätze enthalten tausende oder gar Millionen von Merkmalen pro Observation
  • Je mehr Merkmale (Dimensionen) ein Datensatz enthält, desto…
    • …mehr Informationen können über einzelne Observationen bereitgestellt und verarbeitet werden.
    • …detaillierter ist die Beschreibung der Problemstellung.
    • …schwieriger gestaltet sich die Visualisierung und Interpretation der Daten.
    • …komplexer und rechenintensiver wird das Training von Modellen.
    • …stärker beeinflussen die mathematischen Eigenschaften hochdimensionaler Räume die Analyse der Daten.
Lösung ausblenden
TESTE DEIN WISSEN

Fragestellungen bei Evaluation

Lösung anzeigen
TESTE DEIN WISSEN

▪ Welches Modell ist am besten für die Lösung des Problems geeignet? („Model Selection“)

▪ Wie gut sind die Vorhersagen eines Modells auf „ungesehenen“ Daten (Daten auf denen es nicht trainiert wurde)?

▪ Wie lassen sich die Vorhersagen eines Modells auf „ungesehenen“ Daten verbessern?

▪ Wie Robust ist ein Modell gegenüber Manipulation (insbesondere „Adversarial Examples“)?

▪ Erfüllt das Modell gängige Anforderungen hinsichtlich Datenschutz/- sicherheit („Model Privacy“ / „Model Security“)

▪ Sind zusätzliche Tests nötig um die Neutralität des Modells bei der Verarbeitung personenbezogener Daten zu gewährleisten (Geschlecht, Ethnizität, Sexueller Orientierung, usw.) = „Model Fairness“

Lösung ausblenden
TESTE DEIN WISSEN

Validierung von Supervised-Learning Modellen

Lösung anzeigen
TESTE DEIN WISSEN

Metriken

▪ Klassifikation (Accuracy, Confusion Matrix, Precision, Recall, F1-Score)

▪ Regression (RMSE, R²-Score, Adjusted R²-Score)

Methoden

▪ Train-Test-Split

▪ k-Fold-Cross-Validation

▪ Train-Validation-Test-Split

Lösung ausblenden
TESTE DEIN WISSEN

Training-Test-Split

Lösung anzeigen
TESTE DEIN WISSEN

▪ Der Datensatz wird in einen Training set und ein Test set unterteilt

▪ Objekte aus dem Dataset werden zufällig einem der beiden neuen Datasets zugeordnet (Die Klassenverteilung bleibt dabei erhalten)

▪ Ein Modell wird auf dem Training set trainiert und anschließend auf dem Test set validiert

▪ Der Test score bietet eine objektivere Aussage über die Vorhersagegenauigkeit des Models, da er für „ungesehene“ Daten ermittelt wurde (Daten, auf denen das Modell nicht gelernt hat)

▪ Sinnvoll für einfache Versuche bzw. Prototypen für die kein Praxiseinsatz / Publikation geplant ist bzw. sehr kleine Datensätze

▪ Problem: Die zufällige Zuweisung der Objekte könnte zu einem sehr „einfachen“ oder „schwierigen“ Testset führen

▪ Lösung: Verwendung unterschiedlicher Trainining-Test-Kombinationen (z.B. durch k-Fold-Cross-Validation)

Lösung ausblenden
TESTE DEIN WISSEN

Overfitting und Lösungen

Lösung anzeigen
TESTE DEIN WISSEN

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben zu genau (lernt Daten auswendig)

▪ Sehr gute Ergebnisse auf dem Training set, schlechte Erg. auf dem Validation und Test set

Mögliche Lösungen:

- Verwendung eines einfacheren Modells

- Beschaffung zusätzlicher Daten

- Entfernen unnötiger Merkmale

- Verwendung von Regularisierung

- Verwendung von k-Fold-Crossvalidation

Lösung ausblenden
  • 439268 Karteikarten
  • 10647 Studierende
  • 362 Lernmaterialien

Beispielhafte Karteikarten für deinen Big Data & Data Science WS2021 Kurs an der FOM Hochschule für Oekonomie & Management - von Kommilitonen auf StudySmarter erstellt!

Q:

Definieren einer Baseline

A:

▪ Unabhängig vom vorliegenden Modell und den ausgewählten Metriken ist es sinnvoll eine Baseline zu definieren anhand derer die Vorhersagegenauigkeit des Modells gemessen werden kann

▪ Für öffentliche Datensätze (z.B. Kaggle) existieren in der Regel eine Vielzahl von Ergebnissen, welche mit verschiedensten Methoden erzielt wurden -> die „State-of-the-Art“ Ergebnisse sollten hierbei als Baseline für eigene Experimente herangezogen werden (z.B. ImageNet Classfication Error)

▪ Darüber hinaus kann die Definition einer „Random-Baseline“ (z.B. sklearn dummy classifier) sinnvoll sein, um das eigene Modell gegen eine rein zufällig Vorhersagen abzugrenzen

Q:

Suitable Fitting

A:

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben ausreichend genau

▪ Gute Ergebnisse auf dem Training set, sehr gute Ergebnisse auf dem Validation und Test set

Q:

Supervised Learning Grundlagen

A:

▪ Der Datensatz enthält min. ein abhängiges Merkmal (Output), das auf Grundlage der verbleibenden unabhängigen Merkmale (Input) vorhergesagt werden soll

▪ Trainieren des Modells: Lernen einer Transformation (Modell) der Eingabedaten (Input) auf die Ausgabedaten (Output) anhand von Beispielen

▪ Vorhersagen mit dem Modell treffen: Verwenden des trainierten Modells zur Vorhersage der Ausgabedaten auf Grundlage der Eingabedaten (Die Qualität der Vorhersagen ist durch Vergleich des vorhergesagten Output mit dem tatsächlichen Output messbar)

▪ Populäre Algorithmen: Decision-/Regression Trees, Random Forest, Naive Bayes, Linear-/Logistic Regression, Support Vector Machines (SVM), Neural Networks

Q:

Accuracy

A:
  • Misst den Anteil der richtig klassifizierten Objekte an der Menge aller Objekte
  • Nicht geeignet für Datensätze mit stark „unbalancierten“ Klassen
  • Beispiel: Datensatz mit 1000 Observationen
    • 950 Observationen in Klasse A
    • 50 Observationen in Klasse B
  • Die Genauigkeit ist demnach ungeeignet für die Beurteilung der Qualität d. Vorhersagen „seltener“ Ereignisse
Q:

Training-Validation-Test-Split

A:

▪ Der Datensatz wird in Training, Validation und Test set unterteilt

▪ Das zusätzliche „Validation set“ ermöglicht es verschiedene Varianten des Trainings durchzuführen und zu validieren (z.B. mit verschiedenen Modellen/Feature Engineering Methoden/Hyperparametern)

▪ Die beste Variante wird anschließend verwendet um ein neues Modell auf Grundlage aller Daten aus dem Training set und Validation set zu trainieren

▪ Für dieses „finale“ Modell wird ein obj- ektiver Score auf dem Test set ermittelt

▪ De-Facto Standard für die Validierung von „Proof of Concept“ Projekten

▪ Erweiterung: k-Fold-Cross-Validation für Training/Validation-set (verbesserte Aussagekraft des Validation Score)

▪ Vor einem Praxiseinsatz in einem Produkt/Service sind ggf. weitere Tests nötig (fairness, privacy, security)

Mehr Karteikarten anzeigen
Q:

Underfitting Lösungen

A:

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben nicht detailliert genug

▪ Schlechte Ergebnisse auf dem Training, Validation und Test set

Mögliche Lösungen:

- Verwendung eines komplexeren Modells

- Ändern der Hyperparameter

- Beschaffung zusätzlicher Daten

- Anpassung der Feature Engieering Methoden

Q:

Was ist Feature Engineering?

A:

▪ Transformation der Ausgangsdaten in ein neues Format, das von Modellen besser interpretiert werden kann

▪ Reduziert die Komplexität und beschleunigt die Konvergenz der verwendeten Modelle

▪ Erfordert Expertenwissen über die zugrundeliegende Problemstellung

▪ Zunehmend automatisiert (z.B: durch Deep Learning )

Q:

Curse of Dimensionality (Fluch der Dimensionalität)

A:
  • Viele aktuelle (insbesondere unstrukturierte) Datensätze enthalten tausende oder gar Millionen von Merkmalen pro Observation
  • Je mehr Merkmale (Dimensionen) ein Datensatz enthält, desto…
    • …mehr Informationen können über einzelne Observationen bereitgestellt und verarbeitet werden.
    • …detaillierter ist die Beschreibung der Problemstellung.
    • …schwieriger gestaltet sich die Visualisierung und Interpretation der Daten.
    • …komplexer und rechenintensiver wird das Training von Modellen.
    • …stärker beeinflussen die mathematischen Eigenschaften hochdimensionaler Räume die Analyse der Daten.
Q:

Fragestellungen bei Evaluation

A:

▪ Welches Modell ist am besten für die Lösung des Problems geeignet? („Model Selection“)

▪ Wie gut sind die Vorhersagen eines Modells auf „ungesehenen“ Daten (Daten auf denen es nicht trainiert wurde)?

▪ Wie lassen sich die Vorhersagen eines Modells auf „ungesehenen“ Daten verbessern?

▪ Wie Robust ist ein Modell gegenüber Manipulation (insbesondere „Adversarial Examples“)?

▪ Erfüllt das Modell gängige Anforderungen hinsichtlich Datenschutz/- sicherheit („Model Privacy“ / „Model Security“)

▪ Sind zusätzliche Tests nötig um die Neutralität des Modells bei der Verarbeitung personenbezogener Daten zu gewährleisten (Geschlecht, Ethnizität, Sexueller Orientierung, usw.) = „Model Fairness“

Q:

Validierung von Supervised-Learning Modellen

A:

Metriken

▪ Klassifikation (Accuracy, Confusion Matrix, Precision, Recall, F1-Score)

▪ Regression (RMSE, R²-Score, Adjusted R²-Score)

Methoden

▪ Train-Test-Split

▪ k-Fold-Cross-Validation

▪ Train-Validation-Test-Split

Q:

Training-Test-Split

A:

▪ Der Datensatz wird in einen Training set und ein Test set unterteilt

▪ Objekte aus dem Dataset werden zufällig einem der beiden neuen Datasets zugeordnet (Die Klassenverteilung bleibt dabei erhalten)

▪ Ein Modell wird auf dem Training set trainiert und anschließend auf dem Test set validiert

▪ Der Test score bietet eine objektivere Aussage über die Vorhersagegenauigkeit des Models, da er für „ungesehene“ Daten ermittelt wurde (Daten, auf denen das Modell nicht gelernt hat)

▪ Sinnvoll für einfache Versuche bzw. Prototypen für die kein Praxiseinsatz / Publikation geplant ist bzw. sehr kleine Datensätze

▪ Problem: Die zufällige Zuweisung der Objekte könnte zu einem sehr „einfachen“ oder „schwierigen“ Testset führen

▪ Lösung: Verwendung unterschiedlicher Trainining-Test-Kombinationen (z.B. durch k-Fold-Cross-Validation)

Q:

Overfitting und Lösungen

A:

▪ Modell erfasst die Zusammenhänge zwischen Eingaben und Ausgaben zu genau (lernt Daten auswendig)

▪ Sehr gute Ergebnisse auf dem Training set, schlechte Erg. auf dem Validation und Test set

Mögliche Lösungen:

- Verwendung eines einfacheren Modells

- Beschaffung zusätzlicher Daten

- Entfernen unnötiger Merkmale

- Verwendung von Regularisierung

- Verwendung von k-Fold-Crossvalidation

Big Data & Data Science WS2021

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten StudySmarter Kurse für deinen Studiengang Big Data & Data Science WS2021 an der FOM Hochschule für Oekonomie & Management

Für deinen Studiengang Big Data & Data Science WS2021 an der FOM Hochschule für Oekonomie & Management gibt es bereits viele Kurse, die von deinen Kommilitonen auf StudySmarter erstellt wurden. Karteikarten, Zusammenfassungen, Altklausuren, Übungsaufgaben und mehr warten auf dich!

Das sind die beliebtesten Big Data & Data Science WS2021 Kurse im gesamten StudySmarter Universum

Big Data & Data Science

FOM Hochschule für Oekonomie & Management

Zum Kurs
Big Data & Data Science

FOM Hochschule für Oekonomie & Management

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Big Data & Data Science WS2021
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Big Data & Data Science WS2021