Select your language

Suggested languages for you:
Log In Anmelden

Lernmaterialien für Deep Learning an der Universität Hamburg

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Deep Learning Kurs an der Universität Hamburg zu.

TESTE DEIN WISSEN

Was ist Supervised Learning?

Lösung anzeigen
TESTE DEIN WISSEN

(X_1, Y_1),… (X_n,Y_n)

Sowohl die Input- als auch die Outputvariable ist während des Training/Lernprozesses bekannt.


Beispiele:

  • Image Classifikation: Autobilder die auch als solche gelabelt sind.
  • Sales Prediction: Anhand historischer Verkaufszahlen, die Verkäufe für nächste Monat schätzen
  • Translating Text Sequences: Anhand vorgegebenem Text, die dazugehörige Übersetzung bestimmen.
Lösung ausblenden
TESTE DEIN WISSEN

Was ist Semi-Supervised Learning?

Lösung anzeigen
TESTE DEIN WISSEN

(X_1,Y_1), ... (X_n,Y_n),
X_(n+1), ... X_(n+m)

Daten mit Label und Daten ohne Label.

Kombination aus Supervised und Unsupervised Algorithmen. Man verwendet die Daten ohne Label um den Lernprozess über Y zu verbessern.


Lösung ausblenden
TESTE DEIN WISSEN

Was ist Unsupervised Learning?

Lösung anzeigen
TESTE DEIN WISSEN

X_1,X_2,…

Nur Input Daten vorgegeben. Während des Lernprozesses sind somit keine Label bekannt. Machine Learning Algorithmus soll Muster erkennen und so in Cluster einordnen (für Visualisierung, Komprimierung, Entrauschung).

Lösung ausblenden
TESTE DEIN WISSEN

Was ist Semi-supervised Learning?

Lösung anzeigen
TESTE DEIN WISSEN

(X_1,Y_1), ... (X_n,Y_n),

X_n+1, ... X_n+m

Kombination aus supervised und unsupervised Learning. Datenpunkte für die ein Label vorhanden ist und Datenpunkte für die kein Label vorhanden ist. Daten die kein Label haben sollen Lernprozess über Y verbessern. 

Lösung ausblenden
TESTE DEIN WISSEN

Was ist künstliche Intelligenz und welche zwei Ausprägungen gibt es?

Lösung anzeigen
TESTE DEIN WISSEN

KI ist der versuch Entscheidungsstrukturen des Menschen nachzubilden. Die KI handelt hierbei mit vordefinierten Regeln.


starke KI: Computersysteme, die schwierige Aufgaben auf Augenhöhe mit den Menschen übernehmen können. (Nach wie vor Science Fiction)


schwache KI: Beschränkt sich auf konkrete Anwendungsfälle und ist im allgemeinen nicht in der Lage mit der menschlichen Intelligenz zu konkurrieren.

Lösung ausblenden
TESTE DEIN WISSEN

Universal Approximation Theorem 

Lösung anzeigen
TESTE DEIN WISSEN

Es kann bewiesen werden, das jede Funktion durch einen Hidden Layer approximiert werden kann, wenn dieser eine ausreichende Anzahl an Neuronen besitzt.

Lösung ausblenden
TESTE DEIN WISSEN

Accuracy

Lösung anzeigen
TESTE DEIN WISSEN

Die Accuracy gibt uns prozentual einen Wert zurück, der uns die Genauigkeit unseres Modells darstellt. 


Da unser Ziel hier die korrekte Zuordnung von Klassen zu Bildern ist, und dies vorzugsweise auf einem unabhängigen Datensatz, können wir die Genauigkeit unseres Modells berechnen.

in Form der Anzahl der korrekten Klassifizierungen im Verhältnis zur Gesamtzahl.

Lösung ausblenden
TESTE DEIN WISSEN

Activation Function

Lösung anzeigen
TESTE DEIN WISSEN

Die Activation Function von einem Neuron wandelt die Linearkombination der Inputfaktoren in eine nicht-lineare Transformation um. Die Aktivierungsfunktion bestimmt, wie der Aktivierungszustand eines Neurons N von der Eingabe aller anderen Inputfaktoren, die mit diesem Neuron N  verbunden sind, abhängt.


Lösung ausblenden
TESTE DEIN WISSEN

Probleme mit Full-Batch- und dem Stochastic Gradient Descend Verfahren

Lösung anzeigen
TESTE DEIN WISSEN

Beim Full-Batch nehmen wir alle Datenpunkte bei jedem Updateschritt.

Problem: Sehr langsam, aufgrund der hohen Anzahl an Datenpunkten in Deep Learning.


Beim Stochastic nehmen wir einen Datenpunkt bei jedem Updateschritt.

Problem: Einfach und Schnell, aber hat ein sehr hohe Varianz.



Lösung ausblenden
TESTE DEIN WISSEN

Problem mit Universal Approximation Theorem

Lösung anzeigen
TESTE DEIN WISSEN

Wenn wir nur einen Hidden Layer haben, dann können diese sehr breit werden und eine zu hohe Anzahl an Neuronen haben.

Mehrere Hidden Layer führt zu einer effektiveren Darstellung, weil man weniger Parameter (Weights) zur approximativen benötigt.

Lösung ausblenden
TESTE DEIN WISSEN

AlexNET

Lösung anzeigen
TESTE DEIN WISSEN

AlexNet ist viel tiefer als das vergleichsweise kleine LeNet5.

AlexNet besteht aus acht Schichten: 

  • fünf Faltungsschichten
  • zwei vollverknüpfte Hidden-Layer 
  • ein vollverknüpfter Output-Layer

Aktivierungsfunktion: ReLU 

Max-Pooling

Lösung ausblenden
TESTE DEIN WISSEN

Textdaten

Lösung anzeigen
TESTE DEIN WISSEN

Textdaten gehören zu Sequenzdaten, weil sie in einer Reihenfolge sind.


Dokument Klassifikation (Roman oder Krimi)


Lösung ausblenden
  • 296228 Karteikarten
  • 5251 Studierende
  • 273 Lernmaterialien

Beispielhafte Karteikarten für deinen Deep Learning Kurs an der Universität Hamburg - von Kommilitonen auf StudySmarter erstellt!

Q:

Was ist Supervised Learning?

A:

(X_1, Y_1),… (X_n,Y_n)

Sowohl die Input- als auch die Outputvariable ist während des Training/Lernprozesses bekannt.


Beispiele:

  • Image Classifikation: Autobilder die auch als solche gelabelt sind.
  • Sales Prediction: Anhand historischer Verkaufszahlen, die Verkäufe für nächste Monat schätzen
  • Translating Text Sequences: Anhand vorgegebenem Text, die dazugehörige Übersetzung bestimmen.
Q:

Was ist Semi-Supervised Learning?

A:

(X_1,Y_1), ... (X_n,Y_n),
X_(n+1), ... X_(n+m)

Daten mit Label und Daten ohne Label.

Kombination aus Supervised und Unsupervised Algorithmen. Man verwendet die Daten ohne Label um den Lernprozess über Y zu verbessern.


Q:

Was ist Unsupervised Learning?

A:

X_1,X_2,…

Nur Input Daten vorgegeben. Während des Lernprozesses sind somit keine Label bekannt. Machine Learning Algorithmus soll Muster erkennen und so in Cluster einordnen (für Visualisierung, Komprimierung, Entrauschung).

Q:

Was ist Semi-supervised Learning?

A:

(X_1,Y_1), ... (X_n,Y_n),

X_n+1, ... X_n+m

Kombination aus supervised und unsupervised Learning. Datenpunkte für die ein Label vorhanden ist und Datenpunkte für die kein Label vorhanden ist. Daten die kein Label haben sollen Lernprozess über Y verbessern. 

Q:

Was ist künstliche Intelligenz und welche zwei Ausprägungen gibt es?

A:

KI ist der versuch Entscheidungsstrukturen des Menschen nachzubilden. Die KI handelt hierbei mit vordefinierten Regeln.


starke KI: Computersysteme, die schwierige Aufgaben auf Augenhöhe mit den Menschen übernehmen können. (Nach wie vor Science Fiction)


schwache KI: Beschränkt sich auf konkrete Anwendungsfälle und ist im allgemeinen nicht in der Lage mit der menschlichen Intelligenz zu konkurrieren.

Mehr Karteikarten anzeigen
Q:

Universal Approximation Theorem 

A:

Es kann bewiesen werden, das jede Funktion durch einen Hidden Layer approximiert werden kann, wenn dieser eine ausreichende Anzahl an Neuronen besitzt.

Q:

Accuracy

A:

Die Accuracy gibt uns prozentual einen Wert zurück, der uns die Genauigkeit unseres Modells darstellt. 


Da unser Ziel hier die korrekte Zuordnung von Klassen zu Bildern ist, und dies vorzugsweise auf einem unabhängigen Datensatz, können wir die Genauigkeit unseres Modells berechnen.

in Form der Anzahl der korrekten Klassifizierungen im Verhältnis zur Gesamtzahl.

Q:

Activation Function

A:

Die Activation Function von einem Neuron wandelt die Linearkombination der Inputfaktoren in eine nicht-lineare Transformation um. Die Aktivierungsfunktion bestimmt, wie der Aktivierungszustand eines Neurons N von der Eingabe aller anderen Inputfaktoren, die mit diesem Neuron N  verbunden sind, abhängt.


Q:

Probleme mit Full-Batch- und dem Stochastic Gradient Descend Verfahren

A:

Beim Full-Batch nehmen wir alle Datenpunkte bei jedem Updateschritt.

Problem: Sehr langsam, aufgrund der hohen Anzahl an Datenpunkten in Deep Learning.


Beim Stochastic nehmen wir einen Datenpunkt bei jedem Updateschritt.

Problem: Einfach und Schnell, aber hat ein sehr hohe Varianz.



Q:

Problem mit Universal Approximation Theorem

A:

Wenn wir nur einen Hidden Layer haben, dann können diese sehr breit werden und eine zu hohe Anzahl an Neuronen haben.

Mehrere Hidden Layer führt zu einer effektiveren Darstellung, weil man weniger Parameter (Weights) zur approximativen benötigt.

Q:

AlexNET

A:

AlexNet ist viel tiefer als das vergleichsweise kleine LeNet5.

AlexNet besteht aus acht Schichten: 

  • fünf Faltungsschichten
  • zwei vollverknüpfte Hidden-Layer 
  • ein vollverknüpfter Output-Layer

Aktivierungsfunktion: ReLU 

Max-Pooling

Q:

Textdaten

A:

Textdaten gehören zu Sequenzdaten, weil sie in einer Reihenfolge sind.


Dokument Klassifikation (Roman oder Krimi)


Deep Learning

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Eine der Deep Learning Zusammenfassungen auf StudySmarter | Universität Hamburg

Tutorial 2:


Autograd:


Funktion gegeben:

Wie kann die Funktion minimiert werden, wenn wir bei X = 2.5 anfangen.

a) Plot von der Funktion erstellen mit X ∈ [-2.5, 2.5]𝑥∈[−2.5,


b) Berechne den Gradienten mit X = 2.5


requires_grad = True, damit wir uns den Gradienten merken wollen.

Wir bestimmen unseren Startpunkt bei X = 2.5 und berechnen unseren Gradienten.

Der Gradient ist dann bei 31.1704.


c) Bestimme das Minimum anhand des Gradient descend Verfahrens (Schrittgröße von 0.05 und 20 Schritte).


Erster Schritt: x_0 - Schrittweite x Gradient = x_1

    Gradient ist die Ableitung der Funktion. 

Der neue x_1 Wert muss immer wieder auf auf x_0 gesetzt werden, damit der Vorgang wiederholt werden kann.

Nach 20 Schritten erhalten wir durchs Minimieren den X Wert -0.8358.





d) Plot der Funktion mit allen einzelnen X Werten.

Gleich wie in Aufgabe c), nur das die einzelnen Schritte festgehalten werden.

So können diese Anschließend im Plot als Punkte angezeigt werden.





Softmax Regression:


Was ist die Softmax Regression?


Die Softmax Regression sagt uns neben der linearen Regression, die Wahrscheinlichkeit für eine Klasse an.

    K-Klassen

Wie hoch ist die Wahrscheinlichkeit, dass gegeben der X-Werte diese Klasse zugeordnet wurde.

Die finale Vorhersage ist die Klasse mit der höheren Wahrscheinlichkeit.



Oberer Teil der Funktion:

Für jede Klasse haben wir ein Weight w, die mit den X's multipliziert werden und mit einem Bias (Intercept) b addiert werden.

Das heißt für jede Klasse haben wir eine lineare Regression.


Die Softmax Funktion wandelt das in Werte zwischen 0 und 1 um, damit wir Wahrscheinlichkeiten haben.

Da man durch die Summe aller Funktionen teilt.


Welche Weights können wir jetzt finden, sodass die Wahrscheinlichkeiten gut zu den Daten passen die wir Beobachtet haben.


Schritte:


1. Als ersten werden zufällige Weights initialisiert in einer Normalverteilung und Unabhängigkeit voneinander. 

    Wie viele Weights brauch man insgesamt?


Für jede Klasse haben wir ein Gewicht und einen Bias mal die Anzahl der 

Anzahl Weights= K x (X+1) (Datenpunkte + Intercept) 

Beispiel:

Beispiel: K = 2, X = 30 Beobachtungen, Intecept = 1

Anzahl Weights = 2 x (30+1) = 62



3. Jetzt schauen wir was unser Modell mit unseren Zufällig gewählten Werten voraussagen würde. Wir haben einen Inputvektor der uns angibt,             was unser zufälliges Modell uns zurückgibt.



Linke Spalte: erstes Modell

Rechte Spalte: zweites Modell

Zeilen: Anzahl der Beobachtungen


4. Als nächstes soll die Softmaxfunktion implementiert werden.

Dadurch wird die Exponential Funktion auf das erste und Zweite Modell angewendet und jeweils durch die Summe beider Exponential Funktionen geteilt. 


Linke Spalte: Klasse 0
Rechte Spalte: Klasse 1

Zeilen: Anzahl der Beobachtungen

Die Werte sind Wahrscheinlichkeiten, dass eine die Beobachtung einer bestimmten Klasse zugeordnet wird.

Zeilen summieren sich somit zu 1.


5. Verwenden der Gewichte und  Softmaxfunktion, um eine Softmax-Regressionsfunktion zu definieren, die die geschätzten bedingten Wahrscheinlichkeiten für jede Klasse zurückgibt. Probieren Sie das Modell an den ersten drei Beobachtungen Ihres Trainingssatzes aus.




Für jede Beobachtung kriegen wir zwei Werte raus. Aufgrund der zwei Klassen (0, 1)

Um das in Wahrscheinlichkeiten umzuwandeln wenden wir die vorher definierte Softmaxfunktion an.

Werte zeigen das die Wahrscheinlichkeit sehr hoch ist, dass die drei Beobachtungen zur Klasse 0 gehören.


7. Wie würde Ihre endgültige Vorhersage nach diesen Wahrscheinlichkeiten aussehen (für die Implementierung könnte torch.max, siehe Dokumentation, hilfreich sein)? Wie sehen die wahren Beschriftungen aus (zum Vergleich beider verwenden Sie torch.eq)?



Vorhersage wäre für die drei Beobachtungen:

Klasse 0, 0, 0

Wie sehen die tatsächlichen Werte aus:

Klasse 1, 0, 1


Wie viele Werte wurden richtig klassifiziert:

Vergleich zwischen vorgesagten und tatsächlichen Werten.


Das wird jetzt für alle Werte gemacht:



8. Bewerten Sie das Zufallsmodell auf Ihrer Trainings- und Testmenge, indem Sie die Genauigkeit (Anteil der richtigen Vorhersagen) auswerten.

Modell 1: 37.0892 % Genauigkeit

Modell 2: 37.7622 % Genauigkeit 



Cross-Entropy



1. Beachten Sie, dass das Ergebnis nicht in One-Hot-Codierung (wie in der Formel) kodiert ist. Dies könnte hilfreich sein, um den Verlust prägnant zu implementieren. Tipp:


Drei Datenpunkte werden als Wahrscheinlichkeiten geschätzt.

Die zwei Werte geben die Wahrscheinlichkeiten an, das der Datenpunkt zu Klasse 0 oder 1 gehört.

Um den Verlust zu berechnen benötigt man die Wahrscheinlichkeit der wahren Klasse.

Also 0.3, 0.5 und 0.8


Verlust:

log(0.3), log(0.5) und log (0.8)

Das Ergebnis unten gibt den Verlust an.



2. Versuchen Sie als nächstes, den durchschnittlichen Verlust für die Trainingsstichprobe zu berechnen


Durchschnittlicher Verlust für das gesamt Modell:


3. Berechnen Sie den Gradienten, um den Gradienten der Weights zu erhalten und aktualisieren Sie die Weights mit der Lernrate 0,01 . Hier brauchen wir den stochastischen Gradientenabstieg nicht zu verwenden, da die Stichprobe recht klein ist.



4. Versuchen Sie, neue Wahrscheinlichkeiten 𝑦̂ für die Trainingsbeobachtungen vorherzusagen. Was geht schief? (hängt ein wenig von der Initialisierung ab).


nan ist ein Fehler. nan = not a number 

Da wir Exponentialfunktion anwenden um daraus Wahrscheinlichkeiten zu machen und dann den Logarithmus um den Verlust zu berechnen kriegen wir numerische Probleme.


5. Kombinieren sie die Softmaxfunktion und die Cross-Entropy-Funtkion


Softmax macht aus den x-Werten Wahrscheinlichkeiten für K-Klassen.

y ist die wahre Klasse.   

Crossentropy berechnet den Verlust von der Wahrscheinlichkeit der wahren Klasse.

Durch die Rechenschritte Erhalten eine Approximation des Verlusts der ziemlich nah dran ist.







Deep Learning

Diese Zusammenfassung wurde von Kommilitonen erstellt

Entdecke mehr

Das sind die beliebtesten Deep Learning Kurse im gesamten StudySmarter Universum

E-Learning

Universität Würzburg

Zum Kurs
E-Learning

Universität Würzburg

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Deep Learning
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Deep Learning