ADP & RL an der TU München

Karteikarten und Zusammenfassungen für ADP & RL an der TU München

Arrow Arrow

Komplett kostenfrei

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

Lerne jetzt mit Karteikarten und Zusammenfassungen für den Kurs ADP & RL an der TU München.

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is MDP and how is it defined?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the principle of optimality for finite horizon problems?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How do we ensure the boundedness of the value function for infinite horizon problems?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the properties of the Bellman operator?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

When do VI and PI terminate?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the optimality condition?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are characteristics of contraction mappings?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the characteristics of the monotonicity property?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the constant shift property important?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How does optimistic PI differ from regular PI?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is one issue of simulation-based PI? And how do you solve it?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the advantages of Dynamic Programming (as opposed to optimization algorithms)?

Kommilitonen im Kurs ADP & RL an der TU München. erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp. Jetzt mitmachen!

Jetzt mitmachen!

Flashcard Flashcard

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

ADP & RL

What is MDP and how is it defined?
Markov decision process, a tuple {S, A, p, g, T} states, actions, transition probabilities, reward function, finite horizon

ADP & RL

What is the principle of optimality for finite horizon problems?
A policy is optimal if and only if all future tail problems are optimal.

ADP & RL

How do we ensure the boundedness of the value function for infinite horizon problems?
add a discount factor \gamma (geometric series -> 1/(1-\gamma)) and make reward function bounded |g(..)| <=M

ADP & RL

What are the properties of the Bellman operator?
- Monotonicity - Constant shift - Contraction

ADP & RL

When do VI and PI terminate?
VI usually requires an infinite number of iterations PI terminates after a finite number of steps (because there is a finite number of policies for a finite number of states)

ADP & RL

What is the optimality condition?
A stationary policy is optimal if and only if it attains the minimum of Bellman's equation

ADP & RL

What are characteristics of contraction mappings?
- They have a unique fixed point J* that satisfies: J*=TJ* - T^k converges to J* for k->inf

ADP & RL

What are the characteristics of the monotonicity property?
It implies the optimality of J* J* = min J_mu

ADP & RL

What is the constant shift property important?
Monotonicity and contraction only hold, if constant shift property holds also relevant for error bounds

ADP & RL

How does optimistic PI differ from regular PI?
The policy evaluation step is different: The value function for the policy gets computed approximately (apply finite number of T^k). Policy iteration stays the same. It converges to the optimal policy much faster

ADP & RL

What is one issue of simulation-based PI? And how do you solve it?
inadequate exploration: generating cost samples using the policy might bias the simulations and underrepresent some states. Two possibilities: - Break down the simulation into multiple short trajectories to have different initial states - artificially induce extra randomization

ADP & RL

What are the advantages of Dynamic Programming (as opposed to optimization algorithms)?
DP divides problems into sub problems and solves each one separately.

Melde dich jetzt kostenfrei an um alle Karteikarten und Zusammenfassungen für ADP & RL an der TU München zu sehen

Singup Image Singup Image
Wave

Andere Kurse aus deinem Studiengang

Für deinen Studiengang ADP & RL an der TU München gibt es bereits viele Kurse auf StudySmarter, denen du beitreten kannst. Karteikarten, Zusammenfassungen und vieles mehr warten auf dich.

Zurück zur TU München Übersichtsseite

Was ist StudySmarter?

Was ist StudySmarter?

StudySmarter ist eine intelligente Lernapp für Studenten. Mit StudySmarter kannst du dir effizient und spielerisch Karteikarten, Zusammenfassungen, Mind-Maps, Lernpläne und mehr erstellen. Erstelle deine eigenen Karteikarten z.B. für ADP & RL an der TU München oder greife auf tausende Lernmaterialien deiner Kommilitonen zu. Egal, ob an deiner Uni oder an anderen Universitäten. Hunderttausende Studierende bereiten sich mit StudySmarter effizient auf ihre Klausuren vor. Erhältlich auf Web, Android & iOS. Komplett kostenfrei. Keine Haken.

Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards
Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards

So funktioniert's

Top-Image

Individueller Lernplan

StudySmarter erstellt dir einen individuellen Lernplan, abgestimmt auf deinen Lerntyp.

Top-Image

Erstelle Karteikarten

Erstelle dir Karteikarten mit Hilfe der Screenshot-, und Markierfunktion, direkt aus deinen Inhalten.

Top-Image

Erstelle Zusammenfassungen

Markiere die wichtigsten Passagen in deinen Dokumenten und bekomme deine Zusammenfassung.

Top-Image

Lerne alleine oder im Team

StudySmarter findet deine Lerngruppe automatisch. Teile deine Lerninhalte mit Freunden und erhalte Antworten auf deine Fragen.

Top-Image

Statistiken und Feedback

Behalte immer den Überblick über deinen Lernfortschritt. StudySmarter führt dich zur Traumnote.

1

Lernplan

2

Karteikarten

3

Zusammenfassungen

4

Teamwork

5

Feedback