ADP & RL an der TU München

CitySTADT: Augsburg

CountryLAND: Deutschland

Kommilitonen im Kurs ADP & RL an der TU München erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp.

Schaue jetzt auf StudySmarter nach, welche Lernmaterialien bereits für deine Kurse von deinen Kommilitonen erstellt wurden. Los geht’s!

Kommilitonen im Kurs ADP & RL an der TU München erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp.

Schaue jetzt auf StudySmarter nach, welche Lernmaterialien bereits für deine Kurse von deinen Kommilitonen erstellt wurden. Los geht’s!

Lerne jetzt mit Karteikarten und Zusammenfassungen für den Kurs ADP & RL an der TU München.

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How does optimistic PI differ from regular PI?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are problems with projected equations?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the characteristics of the monotonicity property?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are disadvantages of Q?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

Name one advantage and one disadvantage of aggregation.

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How do we ensure the boundedness of the value function for infinite horizon problems?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the properties of the Bellman operator?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the optimality condition?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the constant shift property important?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

When do VI and PI terminate?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are characteristics of contraction mappings?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is one issue of simulation-based PI? And how do you solve it?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

ADP & RL

How does optimistic PI differ from regular PI?
The policy evaluation step is different: The value function for the policy gets computed approximately (apply finite number of T^k).
Policy iteration stays the same.
It converges to the optimal policy much faster

ADP & RL

What are problems with projected equations?
– Norm mismatch, the projection has to be a contraction with respect to the same distribution (not just non- expansive)
– Matrix inversion not accurate for ill conditioned matrices

ADP & RL

What are the characteristics of the monotonicity property?
It implies the optimality of J*
J* = min J_mu

ADP & RL

What are disadvantages of Q?
– Greater dimension -> more storage
– difficulty to compute different components

ADP & RL

Name one advantage and one disadvantage of aggregation.
+ no oscillations: solution with aggregate states solved exactly)
– aggregation and disaggregation probabilities must be probability distributions (no arbitrary features) -> restriction

ADP & RL

How do we ensure the boundedness of the value function for infinite horizon problems?
add a discount factor gamma (geometric series -> 1/(1-gamma)) and make reward function bounded |g(..)| <=M

ADP & RL

What are the properties of the Bellman operator?
– Monotonicity
– Constant shift
– Contraction

ADP & RL

What is the optimality condition?
A stationary policy is optimal if and only if it attains the minimum of Bellman’s equation

ADP & RL

What is the constant shift property important?
Monotonicity and contraction only hold, if constant shift property holds
also relevant for error bounds

ADP & RL

When do VI and PI terminate?
VI usually requires an infinite number of iterations
PI terminates after a finite number of steps (because there is a finite number of policies for a finite number of states)

ADP & RL

What are characteristics of contraction mappings?
– They have a unique fixed point J* that satisfies: J*=TJ*
– T^k converges to J* for k->inf

ADP & RL

What is one issue of simulation-based PI? And how do you solve it?
inadequate exploration: generating cost samples using the policy might bias the simulations and underrepresent some states.
Two possibilities:
– Break down the simulation into multiple short trajectories to have different initial states
– artificially induce extra randomization
Gradient

Melde dich jetzt kostenfrei an um alle Karteikarten und Zusammenfassungen für ADP & RL an der TU München zu sehen

Singup Image Singup Image

Andere Kurse aus deinem Studiengang

Für deinen Studiengang an der TU München gibt es bereits viele Kurse auf StudySmarter, denen du beitreten kannst. Karteikarten, Zusammenfassungen und vieles mehr warten auf dich.

Zurück zur TU München Übersichtsseite

Was ist StudySmarter?

Was ist StudySmarter?

StudySmarter ist eine intelligente Lernapp für Studenten. Mit StudySmarter kannst du dir effizient und spielerisch Karteikarten, Zusammenfassungen, Mind-Maps, Lernpläne und mehr erstellen. Erstelle deine eigenen Karteikarten z.B. für an der TU München oder greife auf tausende Lernmaterialien deiner Kommilitonen zu. Egal, ob an deiner Uni oder an anderen Universitäten. Hunderttausende Studierende bereiten sich mit StudySmarter effizient auf ihre Klausuren vor. Erhältlich auf Web, Android & iOS. Komplett kostenfrei. Keine Haken.

StudySmarter Flashcard App and Karteikarten App
d

4.5 /5

d

4.8 /5

So funktioniert StudySmarter

Individueller Lernplan

Bereite dich rechtzeitig auf all deine Klausuren vor. StudySmarter erstellt dir deinen individuellen Lernplan, abgestimmt auf deinen Lerntyp und Vorlieben.

Erstelle Karteikarten

Erstelle dir Karteikarten in wenigen Sekunden mit Hilfe von effizienten Screenshot-, und Markierfunktionen. Maximiere dein Lernverständnis mit unserem intelligenten StudySmarter Trainer.

Erstelle Zusammenfassungen

Markiere die wichtigsten Passagen in deinen Dokumenten und StudySmarter erstellt dir deine Zusammenfassung. Ganz ohne Mehraufwand.

Lerne alleine oder im Team

StudySmarter findet deine Lerngruppe automatisch. Teile Karteikarten und Zusammenfassungen mit deinen Kommilitonen und erhalte Antworten auf deine Fragen.

Statistiken und Feedback

Behalte immer den Überblick über deinen Lernfortschritt. StudySmarter zeigt dir genau was du schon geschafft hast und was du dir noch ansehen musst, um deine Traumnote zu erreichen.

1

Individueller Lernplan

2

Erstelle Karteikarten

3

Erstelle Zusammenfassungen

4

Lerne alleine oder im Team

5

Statistiken und Feedback

Nichts für dich dabei?

Kein Problem! Melde dich kostenfrei auf StudySmarter an und erstelle deine individuellen Karteikarten und Zusammenfassungen für deinen Kurs ADP & RL an der TU München - so schnell und effizient wie noch nie zuvor.