ADP & RL

Arrow Arrow

Komplett kostenfrei

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

Lerne jetzt mit Karteikarten und Zusammenfassungen für den Kurs ADP & RL an der TU München.

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are Stochastic Approximation algorithms?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

Explain Monte Carlo PI

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the motivation for Value Function Approximation?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the motivation for off-policy learning?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

Does TD learning work both on VI and PI?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is the policy improvement theorem?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

Name two algorithms based on Monte Carlo Estimation.

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How does VI with Linear Value Function Approximation work?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

How do you estimate the target policy from the behavior policy?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What is expected SARSA?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

By which law are Monte Carlo methods justified?

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

What are the key components of Monte Carlo methods?

Kommilitonen im Kurs ADP & RL an der TU München. erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp. Jetzt mitmachen!

Jetzt mitmachen!

Flashcard Flashcard

Beispielhafte Karteikarten für ADP & RL an der TU München auf StudySmarter:

ADP & RL

What are Stochastic Approximation algorithms?
Root finding problems that are used when the data is noisy. The function is represented as an expected value

ADP & RL

Explain Monte Carlo PI
In policy evaluation compute the mean (iteratively) instead of the expectation
Perform policy improvement as usual

ADP & RL

What is the motivation for Value Function Approximation?
Curse of dimensionality: There are too many states and actions to store in memory, and it would be too slow to learn the value for each state individually

ADP & RL

What is the motivation for off-policy learning?
Learn about a policy (target policy) from experience sampled from another one (behavior policy)

ADP & RL

Does TD learning work both on VI and PI?
It only works with PI (just sample in policy evaluation step),
doesn’t work with VI (impossible to sample minimization of expectation)

ADP & RL

What is the policy improvement theorem?
The policy improvement step returns either a strictly improved policy or the optimal one

ADP & RL

Name two algorithms based on Monte Carlo Estimation.
LSTD, LSPE

ADP & RL

How does VI with Linear Value Function Approximation work?
minimizes the error of the estimated value function to the optimal one (direct) or to the optimal Bellman equation (indirectly)

ADP & RL

How do you estimate the target policy from the behavior policy?
by importance sampling

ADP & RL

What is expected SARSA?
It used the expectation over different samples from the target policy

ADP & RL

By which law are Monte Carlo methods justified?
The law of large numbers: the mean over a large number of samples is the expected value

ADP & RL

What are the key components of Monte Carlo methods?
– Define a domain of possible inputs
– Generate inputs randomly from a probability distribution over the domain
– Perform a deterministic computation on the inputs
– Aggregate the results

Melde dich jetzt kostenfrei an um alle Karteikarten und Zusammenfassungen für ADP & RL an der TU München zu sehen

Singup Image Singup Image
Wave

Andere Kurse aus deinem Studiengang

Für deinen Studiengang an der TU München gibt es bereits viele Kurse auf StudySmarter, denen du beitreten kannst. Karteikarten, Zusammenfassungen und vieles mehr warten auf dich.

Zurück zur TU München Übersichtsseite

Was ist StudySmarter?

Was ist StudySmarter?

StudySmarter ist eine intelligente Lernapp für Studenten. Mit StudySmarter kannst du dir effizient und spielerisch Karteikarten, Zusammenfassungen, Mind-Maps, Lernpläne und mehr erstellen. Erstelle deine eigenen Karteikarten z.B. für ADP & RL an der TU München oder greife auf tausende Lernmaterialien deiner Kommilitonen zu. Egal, ob an deiner Uni oder an anderen Universitäten. Hunderttausende Studierende bereiten sich mit StudySmarter effizient auf ihre Klausuren vor. Erhältlich auf Web, Android & iOS. Komplett kostenfrei. Keine Haken.

Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards
Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards

So funktioniert's

Top-Image

Individueller Lernplan

StudySmarter erstellt dir einen individuellen Lernplan, abgestimmt auf deinen Lerntyp.

Top-Image

Erstelle Karteikarten

Erstelle dir Karteikarten mit Hilfe der Screenshot-, und Markierfunktion, direkt aus deinen Inhalten.

Top-Image

Erstelle Zusammenfassungen

Markiere die wichtigsten Passagen in deinen Dokumenten und bekomme deine Zusammenfassung.

Top-Image

Lerne alleine oder im Team

StudySmarter findet deine Lerngruppe automatisch. Teile deine Lerninhalte mit Freunden und erhalte Antworten auf deine Fragen.

Top-Image

Statistiken und Feedback

Behalte immer den Überblick über deinen Lernfortschritt. StudySmarter führt dich zur Traumnote.

1

Lernplan

2

Karteikarten

3

Zusammenfassungen

4

Teamwork

5

Feedback