Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Reinforcement Learning Kurs an der University of Zurich zu.
value function
Agent
Environment
Reward
Task
RL methods aim
RL methods aim to maximize the expected return.
Markov property
A state signal that encodes all relevant information from past interactions with the environment (including past states, actions and received rewards)
Markov Decision Process:
A reinforcement learning task that fulfills the Markov property
The Bellman Equations
Express the recursive properties of value functions
Bandit problems:
Special case of the reinforcement learning problem: single state
Exploration-Exploitation trade-off
Whether it is better to explore or exploit depends on:
Balancing exploitation and exploration
Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.
Jetzt loslegen