[UA] NaUKMA RL Spring '24, Lecture 2 - RL Algorithms

Name: [UA] NaUKMA RL Spring '24, Lecture 2 - RL Algorithms
Uploaded: 2024-04-23T17:50:29+03:00
Duration: 1 h 18 min 18 s
Description: [UA] NaUKMA RL Spring '24, Lecture 2 - RL Algorithms

Markov Chain, MDP, Bellman, Q-function, value function, off-policy, on-policy, model-based, policy gradients, actor-critic, exploration-exploitation, k-armed bandits, eps-greedy, optimistic greedy, UCB, gradient bandits.