Apprentissage par renforcement : processus de décision de Markov (partie 1)

#InsideRL
La relation agent-environnement
La propriété de Markov
Processus de Markov ou chaînes de Markov
Récompense et retours
Processus de récompense de Markov
Processus de décision de Markov
Fonction de politique et fonction de valeur
Équation de Bellman pour la fonction de valeur
Fonction de valeur d’état-action ou fonction Q

#InsideRL

Dans un problème typique d’apprentissage par renforcement (RL), il y a un apprenant et un décideur appelé agent et l’environnement avec lequel il interagit est appelé environnement. L’environnement, en retour, fournit des récompenses et un nouvel état en fonction des actions de l’agent. Ainsi, dans l’apprentissage par renforcement, nous n’enseignons pas à un agent comment il doit faire quelque chose, mais nous lui offrons des récompenses, positives ou négatives, en fonction de ses actions. La question fondamentale de ce blog est donc de savoir comment formuler mathématiquement un problème en apprentissage par renforcement. C’est là que le processus de décision de Markov (MDP) entre en jeu.