Au-delà de la réduction de la variance : Comprendre le véritable impact des bases de référence sur l'optimisation des politiques

Résumé :

Les problèmes de bandit et d'apprentissage par renforcement (RL) peuvent souvent être formulés comme des problèmes d'optimisation où le but est de maximiser la performance moyenne tout en n'ayant accès qu'à des estimations stochastiques du véritable gradient. Traditionnellement, la théorie de l'optimisation stochastique prédit que la dynamique d'apprentissage est régie par la courbure de la fonction de perte et le bruit des estimations du gradient. Dans cet article, nous démontrons que ce n'est pas le cas pour les problèmes de bandit et de RL. Pour que notre analyse puisse être interprétée à la lumière des PDM à étapes multiples, nous nous concentrons sur les techniques dérivées des principes d'optimisation stochastique (par exemple, le gradient de politique naturelle et EXP3) et nous montrons que certaines hypothèses standard de la théorie de l'optimisation sont violées dans ces problèmes. Nous présentons des résultats théoriques montrant que, au moins pour les problèmes de bandit, la courbure et le bruit ne sont pas suffisants pour expliquer la dynamique d'apprentissage et que des choix apparemment inoffensifs comme la ligne de base peuvent déterminer si un algorithme converge. Ces résultats théoriques correspondent à notre évaluation empirique, que nous étendons aux MDPs multi-états.

Au-delà de la réduction de la variance : Comprendre le véritable impact des bases de référence sur l'optimisation des politiques

Résumé :

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle