Poste de recherche

Au-delà de la réduction de la variance : Comprendre le véritable impact des bases de référence sur l'optimisation des politiques

Résumé :

Les problèmes de bandit et d'apprentissage par renforcement (RL) peuvent souvent être formulés comme des problèmes d'optimisation où le but est de maximiser la performance moyenne tout en n'ayant accès qu'à des estimations stochastiques du véritable gradient. Traditionnellement, la théorie de l'optimisation stochastique prédit que la dynamique d'apprentissage est régie par la courbure de la fonction de perte et le bruit des estimations du gradient. Dans cet article, nous démontrons que ce n'est pas le cas pour les problèmes de bandit et de RL. Pour que notre analyse puisse être interprétée à la lumière des PDM à étapes multiples, nous nous concentrons sur les techniques dérivées des principes d'optimisation stochastique (par exemple, le gradient de politique naturelle et EXP3) et nous montrons que certaines hypothèses standard de la théorie de l'optimisation sont violées dans ces problèmes. Nous présentons des résultats théoriques montrant que, au moins pour les problèmes de bandit, la courbure et le bruit ne sont pas suffisants pour expliquer la dynamique d'apprentissage et que des choix apparemment inoffensifs comme la ligne de base peuvent déterminer si un algorithme converge. Ces résultats théoriques correspondent à notre évaluation empirique, que nous étendons aux MDPs multi-états.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !