Poste de recherche

Caractériser l'écart entre l'acteur-critique et le gradient politique

Résumé :

Les méthodes d'acteur-critique (AC) sont omniprésentes dans l'apprentissage par renforcement. Bien qu'il soit entendu que les méthodes AC sont étroitement liées au gradient de politique (PG), leur lien précis n'a pas été entièrement caractérisé auparavant. Dans cet article, nous expliquons l'écart entre les méthodes AC et PG en identifiant l'ajustement exact de l'objectif/du gradient AC qui permet de retrouver le véritable gradient de politique de l'objectif de récompense cumulative (PG). En outre, en considérant la méthode AC comme un jeu de Stackelberg à deux joueurs entre l'acteur et le critique, nous montrons que le gradient de la politique de Stackelberg peut être récupéré comme un cas particulier de notre analyse plus générale. Sur la base de ces résultats, nous développons des algorithmes pratiques, Acteur-Critique Résiduel et Acteur-Critique de Stackelberg, pour estimer la correction entre AC et PG et nous les utilisons pour modifier l'algorithme AC standard. Des expériences sur des environnements tabulaires et continus populaires montrent que les corrections proposées peuvent améliorer à la fois l'efficacité de l'échantillon et la performance finale des méthodes AC existantes.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !