Poste de recherche

Gradients de politique incrémentale pour le contrôle par apprentissage par renforcement en ligne

Résumé

Les méthodes de gradient de politique reposent sur le théorème du gradient de politique, qui implique un terme représentant la somme complète des récompenses dans le futur : le rendement. Pour cette raison, on attend généralement la fin d'un épisode avant d'effectuer des mises à jour, ou on apprend une estimation de ce rendement - ce qu'on appelle une critique. Dans ce travail, nous mettons l'accent sur la première approche, en détaillant une mise à jour incrémentale du gradient de politique qui n'attend pas la fin de l'épisode et ne repose pas sur l'apprentissage d'estimations du retour. Nous fournissons des variantes avec et sans politique de notre algorithme, à la fois pour le rendement actualisé et la récompense moyenne. Sur le plan théorique, nous établissons un lien entre les traces que nos méthodes utilisent et les distributions stationnaires des paramètres d'actualisation et de récompense moyenne. Nous concluons par une évaluation expérimentale de nos méthodes sur des domaines à la fois simples à comprendre et complexes.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !