Poste de recherche

Apprentissage et planification de la récompense moyenne avec options

Résumé :

Nous étendons le cadre des options pour l'abstraction temporelle dans l'apprentissage par renforcement des processus de décision de Markov (PDM) actualisés aux PDM à récompense moyenne. Nos contributions comprennent des algorithmes généraux convergents d'apprentissage inter-options hors politique, des algorithmes intra-options pour l'apprentissage de valeurs et de modèles, ainsi que des variantes de planification par échantillonnage de nos algorithmes d'apprentissage. Nos algorithmes et nos preuves de convergence étendent ceux récemment développés par Wan, Naik et Sutton. Nous étendons également la notion de comportement d'interruption de l'option de la formulation avec remise à la formulation avec récompense moyenne. Nous démontrons l'efficacité des algorithmes proposés par des expériences sur une version continue du domaine des quatre pièces.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !