Poste de recherche

Révision du Q(λ) de Peng pour l'apprentissage par renforcement moderne

Résumé :

Les algorithmes d'apprentissage par renforcement multi-étapes hors politique se composent d'algorithmes conservateurs et non-conservateurs : les premiers coupent activement les traces, tandis que les seconds ne le font pas. Récemment, Munos et al. (2016) ont prouvé la convergence des algorithmes conservateurs vers une fonction Q optimale. En revanche, les algorithmes non-conservatifs sont considérés comme peu sûrs et n'ont qu'une garantie théorique limitée, voire nulle. Néanmoins, des études récentes ont montré que les algorithmes non-conservatifs surpassent empiriquement les algorithmes conservateurs. Motivés par les résultats empiriques et le manque de théorie, nous effectuons des analyses théoriques de Q(λ) de Peng, un exemple représentatif des algorithmes non-conservatifs. Nous prouvons qu'il converge également vers une politique optimale à condition que la politique de comportement suive lentement une politique avide d'une manière similaire à l'itération de la politique conservatrice. Un tel résultat a été conjecturé comme vrai mais n'a pas été prouvé. Nous expérimentons également la Q(λ) de Peng dans des tâches complexes de contrôle continu, confirmant que la Q(λ) de Peng surpasse souvent les algorithmes conservateurs malgré sa simplicité. Ces résultats indiquent que le Q(λ) de Peng, que l'on croyait peu sûr, est un algorithme théoriquement solide et pratiquement efficace.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !