Révision du Q(λ) de Peng pour l'apprentissage par renforcement moderne

Résumé :

Les algorithmes d'apprentissage par renforcement multi-étapes hors politique se composent d'algorithmes conservateurs et non-conservateurs : les premiers coupent activement les traces, tandis que les seconds ne le font pas. Récemment, Munos et al. (2016) ont prouvé la convergence des algorithmes conservateurs vers une fonction Q optimale. En revanche, les algorithmes non-conservatifs sont considérés comme peu sûrs et n'ont qu'une garantie théorique limitée, voire nulle. Néanmoins, des études récentes ont montré que les algorithmes non-conservatifs surpassent empiriquement les algorithmes conservateurs. Motivés par les résultats empiriques et le manque de théorie, nous effectuons des analyses théoriques de Q(λ) de Peng, un exemple représentatif des algorithmes non-conservatifs. Nous prouvons qu'il converge également vers une politique optimale à condition que la politique de comportement suive lentement une politique avide d'une manière similaire à l'itération de la politique conservatrice. Un tel résultat a été conjecturé comme vrai mais n'a pas été prouvé. Nous expérimentons également la Q(λ) de Peng dans des tâches complexes de contrôle continu, confirmant que la Q(λ) de Peng surpasse souvent les algorithmes conservateurs malgré sa simplicité. Ces résultats indiquent que le Q(λ) de Peng, que l'on croyait peu sûr, est un algorithme théoriquement solide et pratiquement efficace.

Révision du Q(λ) de Peng pour l'apprentissage par renforcement moderne

Résumé :

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle