Institut de l'intelligence artificielle de l'Alberta

Centrage sur la récompense

Publié

30 octobre 2024

Résumé

Nous montrons que les méthodes d'actualisation pour résoudre les problèmes d'apprentissage par renforcement continu peuvent être nettement plus performantes si elles centrent leurs récompenses en soustrayant la moyenne empirique des récompenses. L'amélioration est substantielle pour les facteurs d'actualisation couramment utilisés et augmente encore lorsque le facteur d'actualisation s'approche de un. En outre, nous montrons que si les récompenses d'un problème sont décalées d'une constante, les méthodes standard obtiennent de bien moins bons résultats, alors que les méthodes avec centrage des récompenses ne sont pas affectées. L'estimation de la récompense moyenne est simple dans le cadre d'une politique ; nous proposons une méthode légèrement plus sophistiquée pour le cadre hors politique. Le centrage de la récompense est une idée générale, et nous pensons donc que presque tous les algorithmes d'apprentissage par renforcement bénéficieront de l'ajout du centrage de la récompense.

Auteurs

Abhishek Naik

Yi Wan

Manan Tomar

Richard S. Sutton

Partager