Résumé
La prédiction hors politique, c'est-à-dire l'apprentissage de la fonction de valeur d'une politique à partir de données générées en suivant une autre politique, est l'un des problèmes les plus difficiles de l'apprentissage par renforcement. Cet article apporte deux contributions principales : 1) il étudie empiriquement 11 algorithmes d'apprentissage de prédiction hors politique en mettant l'accent sur leur sensibilité aux paramètres, leur vitesse d'apprentissage et leur erreur asymptotique et 2) sur la base des résultats empiriques, il propose deux méthodes d'adaptation de la taille du pas appelées Step-size Ratchet et Soft Step-size Ratchet qui aident l'algorithme ayant l'erreur la plus faible de l'étude expérimentale à apprendre plus rapidement. De nombreux algorithmes d'apprentissage de prédiction hors politique ont été proposés au cours de la dernière décennie, mais on ne sait toujours pas quels algorithmes apprennent plus vite que les autres. Dans cet article, nous comparons empiriquement 11 algorithmes d'apprentissage de prédiction hors politique avec approximation de fonction linéaire sur trois petites tâches : la tâche Collision, la tâche Chambres et la tâche Chambres à variance élevée. La tâche Collision est un petit problème hors politique analogue à celui d'une voiture autonome essayant de prédire si elle va entrer en collision avec un obstacle. Les tâches Rooms et High Variance Rooms sont conçues de telle sorte qu'il est difficile d'apprendre rapidement. Dans la tâche Rooms, le produit des ratios d'échantillonnage d'importance peut atteindre 214. Pour contrôler la variance élevée causée par le produit des ratios d'échantillonnage d'importance, la taille du pas doit être réduite, ce qui ralentit l'apprentissage. La tâche "High Variance Rooms" est plus extrême dans la mesure où le produit des ratios peut atteindre 2 14 × 25. Les algorithmes pris en compte sont le TD(λ) hors politique, cinq algorithmes Gradient-TD, deux algorithmes Emphatic-TD, Vtrace et des variantes de Tree Backup et ABQ applicables à la prédiction. Nous avons constaté que les performances des algorithmes sont fortement affectées par la variance induite par les ratios d'échantillonnage d'importance. Tree Backup(λ), Vtrace(λ) et ABTD(ζ ) ne sont pas autant affectés par la variance élevée que les autres algorithmes, mais ils limitent le paramètre de bootstrapping effectif d'une manière qui est trop restrictive pour les tâches où la variance élevée n'est pas présente. Nous avons observé que Emphatic TD(λ) tend à avoir une erreur asymptotique plus faible que les autres algorithmes, mais qu'il peut apprendre plus lentement dans certains cas. Sur la base des résultats empiriques, nous proposons deux algorithmes d'adaptation de la taille du pas, que nous appelons collectivement les algorithmes Ratchet, avec la même idée sous-jacente : garder le paramètre de taille du pas aussi grand que possible et le réduire uniquement lorsque c'est nécessaire pour éviter le dépassement. Nous montrons que les algorithmes Ratchet sont efficaces en les comparant à d'autres algorithmes populaires d'adaptation de la taille des pas, tels que l'optimiseur Adam.