Au-delà du rejeu priorisé : Échantillonnage d'états dans le RL basé sur un modèle via des priorités simulées

L'apprentissage par renforcement basé sur un modèle (MBRL) peut améliorer de manière significative l'efficacité de l'échantillonnage, notamment en choisissant soigneusement les états à partir desquels échantillonner les transitions hypothétiques. Il a été démontré empiriquement qu'une telle hiérarchisation est utile à la fois pour le rejeu d'expérience (ER) et la planification de type Dyna. Cependant, il y a encore peu de compréhension théorique en RL sur ces stratégies de priorisation, et pourquoi elles sont utiles. Dans ce travail, nous revisitons l'ER priorisé et, dans un cadre idéal, nous montrons une équivalence avec la minimisation de la perte cubique, ce qui donne un aperçu théorique de la raison pour laquelle cette stratégie est meilleure que l'échantillonnage uniforme. Ce cadre idéal ne peut toutefois pas être réalisé en pratique, en raison d'une couverture insuffisante de l'espace d'échantillonnage et de priorités obsolètes des échantillons d'entraînement. C'est ce qui motive notre approche basée sur un modèle, qui ne souffre pas de ces limitations. Notre idée principale est de rechercher activement les états de haute priorité en utilisant l'ascension du gradient. Sous certaines conditions, nous prouvons que la distribution des expériences hypothétiques générées à partir de ces états fournit un ensemble diversifié d'états, échantillonnés proportionnellement aux priorités approximativement vraies. Nos expériences dans des domaines de référence et d'application montrent que notre approche obtient des performances supérieures à la fois à la méthode ER priorisée sans modèle et à plusieurs autres méthodes de base basées sur des modèles.

Au-delà du rejeu priorisé : Échantillonnage d'états dans le RL basé sur un modèle via des priorités simulées

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle