Apprentissage et planification de la récompense moyenne avec options

Résumé :

Nous étendons le cadre des options pour l'abstraction temporelle dans l'apprentissage par renforcement des processus de décision de Markov (PDM) actualisés aux PDM à récompense moyenne. Nos contributions comprennent des algorithmes généraux convergents d'apprentissage inter-options hors politique, des algorithmes intra-options pour l'apprentissage de valeurs et de modèles, ainsi que des variantes de planification par échantillonnage de nos algorithmes d'apprentissage. Nos algorithmes et nos preuves de convergence étendent ceux récemment développés par Wan, Naik et Sutton. Nous étendons également la notion de comportement d'interruption de l'option de la formulation avec remise à la formulation avec récompense moyenne. Nous démontrons l'efficacité des algorithmes proposés par des expériences sur une version continue du domaine des quatre pièces.

Apprentissage et planification de la récompense moyenne avec options

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle