Conseils d'action tenant compte de l'incertitude pour les agents d'apprentissage par renforcement profond

Bien que l'apprentissage par renforcement (RL) soit l'une des approches les plus efficaces pour l'apprentissage dans les problèmes de prise de décision séquentielle, la complexité des échantillons des techniques RL représente toujours un défi majeur pour les applications pratiques. Pour relever ce défi, lorsqu'une politique compétente (par exemple, un système existant ou un démonstrateur humain) est disponible, l'agent peut tirer parti des échantillons de cette politique (conseils) pour améliorer l'efficacité des échantillons. Cependant, les conseils sont normalement limités, et devraient donc idéalement être dirigés vers les états où l'agent est incertain de la meilleure action à exécuter. Dans ce travail, nous proposons le Requesting Confidence-Moderated Policy advice (RCMP), un cadre de conseil d'action où l'agent demande conseil lorsque son incertitude épistémique est élevée pour un certain état. RCMP prend en compte le fait que les conseils sont limités et peuvent être sous-optimaux. Nous décrivons également une technique permettant d'estimer l'incertitude de l'agent en apportant des modifications mineures aux méthodes RL standard basées sur les fonctions de valeur. Nos évaluations empiriques montrent que RCMP donne de meilleurs résultats que l'Importance Advising, le fait de ne pas recevoir de conseils et le fait d'en recevoir à des états aléatoires dans les scénarios Gridworld et Atari Pong.

Conseils d'action tenant compte de l'incertitude pour les agents d'apprentissage par renforcement profond

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle