Maximiser le gain d'information dans des environnements partiellement observables via la récompense de prédiction

Résumé

La collecte d'informations dans un environnement partiellement observable peut être formulée comme un problème d'apprentissage par renforcement (RL), où la récompense dépend de l'incertitude de l'agent. Par exemple, la récompense peut être l'entropie négative de la croyance de l'agent sur une variable inconnue (ou cachée). Généralement, les récompenses d'un agent RL sont définies en fonction des paires état-action et non en fonction de la croyance de l'agent, ce qui entrave l'application directe des méthodes RL profondes pour de telles tâches. Cet article s'attaque au défi de l'utilisation de récompenses basées sur la croyance pour un agent RL profond, en offrant une idée simple selon laquelle la maximisation de toute fonction convexe de la croyance de l'agent peut être approximée en maximisant plutôt une récompense de prédiction : une récompense basée sur la précision de la prédiction. En particulier, nous dérivons l'erreur exacte entre l'entropie négative et la récompense de prédiction attendue. Cet aperçu fournit une motivation théorique pour plusieurs domaines utilisant les récompenses de prédiction - à savoir l'attention visuelle, les systèmes de réponse aux questions et la motivation intrinsèque - et met en évidence leur lien avec les domaines habituellement distincts de la perception active, de la détection active et du placement de capteurs. Sur cette base, nous présentons les réseaux profonds d'anticipation (DAN), qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite. Nous présentons deux applications des DANs : la construction d'un système de sélection de capteurs pour le suivi de personnes dans un centre commercial et l'apprentissage de modèles discrets d'attention sur la classification de la mode MNIST et des chiffres MNIST.

Maximiser le gain d'information dans des environnements partiellement observables via la récompense de prédiction

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle