Poste de recherche

Maximiser le gain d'information dans des environnements partiellement observables via la récompense de prédiction

Résumé

La collecte d'informations dans un environnement partiellement observable peut être formulée comme un problème d'apprentissage par renforcement (RL), où la récompense dépend de l'incertitude de l'agent. Par exemple, la récompense peut être l'entropie négative de la croyance de l'agent sur une variable inconnue (ou cachée). Généralement, les récompenses d'un agent RL sont définies en fonction des paires état-action et non en fonction de la croyance de l'agent, ce qui entrave l'application directe des méthodes RL profondes pour de telles tâches. Cet article s'attaque au défi de l'utilisation de récompenses basées sur la croyance pour un agent RL profond, en offrant une idée simple selon laquelle la maximisation de toute fonction convexe de la croyance de l'agent peut être approximée en maximisant plutôt une récompense de prédiction : une récompense basée sur la précision de la prédiction. En particulier, nous dérivons l'erreur exacte entre l'entropie négative et la récompense de prédiction attendue. Cet aperçu fournit une motivation théorique pour plusieurs domaines utilisant les récompenses de prédiction - à savoir l'attention visuelle, les systèmes de réponse aux questions et la motivation intrinsèque - et met en évidence leur lien avec les domaines habituellement distincts de la perception active, de la détection active et du placement de capteurs. Sur cette base, nous présentons les réseaux profonds d'anticipation (DAN), qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite. Nous présentons deux applications des DANs : la construction d'un système de sélection de capteurs pour le suivi de personnes dans un centre commercial et l'apprentissage de modèles discrets d'attention sur la classification de la mode MNIST et des chiffres MNIST.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !