Poste de recherche
La collecte d'informations dans un environnement partiellement observable peut être formulée comme un problème d'apprentissage par renforcement (RL), où la récompense dépend de l'incertitude de l'agent. Par exemple, la récompense peut être l'entropie négative de la croyance de l'agent sur une variable inconnue (ou cachée). Généralement, les récompenses d'un agent RL sont définies en fonction des paires état-action et non en fonction de la croyance de l'agent, ce qui entrave l'application directe des méthodes RL profondes pour de telles tâches. Cet article s'attaque au défi de l'utilisation de récompenses basées sur la croyance pour un agent RL profond, en offrant une idée simple selon laquelle la maximisation de toute fonction convexe de la croyance de l'agent peut être approximée en maximisant plutôt une récompense de prédiction : une récompense basée sur la précision de la prédiction. En particulier, nous dérivons l'erreur exacte entre l'entropie négative et la récompense de prédiction attendue. Cet aperçu fournit une motivation théorique pour plusieurs domaines utilisant les récompenses de prédiction - à savoir l'attention visuelle, les systèmes de réponse aux questions et la motivation intrinsèque - et met en évidence leur lien avec les domaines habituellement distincts de la perception active, de la détection active et du placement de capteurs. Sur cette base, nous présentons les réseaux profonds d'anticipation (DAN), qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite. Nous présentons deux applications des DANs : la construction d'un système de sélection de capteurs pour le suivi de personnes dans un centre commercial et l'apprentissage de modèles discrets d'attention sur la classification de la mode MNIST et des chiffres MNIST.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.