Institut de l'intelligence artificielle de l'Alberta

Amii à l'AAMAS 2020

Publié

8 mai 2020

Amii est fier de présenter les travaux de ses chercheurs à la 19e conférence internationale sur les agents autonomes et les systèmes multi-agents(AAMAS). Amii soutient la recherche de pointe en transformant les progrès scientifiques en adoption par l'industrie, permettant ainsi à nos chercheurs de renommée mondiale de se concentrer sur la résolution de problèmes difficiles tandis que nos équipes transposent les connaissances, le talent et la technologie - créant ainsi un système intégré qui permet à la recherche et à l'industrie de prospérer.

Ces recherches de pointe sont actuellement présentées à l'AAMAS, qui se déroule cette année en ligne du 9 au 13 mai. L'AAMAS est une conférence scientifique de renommée mondiale pour la recherche sur les agents autonomes et les systèmes multi-agents.

"Les agents, entités capables d'interagir avec leur environnement ou d'autres agents, constituent un domaine de plus en plus important de l'intelligence artificielle. Les agents peuvent apprendre, raisonner sur les autres, adopter des normes et interagir avec les humains dans des environnements virtuels et physiquesexplique Matthew E. Taylor, Amii Fellow à l'université d'Alberta, dans un récent billet de blog. "Ce domaine comprend des contributions à de nombreux domaines de l'intelligence artificielle, notamment la théorie des jeux, l'apprentissage automatique, la robotique, l'interaction homme-agent, la modélisation et le choix social."

Les articles acceptés des chercheurs de l'Amii couvrent un large éventail de sujets, notamment : l'interaction entre l'entraînement en ligne des réseaux neuronaux et l'interférence dans l'apprentissage par renforcement ; l'introduction de réseaux profonds d'anticipation, qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite ; et l'apprentissage par renforcement profond multi-agent.

Découvrez ci-dessous comment les boursiers Amii et les chercheurs - professeurs et étudiants de troisième cycle de l l'université d'Alberta - contribuent aux travaux de cette année :

  • Résolution de jeux d'information imparfaite à somme nulle à l'aide de fonctions de lien alternatives : Une analyse de la minimisation des regrets contrefactuels de $f$-Régression Dustin Morrill et Ryan D'Orazio (chercheurs de l'Amii), James Wright et Michael Bowling (boursiers Amii) Résumé : L'approximation de fonction est une approche puissante pour structurer les grands problèmes de décision qui a facilité de grandes réalisations dans les domaines de l'apprentissage par renforcement et du jeu. La minimisation des regrets contrefactuels par régression (RCFR) est un algorithme flexible et simple pour résoudre approximativement les jeux à information imparfaite avec des politiques paramétrées par une unité linéaire rectifiée normalisée (ReLU). En revanche, la paramétrisation softmax plus conventionnelle est standard dans le domaine de l'apprentissage par renforcement et a une limite de regret avec une meilleure dépendance sur le nombre d'actions dans le cas tabulaire. Nous dérivons des limites de regret tenant compte des erreurs d'approximation pour l'appariement à regret $(\Phi, f)$, qui s'applique à une classe générale de fonctions de lien et d'objectifs de regret. Ces limites recouvrent une limite plus stricte pour le RCFR et fournissent une justification théorique pour les implémentations du RCFR avec des paramétrages de politique alternatifs ($f$-RCFR), y compris la softmax. Nous fournissons des bornes d'exploitabilité pour $f$-RCFR avec les fonctions de lien polynomiales et exponentielles dans les jeux d'information imparfaite à somme nulle, et examinons empiriquement comment la fonction de lien interagit avec la sévérité de l'approximation pour déterminer la performance d'exploitabilité dans la pratique. Bien qu'une politique paramétrée ReLU soit généralement le meilleur choix, une paramétrisation softmax peut donner d'aussi bons résultats, voire de meilleurs, dans les contextes qui nécessitent une approximation agressive.

  • Apprentissage par renforcement de champs moyens multitypes Sriram Ganapathi Subramanian, Pascal Poupart, Matthew E. Taylor et Nidhi Hegde (boursiers Amii) Résumé : La théorie du champ moyen offre un moyen efficace d'étendre les algorithmes d'apprentissage par renforcement multi-agents à des environnements comportant de nombreux agents qui peuvent être abstraits par un agent moyen virtuel. Dans cet article, nous étendons les algorithmes multi-agents du champ moyen à plusieurs types. Les types permettent d'assouplir une hypothèse fondamentale des jeux de champ moyen, à savoir que tous les agents de l'environnement jouent des stratégies presque similaires et ont le même objectif. Nous menons des expériences sur trois bancs d'essai différents dans le domaine de l'apprentissage par renforcement de nombreux agents, sur la base du cadre MAgents standard. Nous considérons deux types différents de jeux à champ moyen : a) les jeux où les agents appartiennent à des types prédéfinis connus a priori et b) les jeux où le type de chaque agent est inconnu et doit donc être appris sur la base d'observations. Nous introduisons de nouveaux algorithmes pour chaque type de jeu et démontrons leur performance supérieure à celle des algorithmes de pointe qui supposent que tous les agents appartiennent au même type et à d'autres algorithmes de base dans le cadre MAgent.

  • Maximiser le gain d'information grâce aux récompenses de prédiction Yash Satsangi, Sungsu Lim (chercheur à Amii), Shimon Whiteson, Frans Oliehoek, Martha White (boursière Amii) Résumé : La collecte d'informations dans un environnement partiellement observable peut être formulée comme un problème d'apprentissage par renforcement où la récompense dépend de l'incertitude de l'agent. Par exemple, la récompense peut être l'entropie négative de la croyance de l'agent sur une variable inconnue (ou cachée). Généralement, les récompenses d'un agent RL sont définies en fonction des paires état-action et non en fonction de la croyance de l'agent, ce qui entrave l'application directe de méthodes RL profondes pour de telles tâches. Cet article s'attaque au défi que représente l'utilisation de récompenses basées sur la croyance pour un agent RL profond, en proposant une idée simple selon laquelle la maximisation de toute fonction convexe de la croyance de l'agent peut être approximée par la maximisation d'une récompense de prédiction : une récompense basée sur l'exactitude de la prédiction. En particulier, nous dérivons l'erreur exacte entre l'entropie négative et la récompense de prédiction attendue. Cet aperçu fournit une motivation théorique pour plusieurs domaines utilisant des récompenses de prédiction - à savoir l'attention visuelle, les systèmes de réponse aux questions et la motivation intrinsèque - et met en évidence leur lien avec les domaines habituellement distincts de la perception active, de la détection active et du placement de capteurs. Sur la base de cette idée, nous présentons les réseaux d'anticipation profonde (DAN), qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite. Nous présentons deux applications des réseaux d'anticipation profonds : la construction d'un système de sélection de capteurs pour le suivi de personnes dans un centre commercial et l'apprentissage de modèles discrets d'attention sur la classification de la mode MNIST et des chiffres MNIST.

  • Améliorer les performances de l'apprentissage par renforcement en brisant la généralisation dans les réseaux neuronaux Sina Ghiassian et Banafsheh Rafiee (chercheurs d'Amii), Yat Long Lo (visiteur), Adam White (boursier Amii) Résumé : Les systèmes d'apprentissage par renforcement nécessitent de bonnes représentations pour fonctionner correctement. Pendant des décennies, les succès pratiques de l'apprentissage par renforcement ont été limités à de petits domaines. Les systèmes d'apprentissage par renforcement profond, en revanche, sont évolutifs, ne dépendent pas de connaissances préalables spécifiques au domaine et ont été utilisés avec succès pour jouer à Atari, dans la navigation 3D à partir de pixels, et pour contrôler des robots à haut degré de liberté. Malheureusement, les performances des systèmes d'apprentissage par renforcement profond sont sensibles aux hyperparamètres et aux choix d'architecture. Même les systèmes bien réglés présentent une instabilité significative à la fois au sein d'un essai et entre les répétitions de l'expérience. Dans la pratique, il faut généralement faire preuve d'une grande expertise et procéder par essais et erreurs pour obtenir de bonnes performances. L'une des sources potentielles du problème est connue sous le nom d'interférence catastrophique : lorsqu'un entraînement ultérieur diminue les performances en annulant l'apprentissage précédent. Il est intéressant de noter que la puissante généralisation qui rend les réseaux neuronaux (RN) si efficaces dans l'apprentissage supervisé par lots pourrait expliquer les difficultés rencontrées lors de leur application à des tâches d'apprentissage par renforcement. Dans cet article, nous étudions l'interaction entre la formation en ligne des réseaux neuronaux et l'interférence dans l'apprentissage par renforcement. Nous constatons que le simple fait de replacer les observations d'entrée dans un espace à haute dimension améliore la vitesse d'apprentissage et la sensibilité aux paramètres. Nous montrons également que ce prétraitement réduit l'interférence dans les tâches de prédiction. D'un point de vue plus pratique, nous proposons une approche simple de l'apprentissage des NN, facile à mettre en œuvre et nécessitant peu de calculs supplémentaires. Nous démontrons que notre approche améliore les performances en matière de prédiction et de contrôle à l'aide d'un grand nombre d'expériences dans des domaines de contrôle classiques.

Un résumé étendu co-écrit par un boursier Amii a également été accepté pour publication sur le site de la JAAMAS Track:

  • Une étude très condensée et une critique de l'apprentissage par renforcement profond multi-agents Pablo Hernandez-Leal, Bilal Kartal, Matthew E. Taylor (Boursier Amii) Résumé : L'apprentissage par renforcement profond (RL) a obtenu des résultats remarquables ces dernières années. Cela a conduit à une augmentation spectaculaire du nombre d'applications et de méthodes. Des travaux récents ont exploré l'apprentissage au-delà des scénarios à agent unique et ont considéré des scénarios d'apprentissage multi-agents (MAL). Les premiers résultats font état de succès dans des domaines multiagents complexes, bien qu'il reste plusieurs défis à relever. L'objectif principal de cet article est de fournir une vue d'ensemble claire de la littérature actuelle sur l'apprentissage par renforcement profond multi-agent (MDRL). En outre, nous complétons cette vue d'ensemble par une analyse plus large : (i) nous revisitons les composants clés précédents, présentés à l'origine dans le MAL et le RL, et soulignons comment ils ont été adaptés aux contextes d'apprentissage par renforcement profond multi-agents. (ii) Nous fournissons des lignes directrices générales aux nouveaux praticiens dans le domaine : nous décrivons les leçons tirées des travaux du MDRL, nous indiquons des références récentes et nous esquissons des pistes de recherche ouvertes. (iii) Nous adoptons un ton plus critique en soulevant les défis pratiques du MDRL (par exemple, la mise en œuvre et les exigences informatiques). Nous espérons que cet article contribuera à unifier et à motiver les recherches futures afin de tirer parti de l'abondante littérature existante (par exemple, RL et MAL) dans un effort commun pour promouvoir une recherche fructueuse dans la communauté multiagents.

Partager