Amii est fier de présenter les travaux de ses chercheurs à la 19e conférence internationale sur les agents autonomes et les systèmes multi-agents(AAMAS). Amii soutient la recherche de pointe en transformant les progrès scientifiques en adoption par l'industrie, permettant ainsi à nos chercheurs de renommée mondiale de se concentrer sur la résolution de problèmes difficiles tandis que nos équipes transposent les connaissances, le talent et la technologie - créant ainsi un système intégré qui permet à la recherche et à l'industrie de prospérer.
Ces recherches de pointe sont actuellement présentées à l'AAMAS, qui se déroule cette année en ligne du 9 au 13 mai. L'AAMAS est une conférence scientifique de renommée mondiale pour la recherche sur les agents autonomes et les systèmes multi-agents.
"Lesagents, entités capables d'interagir avec leur environnement ou d'autres agents, constituent un domaine de plus en plus important de l'intelligence artificielle. Les agents peuvent apprendre, raisonner sur les autres, adopter des normes et interagir avec les humains dans des environnements virtuels et physiques", explique Matthew E. Taylor, Amii Fellow à l'Université de l'Alberta, dans un récent billet de blog. "Ce domaine comprend des contributions à de nombreux domaines de l'intelligence artificielle, notamment la théorie des jeux, l'apprentissage automatique, la robotique, l'interaction homme-agent, la modélisation et le choix social."
Les articles acceptés des chercheurs de l'Amii couvrent un large éventail de sujets, notamment : l'interaction entre l'entraînement en ligne des réseaux neuronaux et l'interférence dans l'apprentissage par renforcement ; l'introduction de réseaux profonds d'anticipation, qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite ; et l'apprentissage par renforcement profond multi-agent.
Découvrez ci-dessous comment les boursiers Amii et les chercheurs - professeurs et étudiants diplômés de la l'Université de l'Alberta - contribuent aux travaux de cette année :
- Résolution des jeux à somme nulle et à information imparfaite à l'aide de fonctions de liaison alternatives : Une analyse de la minimisation des regrets contrefactuels par régression $f$.
Dustin Morrill et Ryan D'Orazio (chercheurs Amii), James Wright et Michael Bowling (boursiers Amii)
Résumé : L'approximation de fonction est une approche puissante pour structurer de grands problèmes de décision qui a facilité de grandes réalisations dans les domaines de l'apprentissage par renforcement et du jeu. La minimisation du regret contrefactuel par régression (RCFR) est un algorithme flexible et simple pour résoudre approximativement les jeux à information imparfaite avec des politiques paramétrées par une unité linéaire rectifiée normalisée (ReLU). En revanche, la paramétrisation softmax plus conventionnelle est standard dans le domaine de l'apprentissage par renforcement et présente une limite de regret avec une meilleure dépendance au nombre d'actions dans le cas tabulaire. Nous dérivons des limites de regret tenant compte des erreurs d'approximation pour l'appariement à regret $(\Phi, f)$, qui s'applique à une classe générale de fonctions de liaison et d'objectifs de regret. Ces limites recouvrent une limite plus étroite pour RCFR et fournissent une justification théorique pour les implémentations de RCFR avec des paramétrages de politique alternatifs ($f$-RCFR), y compris softmax. Nous fournissons des limites d'exploitabilité pour $f$-RCFR avec les fonctions de lien polynomiales et exponentielles dans les jeux d'information imparfaite à somme nulle, et nous examinons empiriquement comment la fonction de lien interagit avec la sévérité de l'approximation pour déterminer la performance d'exploitabilité en pratique. Bien qu'une politique paramétrée ReLU soit généralement le meilleur choix, une paramétrisation softmax peut être aussi performante, voire meilleure, dans les contextes qui nécessitent une approximation agressive.
- Apprentissage par renforcement à champs moyens de type multiple
Sriram Ganapathi Subramanian, Pascal Poupart, Matthew E. Taylor et Nidhi Hegde (Amii Fellows)
Résumé : La théorie des champs moyens offre un moyen efficace d'adapter les algorithmes d'apprentissage par renforcement multi-agents aux environnements comportant de nombreux agents qui peuvent être abstraits par un agent moyen virtuel. Dans cet article, nous étendons les algorithmes multi-agents du champ moyen à plusieurs types. Les types permettent d'assouplir une hypothèse de base des jeux de champ moyen, à savoir que tous les agents de l'environnement jouent des stratégies presque similaires et ont le même objectif. Nous menons des expériences sur trois bancs d'essai différents dans le domaine de l'apprentissage par renforcement de nombreux agents, sur la base du cadre standard MAgents. Nous considérons deux types différents de jeux à champ moyen : a) les jeux où les agents appartiennent à des types prédéfinis qui sont connus a priori et b) les jeux où le type de chaque agent est inconnu et doit donc être appris à partir d'observations. Nous introduisons de nouveaux algorithmes pour chaque type de jeu et démontrons leur performance supérieure à celle des algorithmes de l'état de l'art qui supposent que tous les agents appartiennent au même type et à d'autres algorithmes de base dans le cadre de MAgent.
- Maximiser le gain d'information via les récompenses de prédiction
Yash Satsangi, Sungsu Lim (chercheur Amii), Shimon Whiteson, Frans Oliehoek, Martha White (Amii Fellow)
Résumé : La collecte d'informations dans un environnement partiellement observable peut être formulée comme un problème d'apprentissage par renforcement (RL), où la récompense dépend de l'incertitude de l'agent. Par exemple, la récompense peut être l'entropie négative de la croyance de l'agent sur une variable inconnue (ou cachée). Généralement, les récompenses d'un agent RL sont définies en fonction des paires état-action et non en fonction de la croyance de l'agent, ce qui entrave l'application directe des méthodes RL profondes pour de telles tâches. Cet article s'attaque au défi de l'utilisation de récompenses basées sur la croyance pour un agent RL profond, en proposant une idée simple selon laquelle la maximisation de toute fonction convexe de la croyance de l'agent peut être approximée en maximisant plutôt une récompense de prédiction : une récompense basée sur la précision de la prédiction. En particulier, nous dérivons l'erreur exacte entre l'entropie négative et la récompense de prédiction attendue. Cet aperçu fournit une motivation théorique pour plusieurs domaines utilisant les récompenses de prédiction - à savoir l'attention visuelle, les systèmes de réponse aux questions et la motivation intrinsèque - et souligne leur lien avec les domaines habituellement distincts de la perception active, de la détection active et du placement de capteurs. Sur cette base, nous présentons les réseaux anticipatifs profonds (DAN), qui permettent à un agent de prendre des mesures pour réduire son incertitude sans effectuer d'inférence de croyance explicite. Nous présentons deux applications des DANs : la construction d'un système de sélection de capteurs pour le suivi de personnes dans un centre commercial et l'apprentissage de modèles discrets d'attention sur la classification de la mode MNIST et des chiffres MNIST.
- Améliorer les performances de l'apprentissage par renforcement en rompant la généralisation dans les réseaux neuronaux
Sina Ghiassian et Banafsheh Rafiee (chercheurs Amii), Yat Long Lo (visiteur), Adam White (Amii Fellow)
Résumé : Les systèmes d'apprentissage par renforcement nécessitent de bonnes représentations pour bien fonctionner. Pendant des décennies, les succès pratiques de l'apprentissage par renforcement ont été limités à de petits domaines. Les systèmes d'apprentissage par renforcement profond, en revanche, sont évolutifs, ne dépendent pas de connaissances préalables spécifiques au domaine et ont été utilisés avec succès pour jouer à Atari, pour la navigation 3D à partir de pixels et pour contrôler des robots à haut degré de liberté. Malheureusement, les performances des systèmes d'apprentissage par renforcement profond sont sensibles aux réglages des hyperparamètres et aux choix d'architecture. Même les systèmes bien réglés présentent une instabilité significative, tant au sein d'un essai qu'entre les répétitions d'expériences. En pratique, une expertise importante et des essais et erreurs sont généralement nécessaires pour obtenir de bonnes performances. Une source potentielle du problème est connue sous le nom d'interférence catastrophique : lorsqu'une formation ultérieure diminue les performances en annulant l'apprentissage précédent. Il est intéressant de noter que la puissante généralisation qui rend les réseaux neuronaux (NN) si efficaces dans l'apprentissage supervisé par lots pourrait expliquer les difficultés rencontrées lors de leur application à des tâches d'apprentissage par renforcement. Dans cet article, nous explorons comment la formation en ligne des réseaux neuronaux et l'interférence interagissent dans l'apprentissage par renforcement. Nous constatons que le simple fait de remapper les observations d'entrée dans un espace à haute dimension améliore la vitesse d'apprentissage et la sensibilité des paramètres. Nous montrons également que ce prétraitement réduit les interférences dans les tâches de prédiction. D'un point de vue plus pratique, nous proposons une approche simple de l'entraînement des NN, facile à mettre en œuvre et nécessitant peu de calculs supplémentaires. Nous démontrons que notre approche améliore la performance à la fois en prédiction et en contrôle avec un lot étendu d'expériences dans des domaines de contrôle classiques.
Un résumé étendu co-écrit par un boursier Amii a également été accepté pour publication dans le cadre de la JAAMAS Track:
- Une étude et une critique très condensées de l'apprentissage par renforcement profond multi-agents
Pablo Hernandez-Leal, Bilal Kartal, Matthew E. Taylor (Amii Fellow)
Résumé : L'apprentissage par renforcement profond (RL) a obtenu des résultats remarquables ces dernières années. Cela a conduit à une augmentation spectaculaire du nombre d'applications et de méthodes. Des travaux récents ont exploré l'apprentissage au-delà des scénarios à agent unique et ont considéré des scénarios d'apprentissage multi-agents (MAL). Les premiers résultats font état de succès dans des domaines multi-agents complexes, bien qu'il reste plusieurs défis à relever. L'objectif principal de cet article est de fournir une vue d'ensemble claire de la littérature actuelle sur l'apprentissage par renforcement profond multi-agent (AMRL). En outre, nous complétons cet aperçu par une analyse plus large : (i) nous revisitons les composantes clés précédentes, présentées à l'origine dans MAL et RL, et nous soulignons comment elles ont été adaptées aux contextes d'apprentissage par renforcement profond multi-agent. (ii) Nous fournissons des lignes directrices générales aux nouveaux praticiens dans le domaine : nous décrivons les leçons tirées des travaux sur l'apprentissage par renforcement profond, nous indiquons les repères récents et nous soulignons les pistes de recherche ouvertes. (iii) Nous adoptons un ton plus critique en soulevant les défis pratiques de la MDRL (par exemple, la mise en œuvre et les exigences de calcul). Nous espérons que cet article contribuera à unifier et à motiver les recherches futures afin de tirer parti de l'abondante littérature existante (par exemple, RL et MAL) dans un effort commun pour promouvoir une recherche fructueuse dans la communauté multi-agents.
Découvrez comment Amii fait progresser la recherche de pointe en matière d'intelligence artificielle et d'apprentissage automatique : visitez notre site Web. Recherche page.