Nouvelles

Amii à la 2022e conférence internationale sur les agents autonomes et les systèmes multi-agents.

Le 9 mai marque le début de la 2022e Conférence internationale sur les agents autonomes et les systèmes multi-agents (AAMAS) et Amii est fier de mettre en avant les contributions de ses chercheurs à l'événement de cette année.

AAMAS est l'une des conférences les plus importantes et les plus influentes au monde sur les agents et les systèmes multi-agents. Elle a débuté en 2002 par la fusion de trois conférences : la conférence internationale sur les agents autonomes, la conférence internationale sur les systèmes multi-agents et l'atelier international sur les théories, architectures et langages d'agents. La conférence de cette année se déroule de manière virtuelle.

En plus des articles, Matt Taylor, boursier de l'Amii et président du CIFAR canadien pour l'IA, est le coprésident de la conférence AAMAS de cette année.

Jetez un coup d'œil aux documents de la conférence Amii de cette année :

Documents de l'atelier

Signalisation pavlovienne avec fonctions de valeur générales dans la prise de décision temporelle agent-agent

Andrew Butcher, Michael Johanson, Elnaz Davoodi, Dylan Brenneis, Leslie Acker, Adam Parker, Adam WhiteJoseph Modayil et Patrick Pilarski

Résumé : Dans cet article, nous présentons une étude à facettes multiples sur la signalisation pavlovienne - un processus par lequel des prédictions apprises et étendues dans le temps faites par un agent informent la prise de décision d'un autre agent. Pour générer et recevoir des signaux, les humains et d'autres animaux sont connus pour représenter le temps, déterminer le temps écoulé depuis des événements passés, prédire le temps jusqu'à un stimulus futur, et à la fois reconnaître et générer des modèles qui se déroulent dans le temps. Nous étudions l'impact des différents processus temporels sur la coordination et la signalisation entre les agents d'apprentissage en introduisant un domaine de décision partiellement observable que nous appelons le Frost Hollow. Dans ce domaine, un agent d'apprentissage par prédiction et un agent d'apprentissage par renforcement sont couplés dans un système de prise de décision en deux parties qui s'efforce d'acquérir des récompenses éparses tout en évitant les dangers conditionnés par le temps. Nous évaluons deux variantes du domaine : des agents machines interagissant dans une marche linéaire à sept états, et une interaction homme-machine dans un environnement de réalité virtuelle. Comme contribution principale, nous établissons la signalisation pavlovienne comme un pont naturel entre les paradigmes de signalisation fixes et l'apprentissage de la communication entièrement adaptative entre deux agents. Nos résultats montrent la vitesse d'apprentissage de la signalisation pavlovienne, l'impact que différentes représentations temporelles ont (ou n'ont pas) sur la coordination agent-agent, et comment l'aliasing temporel a un impact différent sur les interactions agent-agent et homme-agent. Nous montrons en outre comment construire informatiquement ce processus de signalisation adaptatif à partir d'un processus de signalisation fixe, caractérisé par un apprentissage rapide et continu de la prédiction et des contraintes minimales sur la nature de l'agent recevant les signaux. Nos résultats suggèrent donc une voie constructiviste exploitable vers l'apprentissage de la communication entre agents d'apprentissage par renforcement.

Andrew Butcher, Michael Johanson, Elnaz Davoodi, Dylan Brenneis, Leslie Acker, Adam Parker, Adam White, Joseph Modayil et Patrick Pilarski.

Évaluation de l'interaction humaine en réalité virtuelle avec des agents de prédiction à apprentissage continu basés sur des algorithmes d'apprentissage par renforcement : Une étude pilote

Dylan J. A. Brenneis, Adam S. R. Parker, Michael Bradley Johanson, Andrew Butcher, Elnaz Davoodi, Leslie Acker, Matthew M. Botvinick, Joseph Modayil, Adam White et Patrick M. Pilarski

Résumé : Les systèmes d'intelligence artificielle impliquent de plus en plus un apprentissage continu pour permettre une flexibilité dans des situations générales qui ne sont pas rencontrées lors de la formation du système. L'interaction humaine avec les systèmes autonomes est largement étudiée, mais la recherche a jusqu'à présent sous-exploré les interactions qui se produisent pendant que le système apprend activement, et qui peuvent changer sensiblement son comportement en quelques minutes. Dans cette étude pilote, nous étudions comment l'interaction entre un humain et un agent de prédiction en apprentissage continu se développe au fur et à mesure que l'agent acquiert des compétences. En outre, nous comparons deux architectures d'agent différentes pour évaluer comment les choix de représentation dans la conception de l'agent affectent l'interaction homme-agent. Nous développons un environnement de réalité virtuelle et une tâche de prédiction basée sur le temps dans laquelle les prédictions apprises par un algorithme d'apprentissage par renforcement (RL) augmentent les prédictions humaines. Nous évaluons comment la performance et le comportement d'un participant dans cette tâche diffèrent selon les types d'agents, en utilisant des analyses quantitatives et qualitatives. Nos résultats suggèrent que la confiance de l'homme dans le système peut être influencée par les premières interactions avec l'agent, et que la confiance affecte à son tour le comportement stratégique, mais les limites de l'étude pilote empêchent toute affirmation concluante. Nous identifions la confiance comme une caractéristique clé de l'interaction sur laquelle il faut se concentrer lorsqu'on envisage des technologies basées sur la RL, et nous faisons plusieurs recommandations pour modifier cette étude en vue d'une enquête à plus grande échelle. Un résumé vidéo de cet article est disponible sur https://youtu.be/oVYJdnBqTwQ.

Résumé vidéo de cet article :

Travail en cours : Conception d'un programme d'études pour plusieurs enseignants dans des environnements de récompenses éparses.

Chaitanya Kharyal, Tanmay Sinha et Matthew Taylor

Résumé : Bien que les agents d'apprentissage par renforcement aient connu de nombreux succès impressionnants, ces agents peuvent souvent être confrontés à des difficultés dans des environnements de récompenses éparses. Les agents sont souvent confrontés à cette difficulté dans les tâches du monde réel. Il peut s'écouler beaucoup de temps avant qu'un agent ne tombe sur un rare résultat positif sans être guidé. Pour combattre ce problème, nous proposons une technique que nous appelons Adversarial Multi-Teacher Curriculum Design with Traces. Cette technique implique de multiples enseignants indépendants engagés dans un jeu contre un étudiant conditionné par un objectif. La principale nouveauté algorithmique, par rapport aux travaux existants, consiste à engager plusieurs enseignants et à utiliser une perte de clonage de comportement. En outre, nous introduisons également un nouvel environnement de récompense clairsemé pour la conduite simulée dans PyBullet. Les résultats empiriques montrent le potentiel de notre algorithme dans ce nouveau domaine.

Collecte et réutilisation méthodiques des conseils dans l'apprentissage par renforcement profond

Sahir, Ercüment İlhan, Srijita Das et Matthew Taylor

Résumé : L'apprentissage par renforcement (RL) a montré un grand succès dans la résolution de nombreuses tâches difficiles via l'utilisation de réseaux neuronaux profonds. Bien que l'utilisation de l'apprentissage profond pour l'apprentissage par renforcement apporte un immense pouvoir de représentation, elle cause également un problème bien connu d'inefficacité d'échantillonnage. Cela signifie que les algorithmes sont gourmands en données et nécessitent des millions d'échantillons d'entraînement pour converger vers une politique adéquate. Une façon de combattre ce problème est d'utiliser le conseil d'action dans un cadre enseignant-étudiant, où un enseignant bien informé fournit des conseils d'action pour aider l'étudiant. Ce travail examine comment mieux exploiter les incertitudes sur le moment où un étudiant doit demander des conseils et si l'étudiant peut modeler l'enseignant pour demander moins de conseils. L'étudiant pourrait décider de demander des conseils lorsqu'il est incertain ou lorsque lui-même et son modèle de l'enseignant sont incertains. En plus de cette étude, cet article présente une nouvelle méthode pour calculer l'incertitude pour un agent RL profond en utilisant un réseau neuronal secondaire. Nos résultats empiriques montrent que l'utilisation de l'incertitude double pour piloter la collecte et la réutilisation des conseils peut améliorer les performances d'apprentissage dans plusieurs jeux Atari.

Apprenez-en davantage sur les travaux révolutionnaires réalisés par les chercheurs de l'Amii sur notre page Recherche.

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !