Institut de l'intelligence artificielle de l'Alberta

Amii à l'AAMAS 2022

Publié

4 mai 2022

Le 9 mai marque le début de la 2022e Conférence internationale sur les agents autonomes et les systèmes multi-agents (AAMAS) et Amii est fier de mettre en avant les contributions de ses chercheurs à l'événement de cette année.

AAMAS est l'une des conférences les plus importantes et les plus influentes au monde sur les agents et les systèmes multi-agents. Elle a débuté en 2002 par la fusion de trois conférences : la conférence internationale sur les agents autonomes, la conférence internationale sur les systèmes multi-agents et l'atelier international sur les théories, architectures et langages d'agents. La conférence de cette année se déroule de manière virtuelle.

En plus des articles, Matt Taylor, boursier de l'Amii et président du CIFAR canadien pour l'IA, est le coprésident de la conférence AAMAS de cette année.

Jetez un coup d'œil aux documents de la conférence Amii de cette année :


Documents de l'atelier

Signalisation pavlovienne avec fonctions de valeur générales dans la prise de décision temporelle agent-agent

Andrew Butcher, Michael Johanson, Elnaz Davoodi, Dylan Brenneis, Leslie Acker, Adam Parker, Adam WhiteJoseph Modayil et Patrick Pilarski

Résumé : Dans cet article, nous présentons une étude à multiples facettes sur la signalisation pavlovienne, un processus par lequel des prédictions apprises et étendues dans le temps, faites par un agent, informent la prise de décision d'un autre agent. Pour générer et recevoir des signaux, les humains et d'autres animaux sont connus pour représenter le temps, déterminer le temps écoulé depuis les événements passés, prédire le temps restant jusqu'à un stimulus futur, et reconnaître et générer des modèles qui se déroulent dans le temps. Nous étudions l'impact des différents processus temporels sur la coordination et la signalisation entre les agents d'apprentissage en introduisant un domaine de prise de décision partiellement observable que nous appelons le Frost Hollow. Dans ce domaine, un agent d'apprentissage par prédiction et un agent d'apprentissage par renforcement sont couplés dans un système de prise de décision en deux parties qui s'efforce d'acquérir des récompenses éparses tout en évitant les risques conditionnels liés au temps. Nous évaluons deux variantes du domaine : des agents machines interagissant dans une marche linéaire à sept états, et une interaction homme-machine dans un environnement de réalité virtuelle. Notre principale contribution est d'établir la signalisation pavlovienne comme une passerelle naturelle entre les paradigmes de signalisation fixes et l'apprentissage de la communication entièrement adaptative entre deux agents. Nos résultats mettent en évidence la vitesse d'apprentissage de la signalisation pavlovienne, l'impact que les différentes représentations temporelles ont (ou n'ont pas) sur la coordination agent-agent, et la façon dont l'aliasing temporel a un impact différent sur les interactions agent-agent et humain-agent. Nous montrons en outre comment construire informatiquement ce processus de signalisation adaptatif à partir d'un processus de signalisation fixe, caractérisé par un apprentissage continu et rapide des prédictions et par des contraintes minimales sur la nature de l'agent recevant les signaux. Nos résultats suggèrent donc une voie constructiviste et praticable vers l'apprentissage de la communication entre agents d'apprentissage par renforcement.

Andrew Butcher, Michael Johanson, Elnaz Davoodi, Dylan Brenneis, Leslie Acker, Adam Parker, Adam White, Joseph Modayil et Patrick Pilarski.

Évaluation de l'interaction humaine en réalité virtuelle avec des agents de prédiction à apprentissage continu basés sur des algorithmes d'apprentissage par renforcement : Une étude pilote

Dylan J. A. Brenneis, Adam S. R. Parker, Michael Bradley Johanson, Andrew Butcher, Elnaz Davoodi, Leslie Acker, Matthew M. Botvinick, Joseph Modayil, Adam White et Patrick M. Pilarski

Résumé : Les systèmes d'intelligence artificielle impliquent de plus en plus un apprentissage continu pour permettre une flexibilité dans des situations générales qui ne sont pas rencontrées lors de la formation du système. L'interaction humaine avec les systèmes autonomes est largement étudiée, mais la recherche a jusqu'à présent sous-exploré les interactions qui se produisent pendant que le système apprend activement et qui peuvent modifier sensiblement son comportement en quelques minutes. Dans cette étude pilote, nous examinons comment l'interaction entre un humain et un agent de prédiction en apprentissage continu évolue au fur et à mesure que l'agent acquiert des compétences. En outre, nous comparons deux architectures d'agent différentes afin d'évaluer comment les choix de représentation dans la conception de l'agent affectent l'interaction entre l'homme et l'agent. Nous développons un environnement de réalité virtuelle et une tâche de prédiction temporelle dans laquelle les prédictions apprises à partir d'un algorithme d'apprentissage par renforcement (RL) augmentent les prédictions humaines. Nous évaluons comment la performance et le comportement d'un participant dans cette tâche diffèrent selon les types d'agents, à l'aide d'analyses quantitatives et qualitatives. Nos résultats suggèrent que la confiance humaine dans le système peut être influencée par les premières interactions avec l'agent, et que la confiance à son tour affecte le comportement stratégique, mais les limites de l'étude pilote empêchent toute affirmation concluante. Nous identifions la confiance comme une caractéristique clé de l'interaction sur laquelle il faut se concentrer lorsque l'on envisage des technologies basées sur les relations humaines, et nous formulons plusieurs recommandations pour modifier cette étude en vue d'une enquête à plus grande échelle. Un résumé vidéo de cet article est disponible à l'adresse suivante : https://youtu.be/oVYJdnBqTwQ. Résumé vidéo de cet article :


Travail en cours : Conception d'un programme d'études pour plusieurs enseignants dans des environnements de récompenses éparses.

Chaitanya Kharyal, Tanmay Sinha et Matthew Taylor

Résumé : Bien que les agents d'apprentissage par renforcement aient connu de nombreux succès impressionnants, ces agents peuvent souvent rencontrer des difficultés dans des environnements où les récompenses sont rares. Les agents sont souvent confrontés à cette difficulté dans des tâches réelles - il peut s'écouler beaucoup de temps avant qu'un agent ne tombe sur un résultat positif rare sans être guidé. Pour lutter contre ce problème, nous proposons une technique que nous appelons la conception de programmes d'études multi-professeurs avec traces. Cette technique fait intervenir plusieurs enseignants indépendants engagés dans un jeu contre un élève dont l'objectif est conditionné. La principale nouveauté algorithmique, par rapport aux travaux existants, est l'engagement de plusieurs enseignants et l'utilisation d'une perte de clonage de comportement. En outre, nous introduisons également un nouvel environnement de récompense clairsemé pour la conduite simulée dans PyBullet. Les résultats empiriques montrent le potentiel de notre algorithme dans ce nouveau domaine.

Collecte et réutilisation méthodiques des conseils dans l'apprentissage par renforcement profond

Sahir, Ercüment İlhan, Srijita Das et Matthew Taylor

Résumé : L'apprentissage par renforcement (RL) s'est avéré très efficace pour résoudre de nombreuses tâches difficiles grâce à l'utilisation de réseaux neuronaux profonds. Bien que l'utilisation de l'apprentissage en profondeur pour l'apprentissage par renforcement apporte une immense puissance de représentation, elle entraîne également un problème bien connu d'inefficacité de l'échantillonnage. Cela signifie que les algorithmes sont gourmands en données et nécessitent des millions d'échantillons d'entraînement pour converger vers une politique adéquate. L'un des moyens de résoudre ce problème consiste à utiliser des conseils d'action dans un cadre enseignant-élève, où un enseignant bien informé fournit des conseils d'action pour aider l'élève. Ce travail examine comment mieux exploiter les incertitudes concernant le moment où un étudiant doit demander des conseils et si l'étudiant peut modeler l'enseignant pour qu'il demande moins de conseils. L'élève pourrait décider de demander des conseils lorsqu'il est incertain ou lorsque lui-même et son modèle de l'enseignant sont incertains. En plus de cette étude, cet article présente une nouvelle méthode de calcul de l'incertitude pour un agent RL profond à l'aide d'un réseau neuronal secondaire. Nos résultats empiriques montrent que l'utilisation d'incertitudes doubles pour conduire la collecte et la réutilisation de conseils peut améliorer les performances d'apprentissage dans plusieurs jeux Atari.

Partager