Institut de l'intelligence artificielle de l'Alberta

L'appariement prédictif neuronal de Regret à l'AAAI 2024

Publié

22 février 2024

Amii est heureux de mettre en lumière les recherches que ses scientifiques et ses étudiants présentent à la 38e conférence annuelle de l'AAAI sur l'intelligence artificielle. Cette année, la conférence se déroule à Vancouver du 21 au 24 février.

La conférence AAAI 2024 est organisée par l'Association for the Advancement of Artificial Intelligence et constitue l'un des principaux événements internationaux pour les chercheurs en IA. La conférence de l'AAAI couvre un large éventail de sujets dans le domaine de l'IA, notamment l'apprentissage automatique, la vision par ordinateur, le traitement du langage naturel, la robotique et les considérations éthiques sur les technologies de l'IA.

En plus de la programmation principale, la conférence sur les applications innovantes de l'intelligence artificielle est organisée, de même que les conférences sur l'impact social de l'IA et sur l'IA sûre, robuste et responsable.

Vous trouverez ci-dessous des articles cosignés par des boursiers Amii, des chaires d'IA CIFAR du Canada et des chercheurs en début de carrière qui ont été acceptés à l'AAAI 2024.


Apprendre à ne pas regretter

*David Sychrovský ; Michal Šustr ; Elnaz Davoodi ; Michael BowlingMarc Lanctot ; Martin Schmid

Résumé : La littérature sur la recherche d'équilibres en théorie des jeux se concentre principalement sur des jeux uniques ou leur jeu répété. Néanmoins, de nombreux scénarios du monde réel consistent à jouer un jeu échantillonné à partir d'une distribution de jeux similaires, mais non identiques, comme jouer au poker avec différentes cartes publiques ou négocier des actifs corrélés sur le marché boursier. Comme ces jeux similaires présentent des équilibres similaires, nous cherchons un moyen d'accélérer la recherche d'équilibres sur une telle distribution. Nous présentons un nouveau cadre "apprendre à ne pas regretter", qui nous permet de méta-apprendre un minimiseur de regret adapté à une distribution spécifique. Notre principale contribution, l'appariement prédictif neuronal des regrets, est uniquement méta-appris pour converger rapidement pour la distribution de jeux choisie, tout en ayant des garanties de minimisation des regrets pour n'importe quel jeu. Nous avons validé la convergence plus rapide de nos algorithmes sur une distribution de jeux de poker en rivière. Nos expériences montrent que les algorithmes méta-appris surpassent leurs homologues non méta-appris, avec des améliorations plus que décuplées.


Apprentissage fédéré d'étiquettes partielles avec augmentation et régularisation adaptatives locales

Yan Yan ; *Yuhong Guo

Résumé : Non disponible actuellement.

Recherche de rectangle : Une recherche par faisceau à tout moment

Sofia Lemons ; Wheeler Ruml ; *Rob Holte; Carlos Linares Lopez

Résumé : Les algorithmes de recherche heuristique à tout moment tentent de trouver une solution (potentiellement sous-optimale) aussi rapidement que possible, puis s'efforcent de trouver des solutions de plus en plus performantes jusqu'à ce qu'une solution optimale soit obtenue ou que le temps soit épuisé. Les algorithmes de recherche en tout temps les plus connus sont basés sur la recherche de la meilleure solution en premier. Dans cet article, nous proposons un nouvel algorithme, la recherche par rectangle, qui est plutôt basé sur la recherche par faisceau, une variante de la recherche par largeur d'abord. Il explore de manière répétée les alternatives à tous les niveaux de profondeur et est donc le mieux adapté aux problèmes présentant des minima locaux profonds. Des expériences utilisant une variété de repères de recherche populaires suggèrent que la recherche par rectangle est compétitive par rapport à la recherche par faisceau à largeur fixe et qu'elle est souvent plus performante que les meilleurs algorithmes de recherche à tout moment précédents.

Apprentissage responsable du bandit via l'utilité de la volatilité moyenne avec protection de la vie privée

Shanshan Zhao ; Wenhai Cui ; Bei Jiang; Linglong Kong; Xiaodong Yan

Résumé: Non disponible actuellement.

Analyse de données synthétiques différentiellement privées : Une approche fondée sur les erreurs de mesure

Yangdi Jiang ; Yi Liu ; Xiaodong Yan ; Anne-Sophie Charest ; Linglong Kong; Bei Jiang

Résumé : Les ensembles de données synthétiques privés différentiels (DP) ont fait l'objet d'une attention particulière de la part des universités, de l'industrie et du gouvernement. Cependant, on sait peu de choses sur la manière d'effectuer une inférence statistique à l'aide d'ensembles de données synthétiques DP. Les approches naïves qui ne tiennent pas compte de l'incertitude induite par le mécanisme de privation différentielle aboutiront à des estimateurs biaisés et à des inférences non valides. Dans cet article, nous présentons une classe générale d'estimateurs DP corrigés des biais avec des intervalles de confiance asymptotiques valides pour les paramètres dans des contextes de régression, en établissant le lien entre les mécanismes DP additifs et les modèles d'erreur de mesure. Notre simulation montre que lorsque la covariance d'échantillon entre les bruits DP et les données est proche de zéro, notre estimateur est bien supérieur à l'algorithme de perturbation de la statistique suffisante largement utilisé, et les IC peuvent atteindre une meilleure couverture par rapport aux IC naïfs obtenus en ignorant le mécanisme DP.

Payer pour (ne pas) jouer : monétiser l'impatience dans les jeux mobiles

Taylor Lundy ; Narun Raman ; Hu Fu ; *Kevin Leyton-Brown

Résumé : Les jeux mobiles sont un secteur en pleine expansion et incroyablement rentable ; ayant été multipliés par sept au cours des dix dernières années, ils rapportent aujourd'hui plus de 100 milliards de dollars par an. Cette croissance est due en grande partie à un changement dans les stratégies de monétisation : au lieu de faire payer aux joueurs un coût initial ("pay-to-play"), les jeux demandent souvent des microtransactions optionnelles tout au long du jeu ("free-to-play"). Nous nous concentrons sur un scénario courant dans lequel les jeux incluent des temps d'attente - soit pour des objets, soit pour la progression du jeu - que les joueurs peuvent payer pour sauter. Les concepteurs de jeux affirment généralement qu'ils optimisent le bonheur des joueurs plutôt que les revenus ; cependant, les prix des temps d'attente sont généralement fixés à des niveaux que peu de joueurs sont prêts à payer, ce qui se traduit par de faibles taux d'achat. Selon une analyse traditionnelle, il semblerait que les concepteurs de jeux n'atteignent pas leur objectif déclaré si peu de joueurs achètent ce qu'ils vendent. Nous pensons qu'un autre modèle permet de mieux expliquer cette dynamique : les joueurs accordent plus d'importance aux tâches lorsqu'elles sont perçues comme plus difficiles. Alors que les sauts peuvent augmenter l'utilité des joueurs en leur procurant une gratification instantanée, une tarification trop basse des sauts peut diminuer l'utilité des joueurs en réduisant la quantité de travail perçue comme nécessaire pour accomplir une tâche. Nous montrons que des revenus élevés, une utilité élevée pour les joueurs et des taux d'achat faibles peuvent coexister dans le cadre de ce modèle, en particulier dans le cas d'une distribution réaliste des joueurs comprenant peu d'acheteurs mais quelques "baleines" qui dépensent beaucoup d'argent. Nous étudions également la manière dont un concepteur de jeu devrait optimiser les prix dans le cadre de notre modèle.

Comment évaluer les modèles comportementaux

Greg d'Eon ; Sophie Greenwood ; Kevin Leyton-Brown; James R. Wright

Résumé : Non disponible actuellement.

Recherche d'arbres par Monte Carlo en présence d'incertitude sur les transitions

Farnaz Kohankhaki ; Kiarash Aghakasiri ; Hongming Zhang ; Ting-Han Wei ; Chao Gao ; *Martin Müller

Résumé :

La recherche arborescente de Monte Carlo (MCTS) est un cadre de recherche extrêmement populaire utilisé pour la prise de décision. Il est traditionnellement appliqué à des domaines dans lesquels un modèle de simulation parfait de l'environnement est disponible. Nous étudions et améliorons la recherche arborescente de Monte Carlo dans le contexte où le modèle de l'environnement est donné mais imparfait. Nous montrons que l'écart entre le modèle et l'environnement réel peut entraîner une dégradation significative des performances avec les MCTS standard. Nous développons donc un MCTS adapté à l'incertitude (UA-MCTS), un algorithme plus robuste dans le cadre du MCTS. Nous estimons l'incertitude des transitions dans le modèle donné et orientons la recherche vers des transitions plus sûres dans l'espace d'état. Nous modifions les quatre phases du MCTS pour améliorer le comportement de la recherche en tenant compte de ces estimations. Nous prouvons, dans le cas du bandit corrompu, que l'ajout d'informations sur l'incertitude pour adapter l'UCB conduit à une limite de regret plus serrée que l'UCB standard. Empiriquement, nous évaluons UA-MCTS et ses composants individuels sur les domaines déterministes de la suite de tests MinAtar. Nos résultats démontrent que UA-MCTS améliore fortement MCTS en présence d'erreurs de transition de modèle.


PORTAL : Génération automatique de programmes d'études pour l'apprentissage par renforcement multi-agents

Jizhou Wu ; Jianye Hao ; Tianpei Yang ; Xiaotian Hao ; Yan Zheng ; Weixun Wang ; *Matthew E. Taylor

Résumé : Malgré de nombreuses avancées ces dernières années, il est encore difficile pour les algorithmes d'apprentissage par renforcement multi-agents (MARL) de résoudre directement des tâches complexes dans les systèmes multi-agents (MAS) à partir de zéro. Dans ce travail, nous étudions comment utiliser l'apprentissage automatique du curriculum (ACL) pour réduire le nombre d'interactions environnementales nécessaires à l'apprentissage d'une bonne politique. Afin de résoudre une tâche difficile, les méthodes ACL sélectionnent automatiquement une séquence de tâches (c'est-à-dire des programmes d'études). L'idée est d'obtenir une progression maximale de l'apprentissage vers la tâche finale en apprenant continuellement sur des tâches qui correspondent aux capacités actuelles des apprenants. La question clé est de savoir comment mesurer les progrès d'apprentissage de l'apprenant pour une meilleure sélection des programmes. Nous proposons un nouveau cadre ACL, PrOgRessive mulTiagent Automatic curricuLum (PORTAL), pour les MAS. PORTAL sélectionne les programmes d'études en fonction de deux critères : 1) Quelle est la difficulté d'une tâche par rapport aux capacités actuelles des apprenants ? 2) Quel est le degré de similitude d'une tâche par rapport à la tâche finale ? En apprenant un espace de caractéristiques partagé entre les tâches, PORTAL est en mesure de caractériser différentes tâches sur la base de la distribution des caractéristiques et de sélectionner celles qui sont similaires à la tâche finale. De plus, l'espace de caractéristiques partagé peut faciliter efficacement le transfert de politiques entre les programmes d'études. Les résultats expérimentaux montrent que PORTAL peut entraîner des agents à maîtriser des tâches coopératives extrêmement difficiles, ce qui n'est pas possible avec les algorithmes MARL précédents.

Une approche de transfert utilisant les réseaux neuronaux graphiques dans l'apprentissage par renforcement profond

Tianpei Yang ; Heng You ; Jianye Hao ; Yan Zheng ; *Matthew E. Taylor

Résumé : Actuellement non disponible.

Algorithmes d'approximation pour l'agrégation des préférences à l'aide de réseaux CP

Abu Mohammad Hammad Ali; Boting Yang; *Sandra Zilles

Abstract: This paper studies the design and analysis of approximation algorithms for aggregating preferences over combinatorial domains, represented using Conditional Preference Networks (CP-nets). Its focus is on aggregating preferences over so-called \emph{swaps}, for which optimal solutions in general are already known to be of exponential size. We first analyze a trivial 2-approximation algorithm that simply outputs the best of the given input preferences, and establish a structural condition under which the approximation ratio of this algorithm is improved to 4/3. We then propose a polynomial-time approximation algorithm whose outputs are probably no worse than those of the trivial algorithm, but often substantially better. A family of problem instances is presented for which our improved algorithm produces optimal solutions, while, for any ε, the trivial algorithm can\emph{not}\/ attain a (2−ε)-approximation. These results may lead to the first polynomial-time approximation algorithm that solves the CP-net aggregation problem for swaps with an approximation ratio substantially better than 2.


Vous souhaitez rester informé des dernières recherches de la communauté Amii ? Inscrivez-vous à notre lettre d'information mensuelle !

Partager