Amii est fière de partager les résultats des recherches que nos boursiers, les titulaires de chaires CIFAR-IA du Canada, les étudiants et le personnel présenteront lors de la 40e conférence annuelle de l'AAAI sur l'intelligence artificielle qui se tiendra à Singapour du 20 au 27 janvier.
La conférence AAAI encourage la recherche dans le domaine de l'intelligence artificielle (IA) et favorise les échanges scientifiques entre chercheurs, praticiens, scientifiques, étudiants et ingénieurs dans le domaine de l'IA et des disciplines connexes.
Cette année, les chercheurs d'Amii présentent des articles sur des sujets tels que la théorie des jeux comportementale avec « ElementaryNet », un modèle conçu pour prédire la prise de décision humaine tout en restant interprétable, ou encore le cadre MAGIC, qui utilise des agents LLM collaboratifs pour identifier les attaques adversaires susceptibles d'affecter les systèmes de conduite autonome. Ils s'attaquent également à des problèmes industriels concrets, comme l'application de la recherche de chemin multi-agents pour optimiser le routage complexe des câbles lors de projets de construction à grande échelle.
Vous souhaitez rester informé des dernières recherches menées par la communauté Amii ? Inscrivez-vous à notre newsletter mensuelle !
Nathan Sturtevant élu membre de l'AAAI
Chaque année, l'AAAI élit quelques chercheurs comme membres de l'AAAI, reconnaissant ainsi ceux qui ont apporté une contribution significative et durable à la recherche en IA.
Cette année, Nathan Sturtevant, membre de l'AAAI et titulaire de la chaire CIFAR Canada AI, figurait parmi les élus pour sa contribution à «la théorie et aux algorithmes de recherche heuristique, de recherche de chemin et de jeux », ainsi que pour son implication dans l'élaboration de repères et de ressources pédagogiques sur le sujet.
« Je suis honoré de faire partie d'un groupe de chercheurs aussi distingué », déclare Nathan.
Outre Sturtevant, plusieurs autres chercheurs de l'Amii participent à l'organisation de l'AAI 2026.
Matthew Taylor - Coprésident du programme
Matthew Guzdial - Président du comité des récompenses
Kevin Leyton-Brown - Président du comité de la conférence
Articles acceptés
* indique l'affiliation à Amii
ElementaryNet, un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux normaux
Greg d'Eon, Hala Murad, Kevin Leyton-Brown*, James R. Wright
LIEN VERS L'ARTICLE
Les modèles de théorie des jeux comportementaux ont deux objectifs : fournir des informations sur le fonctionnement de la prise de décision humaine et prédire comment les gens se comporteraient dans des contextes stratégiques nouveaux. Un système appelé GameNet représente l'état de l'art en matière de prédiction du comportement humain dans le cadre de jeux à mouvements simultanés non répétés, combinant un modèle simple de raisonnement stratégique de « niveau k » avec un modèle complexe de réseau neuronal de comportement non stratégique de « niveau 0 ». Bien que cette dépendance à des idées bien établies issues des sciences cognitives devrait rendre GameNet interprétable, la flexibilité de son modèle de niveau 0 soulève la possibilité qu'il soit capable d'émuler le raisonnement stratégique. Dans ce travail, nous prouvons que le modèle de niveau 0 de GameNet est en effet trop général. Nous introduisons ensuite ElementaryNet, un nouveau réseau neuronal qui est manifestement incapable d'exprimer un comportement stratégique. Nous montrons que ces restrictions supplémentaires sont empiriquement inoffensives, ElementaryNet et GameNet ayant des performances statistiquement indiscernables. Nous montrons ensuite comment il est possible de tirer des enseignements sur le comportement humain en faisant varier les caractéristiques d'ElementaryNet et en interprétant ses paramètres, en trouvant des preuves de raisonnement itératif, en apprenant sur la profondeur de ce processus de raisonnement et en montrant la valeur d'une spécification riche de niveau 0.
Configuration pratique et utilitaire de l'algorithme
Devon R. Graham, Eros Rojas Velez, Kevin Leyton-Brown*
La configuration algorithmique utilitaire identifie un paramètre pour un algorithme donné qui maximise l'utilité pour l'utilisateur. Les fonctions d'utilité offrent une approche théoriquement bien fondée pour optimiser la prise de décision dans un contexte d'incertitude et sont suffisamment flexibles pour refléter les préférences de l'utilisateur en matière de durée d'exécution des algorithmes (par exemple, elles peuvent décrire une coupure nette après laquelle une solution n'est plus nécessaire, un coût horaire de calcul ou des rendements décroissants pour les algorithmes qui prennent plus de temps à s'exécuter). COUP est une procédure de configuration d'algorithmes utilitaires récemment introduite, qui a été conçue principalement pour offrir de solides garanties théoriques sur la qualité de la configuration qu'elle renvoie, sans accorder beaucoup d'attention à ses performances pratiques. Cet article comble cette lacune, en amenant la configuration d'algorithmes utilitaires fondée sur la théorie à un niveau où elle est compétitive par rapport aux procédures de configuration heuristiques largement utilisées qui n'offrent aucune garantie de performance. Nous présentons une série d'améliorations apportées à COUP qui améliorent ses performances empiriques sans dégrader ses garanties théoriques et démontrons leur intérêt de manière expérimentale. À l'aide d'une étude de cas, nous illustrons également des moyens d'explorer la robustesse d'une solution donnée au problème de sélection d'algorithmes face aux variations de la fonction d'utilité.
EcoDiffusion, émulation des processus écosystémiques tenant compte de l'incertitude avec diffusion conditionnelle pour les séquences longues avec initialisation en une seule étape
Ruohan Li, Zhihao Wang, Xiaowei Jia, Gengchen Mai, Lei Ma*, George C. Hurtt, Quan Shen, Zhili Li, Yiqun Xie
Aucun résumé disponible pour le moment.
MAGIC : Maîtriser la génération physique antagoniste dans son contexte grâce à des agents LLM collaboratifs
Yun Xing, Nhat Chung, Jie Zhang, Yue Cao, Ivor Tsang, Yang Liu, Lei Ma*, Qing Guo
LIEN VERS L'ARTICLE
Les attaques physiques adversaires dans les scénarios de conduite peuvent exposer des vulnérabilités critiques dans les modèles de perception visuelle. Cependant, le développement de telles attaques reste difficile en raison de la diversité des environnements réels et de la nécessité de maintenir le naturel visuel. Partant de ce défi, nous reformulons les attaques physiques adversaires comme un problème de génération de patchs en une seule fois. Notre approche génère des patchs adversaires à l'aide d'un modèle génératif profond qui tient compte du contexte spécifique de la scène, permettant un déploiement physique direct dans des environnements correspondants. Le principal défi consiste à atteindre simultanément deux objectifs : générer des correctifs adversaires qui trompent efficacement les systèmes de détection d'objets tout en déterminant le déploiement contextuellement approprié dans la scène. Nous proposons MAGIC (Mastering Physical Adversarial Generation In Context), un nouveau cadre alimenté par des agents LLM multimodaux pour relever ces défis. MAGIC comprend automatiquement le contexte de la scène et génère des correctifs adversaires grâce à l'interaction synergique des capacités linguistiques et visuelles. MAGIC orchestre notamment trois agents LLM spécialisés : l'agent de génération de correctifs adversaires (GAgent) maîtrise la création de correctifs trompeurs grâce à une ingénierie stratégique des invites pour les modèles texte-image. L'agent de déploiement de correctifs adversaires (DAgent) assure la cohérence contextuelle en déterminant les stratégies de déploiement optimales sur la base de la compréhension de la scène. L'agent d'auto-examen (EAgent) complète cette trilogie en assurant une supervision critique et un raffinement itératif des deux processus. Nous validons notre méthode à la fois au niveau numérique et physique, c'est-à-dire nuImage et des scènes réelles capturées manuellement, où les résultats statistiques et visuels prouvent que notre MAGIC est puissant et efficace pour attaquer les systèmes de détection d'objets largement utilisés, c'est-à-dire les séries YOLO et DETR.
De l'ensemble de données au monde réel, détection générale d'objets 3D via l'apprentissage généralisé interdomaines en quelques essais
Shuangzhi Li , Junlong Shen, Lei Ma*, et Xingyu Li*
LIEN VERS L'ARTICLE
Les modèles de détection d'objets 3D basés sur le LiDAR ont souvent du mal à s'adapter aux environnements réels en raison de la diversité limitée des objets dans les ensembles de données existants. Pour y remédier, nous introduisons la première tâche généralisée cross-domain few-shot (GCFS) dans la détection d'objets 3D, visant à adapter un modèle pré-entraîné à la source à des classes communes et nouvelles dans un nouveau domaine avec seulement quelques annotations. Nous proposons un cadre unifié qui apprend une sémantique cible stable sous supervision limitée en reliant la sémantique 2D à ensemble ouvert au raisonnement spatial 3D. Plus précisément, une fusion multimodale guidée par l'image injecte des indices sémantiques 2D transférables dans le pipeline 3D via des modèles de vision-langage, tandis qu'une recherche de boîte physiquement consciente améliore l'alignement 2D-3D via des a priori LiDAR. Afin de capturer la sémantique spécifique à chaque classe à partir de données clairsemées, nous introduisons en outre un apprentissage de prototypes amélioré par contraste, qui encode les instances à quelques essais en ancrages sémantiques discriminants et stabilise l'apprentissage de la représentation. Des expériences approfondies sur les benchmarks GCFS démontrent l'efficacité et la généralité de notre approche dans des conditions de déploiement réalistes.
Rencontrez les personnes derrière la recherche
Cadre parallèle CPU-GPU pour le traitement par lots d'opérations heuristiques dans la recherche heuristique en profondeur
Ehsan Futuhi*, Nathan R. Sturtevant*
Les progrès rapides de la technologie GPU ont permis de débloquer de puissantes capacités de traitement parallèle, créant ainsi de nouvelles opportunités pour améliorer les algorithmes de recherche classiques. Ce matériel a été exploité dans les algorithmes de recherche « best-first » avec des heuristiques basées sur les réseaux neuronaux en créant des versions par lots de A* et Weighted A* qui retardent l'évaluation heuristique jusqu'à ce qu'un nombre suffisant d'états puissent être évalués en parallèle sur le GPU. Cependant, les recherches n'ont pas abordé la question de savoir comment les algorithmes en profondeur tels que IDA* ou Budgeted Tree Search (BTS) peuvent voir leurs calculs heuristiques traités par lots. Cela est plus compliqué dans une recherche arborescente, car la progression dans l'arbre de recherche est bloquée jusqu'à ce que les évaluations heuristiques soient terminées. Dans cet article, nous montrons que la parallélisation GPU des heuristiques peut être effectuée efficacement lorsque la recherche arborescente est parallélisée sur le CPU tandis que les évaluations heuristiques sont parallélisées sur le GPU. Nous développons un cadre de recherche en profondeur parallélisé à coût limité (CB-DFS) qui peut être appliqué à la fois à IDA* et à BTS, améliorant considérablement leurs performances. Nous démontrons la puissance de cette approche sur le Rubik's Cube 3x3 et le puzzle à tuiles coulissantes 4x4 (STP) avec des heuristiques basées à la fois sur des classificateurs et sur la régression.
GARNET : Réduction des alertes basée sur GoT et suivi des événements narratifs
Yiru Gong, Song Liu, Changzhi Zhao, Junrong Liu, Tian Tian*, Xiaobo Yang, Bo Jiang, Zhigang Lu
Aucun résumé disponible.
Rencontrez les personnes derrière la recherche
Modélisation des tendances d'incertitude pour une récupération rapide dans un RAG dynamique
Bo Li, Tian Tian*, Zhenghua Xu, Hao Cheng, Shikun Zhang, Wei Ye
LIEN VERS L'ARTICLE
La génération dynamique augmentée par la récupération (RAG) permet aux grands modèles linguistiques (LLM) de récupérer des connaissances externes à la demande, offrant une plus grande adaptabilité que la RAG statique. L'un des principaux défis dans ce contexte consiste à déterminer le moment optimal pour la récupération. Les méthodes existantes déclenchent souvent la récupération sur la base d'un faible niveau de confiance au niveau des tokens, ce qui peut entraîner une intervention tardive, une fois que les erreurs se sont déjà propagées. Nous introduisons la contrainte d'entropie-tendance (ETC), une méthode sans apprentissage qui détermine le moment optimal pour la récupération en modélisant la dynamique de l'incertitude au niveau des tokens. Plus précisément, l'ETC utilise les différences de premier et deuxième ordre de la séquence d'entropie pour détecter les tendances d'incertitude émergentes, ce qui permet une récupération plus précoce et plus précise. Des expériences menées sur six benchmarks de questions-réponses avec trois backbones LLM démontrent que l'ETC surpasse systématiquement les bases de référence solides tout en réduisant la fréquence de récupération. L'ETC est particulièrement efficace dans les scénarios spécifiques à un domaine, où il fait preuve de solides capacités de généralisation. Des études d'ablation et des analyses qualitatives confirment en outre que la modélisation de l'incertitude tenant compte des tendances permet un timing de récupération plus efficace. La méthode est prête à l'emploi, indépendante du modèle et facilement intégrable dans les pipelines de décodage existants. Le code de mise en œuvre est inclus dans les documents supplémentaires.
L'IA dans la vie réelle, une évaluation méta-analytique de la détection de la dépression à partir des données issues des réseaux sociaux
Xianglu Tang ; Joyee W. Jin ; Emily Ma ; Xingyu Li*
Aucun résumé n'est disponible.
SynerDetect : apprentissage synergique hiérarchique pour la détection d'images générées par IA généralisable
Shuaibo Li, Yijun Yang, Zhaohu Xing, Hongqiu Wang, Pengfei Hao, Xingyu Li*, Zekai Liu, Qing Zhang, Lei Zhu
Aucun résumé n'est disponible.
Ateliers
Optimisation du cheminement des câbles pendant la construction
Orion Sehn, Nathan R. Sturtevant* et Brian Gue
LIEN VERS L'ARTICLE
L'un des aspects importants des grands projets électriques industriels est le placement des câbles qui relient les différents équipements. De nombreux grands entrepreneurs déterminent encore manuellement les itinéraires à suivre en effectuant des visites informelles et en évaluant visuellement les chemins possibles. Il existe donc une marge importante d'automatisation et d'amélioration dans ce processus. Cet article décrit le problème général, en le reliant à des problèmes connus tels que le problème de recherche de chemin multi-agents (MAPF). Nous abordons certaines des complications pratiques du problème dans le monde réel, décrivons plusieurs abstractions du problème, puis discutons des algorithmes et des approches possibles pour des solutions qui pourraient être déployées dans le monde réel.
Inclus dans l'atelier international AAAI-26 sur la recherche de chemins multi-agents.




)
