Nous sommes ravis de partager certains des travaux que les scientifiques et les étudiants d'Amii présentent à la Conférence internationale conjointe sur l'intelligence artificielle (IJCAI) de cette année.

Cette année, l'IJCAI se tiendra à Macao du 19 au 25 août. Cette conférence est l'une des plus anciennes dans ce domaine, puisqu'elle a débuté en 1969, et constitue un rassemblement international de premier plan pour les chercheurs en intelligence artificielle.

Cette année, les chercheurs d'Ami présentent des articles sur des sujets tels que l'optimisation des programmes avec la recherche locale, le co-entraînement avec des pseudo-étiquettes dans la segmentation d'images médicales et l'apprentissage Q par des conseillers multi-agents.

En savoir plus sur les recherches de pointe présentées à l'IJCAI de cette année.

Une * indique l'affiliation à l'Amii.

Co-training avec des pseudo-étiquettes de haute confiance pour la segmentation semi-supervisée d'images médicales

Zhiqiang Shen, Peng Cao, Hua Yang, Xiaoli Liu, Jinzhu Yang, Osmar R. Zaiane*

Résumé : Les méthodes semi-supervisées basées sur la régularisation de la cohérence et le pseudo-étiquetage effectuent un co-apprentissage en utilisant les pseudo-étiquettes des entrées multi-vues. Cependant, ces modèles de coformation ont tendance à converger rapidement vers un consensus, dégénérant en modèles d'autoformation, et à produire des pseudo-étiquettes peu fiables à partir des entrées perturbées pendant la formation. Pour résoudre ces problèmes, nous proposons un modèle de moyenne collaborative guidée par l'incertitude (UCMT) pour la segmentation sémantique semi-supervisée avec des pseudo-étiquettes de haute confiance. Concrètement, l'UCMT se compose de deux éléments principaux : 1) l'enseignant moyen collaboratif (CMT) pour encourager les désaccords entre les modèles et effectuer un co-entraînement entre les sous-réseaux, et 2) le mélange de régions guidé par l'incertitude (UMIX) pour manipuler les images d'entrée en fonction des cartes d'incertitude de CMT et pour aider CMT à produire des pseudo-étiquettes à haute fiabilité. En combinant les points forts d'UMIX et de CMT, UCMT peut conserver les désaccords entre les modèles et améliorer la qualité des pseudo-étiquettes pour la segmentation par co-apprentissage. Des expériences approfondies sur quatre ensembles de données d'images médicales publiques comprenant des modalités 2D et 3D démontrent la supériorité d'UCMT par rapport à l'état de l'art.

Recherche dans l'arbre de Levin avec des modèles contextuels

Laurent Orseau, Marcus Hutter, Levi H. S. Lelis*

Bien choisir ses adversaires : Comment guider la synthèse des stratégies programmatiques

Rubens O. Moraes*, David S. Aleixo, Lucas N. Ferreira, Levi H. S. Lelis*

Résumé : La recherche par arbre de Levin (LTS) est un algorithme de recherche qui utilise une politique (une distribution de probabilités sur les actions) et s'accompagne d'une garantie théorique sur le nombre d'expansions avant d'atteindre un nœud cible, en fonction de la qualité de la politique. Cette garantie peut être utilisée comme fonction de perte, que nous appelons la perte LTS, pour optimiser les réseaux neuronaux représentant la politique (LTS+NN). Dans ce travail, nous montrons que le réseau neuronal peut être remplacé par des modèles contextuels paramétrés issus de la littérature sur la compression en ligne (LTS+CM). Nous montrons que la perte LTS est convexe dans ce nouveau modèle, ce qui permet d'utiliser des outils d'optimisation convexe standard, et d'obtenir des garanties de convergence vers les paramètres optimaux dans un cadre en ligne pour un ensemble donné de trajectoires de solution - des garanties qui ne peuvent pas être fournies pour les réseaux neuronaux. Le nouvel algorithme LTS+CM se compare favorablement à LTS+NN sur plusieurs points de référence : Sokoban (Boxoban), The Witness et le puzzle des 24 tuiles coulissantes (STP). La différence est particulièrement importante sur STP, où LTS+NN ne parvient pas à résoudre la plupart des instances de test alors que LTS+CM résout chaque instance de test en une fraction de seconde. En outre, nous montrons que LTS+CM est capable d'apprendre une politique qui résout le Rubik's cube en seulement quelques centaines d'expansions, ce qui améliore considérablement les techniques d'apprentissage automatique précédentes.

Pouvez-vous améliorer mon code ? Optimiser les programmes avec la recherche locale

Fatemeh Abdollahi*, Saqib Ameen*, Matthew E. Taylor*, Levi H. S. Lelis*

Résumé : Cet article présente une méthode de recherche locale pour améliorer un programme existant en fonction d'un objectif mesurable. Program Optimization with Locally Improving Search (POLIS) exploite la structure d'un programme, définie par ses lignes. POLIS améliore une seule ligne du programme tout en gardant les autres lignes fixes, en utilisant les algorithmes de synthèse par force brute existants, et continue à itérer jusqu'à ce qu'il soit incapable d'améliorer la performance du programme. POLIS a été évalué dans le cadre d'une étude menée auprès de 27 utilisateurs. Les participants ont écrit des programmes visant à maximiser le score de deux jeux à agent unique : Lunar Lander et Highway : Lunar Lander et Highway. POLIS a permis d'améliorer considérablement les programmes des participants par rapport aux scores des jeux. Une démonstration de faisabilité sur du code Stack Overflow existant permet de mesurer l'applicabilité de POLIS à des problèmes du monde réel. Ces résultats suggèrent que POLIS pourrait être utilisé comme un assistant de programmation utile pour les problèmes de programmation avec des objectifs mesurables.

Recherche heuristique bidirectionnelle frontale avec heuristique cohérente : Enumération et évaluation d'algorithmes et de limites

Lior Siag, Shahaf Shperberg, Ariel Felner, Nathan Sturtevant*

Résumé : Il est bien connu que tout algorithme de recherche heuristique unidirectionnel admissible doit développer tous les états dont la valeur f est plus petite que le coût de la solution optimale lorsqu'il utilise une heuristique cohérente. De tels états sont appelés "surely expanded" (s.e.). Une étude récente a caractérisé les paires d'états s.e. pour la recherche bidirectionnelle avec des heuristiques cohérentes : si une paire d'états est s.e., alors au moins un des deux états doit être développé. Cet article dérive une borne inférieure, VC, sur le nombre minimum d'expansions requises pour couvrir toutes les paires s.e., et présente un nouvel algorithme de recherche heuristique bidirectionnelle frontale admissible, Near-Optimal Bidirectional Search (NBS), qui est garanti de ne pas faire plus de 2VC expansions. Nous prouvons en outre qu'aucun algorithme admissible de recherche bidirectionnelle frontale n'a un pire cas meilleur que 2VC. Les résultats expérimentaux montrent que NBS rivalise avec les algorithmes de recherche bidirectionnelle existants ou les surpasse, et qu'il est souvent plus performant que A*.

Apprentissage Q du conseiller multi-agents

Sriram Ganapathi Subramanian, Matthew E. Taylor*, Kate Larson, Mark Crowley

Résumé : Au cours de la dernière décennie, l'apprentissage par renforcement multi-agents (MARL) a connu des avancées significatives, mais de nombreux défis, tels que la complexité élevée des échantillons et la lenteur de la convergence vers des politiques stables, doivent encore être surmontés avant qu'un déploiement à grande échelle ne soit possible. Cependant, de nombreux environnements réels déploient déjà, dans la pratique, des approches sous-optimales ou heuristiques pour générer des politiques. Une question intéressante qui se pose est de savoir comment utiliser au mieux ces approches en tant que conseillers pour améliorer l'apprentissage par renforcement dans les domaines multi-agents. Dans cet article, nous proposons un cadre fondé sur des principes pour l'intégration de recommandations d'action provenant de conseillers sous-optimaux en ligne dans des contextes multi-agents. Nous décrivons le problème ADMIRAL (ADvising Multiple Intelligent Reinforcement Agents) dans des environnements de jeux stochastiques non restrictifs à somme générale et présentons deux nouveaux algorithmes basés sur l'apprentissage par la qualité : ADMIRAL - Prise de décision (ADMIRAL-DM) et ADMIRAL - Évaluation du conseiller (ADMIRAL-AE), qui nous permettent d'améliorer l'apprentissage en incorporant de manière appropriée les conseils d'un conseiller (ADMIRAL-DM) et d'évaluer l'efficacité d'un conseiller (ADMIRAL-AE). Nous analysons les algorithmes de manière théorique et fournissons des garanties de point fixe concernant leur apprentissage dans des jeux stochastiques à somme générale. En outre, des expériences approfondies montrent que ces algorithmes : peuvent être utilisés dans divers environnements, ont des performances qui se comparent favorablement à d'autres lignes de base connexes, peuvent s'adapter à de grands espaces état-action, et sont robustes aux mauvais conseils des conseillers.