Amii Research à NeurIPS 2025 : avancées dans l'apprentissage par renforcement, les modèles linguistiques à grande échelle (LLM) et l'apprentissage continu

Publié

1er décembre 2025

Catégories

Perspectives

Sujet

Recherche

La trente-neuvième édition annuelle Neural Information Processing Systems (NeurIPS) commence cette semaine à San Diego et à Mexico, et l'Amii est fière de partager certaines des recherches que nos membres, les chaires d'IA du CIFAR au Canada et les étudiants affiliés présentent lors de l'événement de cette année.

Lancée en 1987, NeurIPS est devenue une conférence de premier plan sur l'apprentissage automatique et les neurosciences cognitives. Chaque année, elle attire des chercheurs issus de nombreuses disciplines différentes, notamment la théorie de l'information, la vision par ordinateur et la linguistique.

Cette année, les chercheurs d'Amii présentent des articles mettant en avant des recherches de pointe : mieux comprendre comment les agents d'apprentissage par renforcement apprennent et s'adaptent aux nouvelles informations, augmenter la capacité de raisonnement des grands modèles linguistiques et réduire les biais et les injustices dans les algorithmes. 

Vous souhaitez rester informé des dernières recherches menées par la communauté Amii ? Inscrivez-vous à notre newsletter mensuelle !

* indique l'affiliation à Amii

Conférenciers invités

Rich Sutton

3 décembre

Sutton soutiendra que « l'IA est devenue une industrie gigantesque, au point d'avoir perdu son chemin », et proposera un retour aux principes fondamentaux : « Nous avons besoin d'agents qui apprennent en permanence. Nous avons besoin de modèles mondiaux et de planification. Nous avons besoin de connaissances de haut niveau et faciles à acquérir. »

Articles acceptés

STEER-ME : Évaluation du raisonnement microéconomique des grands modèles linguistiques

Narun Raman, Taylor Lundy, Thiago Amin, Jesse Perla, Kevin Leyton-Brown*

LIEN VERS L'ARTICLE

Comment juger si un modèle linguistique à grande échelle (LLM) donné est capable d'effectuer des raisonnements économiques de manière fiable ? La plupart des benchmarks LLM existants se concentrent sur des applications spécifiques et ne présentent pas au modèle une grande variété de tâches économiques. Une exception notable est celle de Raman et al. [2024], qui proposent une approche permettant d'évaluer de manière exhaustive la prise de décision stratégique ; cependant, cette approche ne tient pas compte des contextes non stratégiques qui prévalent en microéconomie, tels que l'analyse de l'offre et de la demande. Nous comblons cette lacune en classant le raisonnement microéconomique en 58 éléments distincts, axés sur la logique de l'offre et de la demande, chacun reposant sur un maximum de 10 domaines distincts, 5 perspectives et 3 types. La génération de données de référence dans cet espace combinatoire est rendue possible par un nouveau protocole de génération de données assisté par LLM que nous appelons auto-STEER, qui génère un ensemble de questions en adaptant des modèles manuscrits à de nouveaux domaines et perspectives. Comme il offre un moyen automatisé de générer de nouvelles questions, auto-STEER atténue le risque que les LLM soient entraînés à sur-ajuster les benchmarks d'évaluation ; nous espérons donc qu'il servira d'outil utile à la fois pour évaluer et affiner les modèles dans les années à venir. Nous démontrons l'utilité de notre référence à travers une étude de cas portant sur 27 LLM, allant de petits modèles open source à l'état de l'art actuel. Nous avons examiné la capacité de chaque modèle à résoudre des problèmes microéconomiques dans l'ensemble de notre taxonomie et présentons les résultats pour toute une série de stratégies d'invitation et de mesures de notation.

ReMA : Apprendre à réfléchir de manière méta pour les LLMs grâce à l'apprentissage par renforcement multi-agents

Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt*, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen


LIEN VERS L'ARTICLE

Des recherches récentes sur le raisonnement des grands modèles linguistiques (LLM) ont cherché à améliorer encore leurs performances en intégrant la méta-réflexion, qui permet aux modèles de surveiller, d'évaluer et de contrôler leurs processus de raisonnement pour une résolution des problèmes plus adaptative et plus efficace. Cependant, les travaux actuels sur les agents uniques ne disposent pas d'une conception spécialisée pour acquérir la méta-réflexion, ce qui se traduit par une faible efficacité. Pour relever ce défi, nous introduisons les agents de méta-réflexion renforcés (ReMA), un nouveau cadre qui exploite l'apprentissage par renforcement multi-agents (MARL) pour susciter des comportements de méta-réflexion, encourageant les LLM à réfléchir sur leur réflexion. ReMA découple le processus de raisonnement en deux agents hiérarchiques : un agent de méta-réflexion de haut niveau chargé de générer une supervision et des plans stratégiques, et un agent de raisonnement de bas niveau chargé des exécutions détaillées. Grâce à un apprentissage par renforcement itératif avec des objectifs alignés, ces agents explorent et apprennent la collaboration, ce qui améliore la généralisation et la robustesse. Les résultats empiriques d'expériences à tour unique démontrent que ReMA surpasse les références RL à agent unique dans des tâches de raisonnement complexes, notamment des benchmarks mathématiques de niveau compétitif et des benchmarks LLM-as-a-Judge. De plus, nous étendons ReMA à des configurations d'interaction à plusieurs tours, en tirant parti du ratio au niveau des tours et du partage des paramètres pour améliorer l'efficacité. Des études d'ablation complètes illustrent davantage la dynamique évolutive de chaque agent distinct, fournissant des informations précieuses sur la manière dont le processus de raisonnement méta-réflexion améliore les capacités de raisonnement des LLM. Notre code est disponible à cette URL https

Biais implicite de la descente spectrale et du muon sur des données séparables multiclasses

Chen Fan, Mark Schmidt*, Christos Thrampoulidis

LIEN VERS L'ARTICLE

Différentes méthodes basées sur les gradients pour optimiser les modèles surparamétrés peuvent toutes atteindre une erreur d'apprentissage nulle, mais convergent vers des solutions nettement différentes induisant des propriétés de généralisation différentes. Nous fournissons la première caractérisation complète du biais d'optimisation implicite pour les algorithmes de descente la plus raide normalisée par la norme p (NSD) et de descente la plus raide par impulsion (NMD) dans la classification linéaire multiclasses avec perte d'entropie croisée. Notre principale contribution théorique consiste à prouver que ces algorithmes convergent vers des solutions maximisant la marge par rapport à la norme p de la matrice de classification, avec des taux de convergence établis. Ces résultats englobent des cas particuliers importants, notamment Spectral Descent et Muon, dont nous montrons qu'ils convergent vers des solutions à marge maximale par rapport à la norme spectrale. Une idée clé de notre contribution est que l'analyse des normes p générales par entrée et de Schatten peut être réduite à l'analyse de NSD/NMD avec la norme max en exploitant une propriété d'ordre naturel entre toutes les normes p par rapport à la norme max et sa norme somme duale. Pour le cas spécifique de la descente par rapport à la norme maximale, nous étendons notre analyse pour inclure le préconditionnement, montrant qu'Adam converge vers la solution de norme maximale de la matrice. Nos résultats démontrent que le cadre linéaire multi-classes, qui est intrinsèquement plus riche que son homologue binaire, fournit le cadre le plus transparent pour étudier les biais implicites des algorithmes d'optimisation des paramètres matriciels.

La plasticité comme reflet de l'autonomisation

David Abel, Michael Bowling*, André Barreto, Will Dabney, Shi Dong, Steven Hansen, Anna Harutyunyan, Khimya Khetarpal, Clare Lyle, Razvan Pascanu, Georgios Piliouras, Doina Precup, Jonathan Richens, Mark Rowland, Tom Schaul, Satinder Singh

LIEN VERS L'ARTICLE

Les agents sont, au minimum, des entités influencées par leurs observations passées et agissant de manière à influencer leurs observations futures. Cette dernière capacité est capturée par l'autonomisation, qui a servi de concept cadre essentiel dans le domaine de l'intelligence artificielle et des sciences cognitives. La première capacité est toutefois tout aussi fondamentale : de quelle manière et dans quelle mesure un agent peut-il être influencé par ce qu'il observe ? Dans cet article, nous fondons ce concept sur une mesure universelle centrée sur l'agent que nous appelons plasticité, et nous révélons un lien fondamental avec l'autonomisation. À la suite d'une série de desiderata sur une définition appropriée, nous définissons la plasticité à l'aide d'une nouvelle quantité informationnelle que nous appelons l'information dirigée généralisée. Nous montrons que cette nouvelle quantité généralise strictement l'information dirigée introduite par Massey (1990) tout en conservant toutes ses propriétés souhaitables. Selon cette définition, nous constatons que la plasticité peut être considérée comme le reflet de l'autonomisation : les deux concepts sont définis à l'aide de la même mesure, seule la direction de l'influence étant inversée. Notre principal résultat établit une tension entre la plasticité et l'autonomisation d'un agent, suggérant que la conception d'un agent doit tenir compte de ces deux caractéristiques. Nous explorons les implications de ces résultats et suggérons que la plasticité, l'autonomisation et leur relation sont essentielles pour comprendre l'action.

Apprendre à nettoyer : apprentissage par renforcement pour la correction des étiquettes bruitées

Marzi Heidari, Hanping Zhang, Yuhong Guo*

LIEN VERS L'ARTICLE

Le défi que représente l'apprentissage avec des étiquettes bruitées est important dans le domaine de l'apprentissage automatique, car il peut gravement dégrader les performances des modèles de prédiction s'il n'est pas traité correctement. Cet article présente un nouveau cadre qui conceptualise la correction des étiquettes bruitées comme un problème d'apprentissage par renforcement (RL). L'approche proposée, Reinforcement Learning for Noisy Label Correction (RLNLC), définit un espace d'état complet représentant les données et leurs étiquettes associées, un espace d'action indiquant les corrections d'étiquettes possibles et un mécanisme de récompense évaluant l'efficacité des corrections d'étiquettes. RLNLC apprend un réseau de politiques basé sur une représentation profonde des caractéristiques afin d'effectuer la correction des étiquettes par le biais de l'apprentissage par renforcement, en utilisant une méthode acteur-critique. La politique apprise est ensuite déployée pour corriger de manière itérative les étiquettes d'entraînement bruitées et faciliter l'entraînement du modèle de prédiction. L'efficacité du RLNLC est démontrée par des expériences approfondies sur plusieurs ensembles de données de référence, où il surpasse systématiquement les techniques de pointe existantes pour l'apprentissage avec des étiquettes bruitées.

Proto-représentations sensibles à la récompense dans l'apprentissage par renforcement

Hon Tik Tse*, Siddarth Chandrasekar*, Marlos C. Machado*

LIEN VERS L'ARTICLE

Ces dernières années, la représentation successeur (SR) a suscité un intérêt croissant dans le domaine de l'apprentissage par renforcement (RL) et a été utilisée pour relever certains de ses principaux défis, tels que l'exploration, l'attribution de crédit et la généralisation. La SR peut être considérée comme représentant la structure sous-jacente d'attribution de crédit de l'environnement en codant implicitement sa dynamique de transition induite. Cependant, la SR est indépendante de la récompense. Dans cet article, nous discutons d'une représentation similaire qui prend également en compte la dynamique de récompense du problème. Nous étudions la représentation par défaut (DR), une représentation récemment proposée dont l'analyse théorique (et empirique) est limitée. Nous posons ici certaines des bases théoriques sous-jacentes à la DR dans le cas tabulaire en (1) dérivant la programmation dynamique et (2) les méthodes de différence temporelle pour apprendre la DR, (3) caractérisant la base de l'espace vectoriel de la DR, et (4) étendant formellement la DR au cas de l'approximation de fonction par le biais de caractéristiques par défaut. Empiriquement, nous analysons les avantages de la DR dans de nombreux contextes dans lesquels la SR a été appliquée, notamment (1) la formation de la récompense, (2) la découverte d'options, (3) l'exploration et (4) l'apprentissage par transfert. Nos résultats montrent que, par rapport à la SR, la DR donne lieu à un comportement qualitativement différent, sensible à la récompense, et à des performances quantitativement meilleures dans plusieurs contextes.

Le monde est plus grand : une perspective informatique intégrée sur l'hypothèse du grand monde

Alex Lewandowski*, Aditya A. Ramesh, Edan Meyer*, Dale Schuurmans*, Marlos C. Machado*

LIEN VERS L'ARTICLE

L'apprentissage continu est souvent motivé par l'idée, connue sous le nom d'hypothèse du monde vaste, selon laquelle le monde est plus vaste que l'agent. Les formulations récentes du problème reflètent cette idée en imposant explicitement des contraintes à l'agent par rapport à l'environnement. Ces contraintes conduisent à des solutions dans lesquelles l'agent s'adapte continuellement pour utiliser au mieux ses capacités limitées, plutôt que de converger vers une solution fixe. Cependant, les contraintes explicites peuvent être ad hoc, difficiles à intégrer et limiter l'efficacité de l'augmentation des capacités de l'agent. Dans cet article, nous caractérisons un problème dans lequel un agent, quelle que soit sa capacité, est implicitement contraint par son intégration dans l'environnement. En particulier, nous introduisons une perspective intégrée sur le plan informatique qui représente un agent intégré comme un automate simulé dans un ordinateur universel (formel). Nous prouvons qu'un tel automate est implicitement contraint et qu'il est équivalent à un agent qui interagit avec un processus de décision markovien sans récompense et partiellement observable sur un espace d'états infini dénombrable. Nous proposons un objectif pour ce cadre, que nous appelons interactivité, qui mesure la capacité d'un agent à adapter continuellement son comportement pour apprendre de nouvelles prédictions. Afin de soutenir l'expérimentation sur l'adaptation continue, nous développons un benchmark synthétique dans lequel un agent à la recherche d'interactivité construit son propre flux d'expérience non stationnaire à partir duquel il doit continuellement apprendre à prédire.

Comprendre l'équité et l'erreur de prédiction grâce à la décomposition en sous-espaces et à l'analyse d'influence

Enze Shi, Pankaj Bhagwat, Zhixian Yang, Linglong Kong*, Bei Jiang*

LIEN VERS L'ARTICLE

Les modèles d'apprentissage automatique ont connu un succès retentissant, mais ils héritent et amplifient souvent les biais historiques, ce qui conduit à des résultats injustes. Les méthodes traditionnelles en matière d'équité imposent généralement des contraintes au niveau des prédictions, sans s'attaquer aux biais sous-jacents dans les représentations des données. Dans cet article, nous proposons un cadre théorique qui ajuste les représentations des données afin d'équilibrer l'utilité prédictive et l'équité. À l'aide d'une réduction suffisante de la dimension, nous décomposons l'espace des caractéristiques en composants pertinents pour la cible, sensibles et partagés, et contrôlons le compromis entre équité et utilité en supprimant de manière sélective les informations sensibles. Nous fournissons une analyse théorique de l'évolution des erreurs de prédiction et des écarts d'équité à mesure que des sous-espaces partagés sont ajoutés, et utilisons des fonctions d'influence pour quantifier leurs effets sur le comportement asymptotique des estimations de paramètres. Des expériences menées sur des ensembles de données synthétiques et réels valident nos conclusions théoriques et montrent que la méthode proposée améliore efficacement l'équité tout en préservant les performances prédictives.

Avantages intrinsèques de la perte de distribution catégorielle : exploration régularisée tenant compte de l'incertitude dans l'apprentissage par renforcement

Ke Sun, Yingnan Zhao, Enze Shi, Yafei Wang, Xiaodong Yan, Linglong Kong*, Bei Jiang*

LIEN VERS L'ARTICLE

Les modèles d'apprentissage automatique ont connu un succès retentissant, mais ils héritent et amplifient souvent les biais historiques, ce qui conduit à des résultats injustes. Les méthodes traditionnelles en matière d'équité imposent généralement des contraintes au niveau des prédictions, sans s'attaquer aux biais sous-jacents dans les représentations des données. Dans cet article, nous proposons un cadre théorique qui ajuste les représentations des données afin d'équilibrer l'utilité prédictive et l'équité. À l'aide d'une réduction suffisante de la dimension, nous décomposons l'espace des caractéristiques en composants pertinents pour la cible, sensibles et partagés, et contrôlons le compromis entre équité et utilité en supprimant de manière sélective les informations sensibles. Nous fournissons une analyse théorique de l'évolution des erreurs de prédiction et des écarts d'équité à mesure que des sous-espaces partagés sont ajoutés, et utilisons des fonctions d'influence pour quantifier leurs effets sur le comportement asymptotique des estimations de paramètres. Des expériences menées sur des ensembles de données synthétiques et réels valident nos conclusions théoriques et montrent que la méthode proposée améliore efficacement l'équité tout en préservant les performances prédictives.

REINFORCE converge vers des politiques optimales avec n'importe quel taux d'apprentissage

Samuel McLaughlin Robertson*, Thang D. Chu*, Bo Dai, Dale Schuurmans*, Csaba Szepesvari*, Jincheng Mei

LIEN VERS L'ARTICLE

Les modèles d'apprentissage automatique ont connu un succès retentissant, mais ils héritent et amplifient souvent les biais historiques, ce qui conduit à des résultats injustes. Les méthodes traditionnelles en matière d'équité imposent généralement des contraintes au niveau des prédictions, sans s'attaquer aux biais sous-jacents dans les représentations des données. Dans cet article, nous proposons un cadre théorique qui ajuste les représentations des données afin d'équilibrer l'utilité prédictive et l'équité. À l'aide d'une réduction suffisante de la dimension, nous décomposons l'espace des caractéristiques en composants pertinents pour la cible, sensibles et partagés, et contrôlons le compromis entre équité et utilité en supprimant de manière sélective les informations sensibles. Nous fournissons une analyse théorique de l'évolution des erreurs de prédiction et des écarts d'équité à mesure que des sous-espaces partagés sont ajoutés, et utilisons des fonctions d'influence pour quantifier leurs effets sur le comportement asymptotique des estimations de paramètres. Des expériences menées sur des ensembles de données synthétiques et réels valident nos conclusions théoriques et montrent que la méthode proposée améliore efficacement l'équité tout en préservant les performances prédictives.

Dimension Eluder : localisez-la !

Alireza Bakhtiari*, Alex Ayoub*, Samuel McLaughlin Robertson*, David Janz, Csaba Szepesvari*

LIEN VERS L'ARTICLE

Nous établissons une borne inférieure sur la dimension d'élusion dans les classes de modèles linéaires généralisés, montrant que l'analyse standard basée sur la dimension d'élusion ne peut pas conduire à des bornes de regret de premier ordre. Pour remédier à cela, nous introduisons une méthode de localisation pour la dimension d'élusion ; notre analyse récupère et améliore immédiatement les résultats classiques pour les bandits de Bernoulli, et permet d'obtenir les premières bornes authentiques de premier ordre pour les tâches d'apprentissage par renforcement à horizon fini avec des rendements cumulés limités.

Au-delà des moindres carrés : approximation uniforme et coût caché des erreurs de spécification

Davide Maran, Csaba Szepesvari*

LIEN VERS L'ARTICLE

Résumé non disponible ici. Consultez l'article complet.

Modèle graphique multicouche latent pour systèmes complexes et interdépendants

Martin Ondrus*, Ivor Cribben, Yang Feng

LIEN VERS L'ARTICLE

Les réseaux ont été largement utilisés et ont apporté des perspectives nouvelles dans un grand nombre de domaines de recherche. Cependant, de nombreux systèmes réels sont en réalité des « réseaux de réseaux », ou des réseaux multicouches, qui interagissent en tant que composants d'un système multimodal plus vaste. Une difficulté majeure dans ce cadre multicouche est l'estimation des arêtes ou des connexions entre les couches. Dans ce travail, nous proposons une nouvelle méthode d'estimation, appelée estimation de covariance inverse multicouche clairsemée + de rang faible (multiSLICE), qui estime les arêtes entre les couches. multiSLICE fait le pont entre les méthodes graphiques gaussiennes à variables latentes et les réseaux multicouches, offrant un cadre flexible pour la modélisation de processus avec un échantillonnage irrégulier et des structures graphiques hétérogènes. Nous développons un algorithme efficace pour calculer l'estimateur. Nous établissons également les conditions théoriques pour la récupérabilité de l'espace conjoint, analysons comment les interactions entre les couches influencent l'estimation des paramètres conjoints et fournissons des limites théoriques sur leurs relations. Enfin, nous évaluons rigoureusement notre méthode sur des données simulées et des données de neuroimagerie multimodales, démontrant ainsi des améliorations par rapport aux approches de pointe. Enfin, tout le code R pertinent mettant en œuvre la méthode décrite dans l'article est disponible sur GitHub.

Modèles formels d'apprentissage actif à partir d'exemples contrastés

Farnam Mansouri, Hans U. Simon, Adish Singla, Yuxin Chen, Sandra Zilles*

L'apprentissage automatique peut grandement bénéficier de la fourniture d'algorithmes d'apprentissage avec des paires d'exemples d'entraînement contrastés, généralement des paires d'instances qui ne diffèrent que légèrement, mais qui ont des étiquettes de classe différentes. Intuitivement, la différence entre les instances aide à expliquer la différence entre les étiquettes de classe. Cet article propose un cadre théorique dans lequel l'effet de divers types d'exemples contrastés sur les apprenants actifs est étudié de manière formelle. L'accent est mis sur la complexité de l'échantillonnage des classes de concepts d'apprentissage et sur la manière dont elle est influencée par le choix des exemples contrastés. Nous illustrons nos résultats à l'aide de classes de concepts géométriques et de classes de fonctions booléennes. Il est intéressant de noter que nous révélons un lien entre l'apprentissage à partir d'exemples contrastés et le modèle classique d'apprentissage autodirigé.

Meta-World+ : un benchmark RL amélioré et standardisé

Reginald McLean*, Evangelos Chatzaroulas, Luc McCutcheon, Frank Röder, Tianhe Yu, Zhanpeng He, K.R. Zentner, Ryan Julian, J K Terry, Isaac Woungang, Nariman Farsad, Pablo Samuel Castro

LIEN VERS L'ARTICLE

Meta-World est largement utilisé pour évaluer les agents d'apprentissage multi-tâches et de méta-renforcement, qui doivent maîtriser simultanément diverses compétences. Cependant, depuis son introduction, de nombreux changements non documentés ont empêché une comparaison équitable des algorithmes. Ce travail vise à clarifier ces résultats issus de la littérature, tout en tirant parti des versions précédentes de Meta-World pour fournir des informations sur la conception de benchmarks d'apprentissage multi-tâches et de méta-renforcement. À travers ce processus, nous publions une nouvelle version open source de Meta-World (cette URL https) qui offre une reproductibilité totale des résultats passés, est plus ergonomique sur le plan technique et donne aux utilisateurs plus de contrôle sur les tâches incluses dans un ensemble de tâches.

DUAL : apprentissage de noyaux diversifiés pour les tests agrégés à deux échantillons et d'indépendance

Zhijian Zhou, Xunye Tian, Liuhua Peng, Chao Lei, Antonin Schrab, Danica J. Sutherland*, Feng Liu

LIEN VERS L'ARTICLE

Pour adapter les tests d'indépendance et à deux échantillons du noyau à des données structurées complexes, l'agrégation de plusieurs noyaux est fréquemment utilisée afin d'augmenter la puissance des tests par rapport aux tests à noyau unique. Cependant, nous observons un phénomène selon lequel la maximisation directe des statistiques basées sur plusieurs noyaux peut aboutir à des noyaux très similaires qui capturent des informations très similaires, ce qui limite l'efficacité de l'agrégation. Pour remédier à cela, nous proposons une statistique agrégée qui intègre explicitement la diversité des noyaux en fonction de la covariance entre les différents noyaux. De plus, nous identifions un défi fondamental : le compromis entre la diversité des noyaux et la puissance de test des noyaux individuels, c'est-à-dire que les noyaux sélectionnés doivent être à la fois efficaces et diversifiés. Cela motive la mise en place d'un cadre de test avec inférence de sélection, qui exploite les informations de la phase d'apprentissage pour sélectionner des noyaux ayant de fortes performances individuelles à partir du pool de noyaux diversifiés appris. Nous fournissons des énoncés théoriques rigoureux et des preuves pour démontrer la cohérence de la puissance de test et du contrôle de l'erreur de type I, ainsi qu'une analyse asymptotique des statistiques proposées. Enfin, nous avons mené des expériences empiriques approfondies démontrant la performance supérieure de notre approche proposée à travers divers benchmarks pour les tests à deux échantillons et les tests d'indépendance.

De la difficulté des tests d'indépendance conditionnelle dans la pratique

Zheng He, Roman Pogodin, Yazhe Li, Namrata Deka, Arthur Gretton, Danica J. Sutherland*

LIEN VERS L'ARTICLE

Les tests d'indépendance conditionnelle (CI) sous-tendent un certain nombre de problèmes importants dans l'apprentissage automatique et les statistiques, de la découverte causale à l'évaluation de l'équité des prédicteurs et de la robustesse hors distribution. Shah et Peters (2020) ont montré que, contrairement au cas inconditionnel, aucun test universellement valide sur un échantillon fini ne peut jamais atteindre une puissance non négligeable. Bien qu'informatif, ce résultat (basé sur la « dissimulation » de la dépendance) ne semble pas expliquer les échecs pratiques fréquents observés avec les tests CI courants. Nous étudions le test d'indépendance conditionnelle basé sur le noyau (KCI) – dont nous montrons que la mesure de covariance généralisée qui sous-tend de nombreux tests récents est presque un cas particulier – et identifions les principaux facteurs qui sous-tendent son comportement pratique. Nous soulignons le rôle clé des erreurs dans l'estimation de la moyenne conditionnelle pour l'erreur de type I, tout en soulignant l'importance de sélectionner un noyau de conditionnement approprié (non reconnu dans les travaux précédents) comme étant nécessaire pour une bonne puissance du test, mais aussi comme ayant tendance à gonfler l'erreur de type I.

Sur l'effet du gradient négatif dans l'optimisation relative profonde par renforcement de groupe

Wenlong Deng, Yi Ren, Muchen Li, Danica J. Sutherland*, Xiaoxiao Li, Christos Thrampoulidis

LIEN VERS L'ARTICLE

L'apprentissage par renforcement (RL) est devenu populaire pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM), l'optimisation relative des politiques de groupe (GRPO) s'imposant comme un algorithme largement utilisé dans les systèmes récents. Malgré l'adoption généralisée de la GRPO, nous avons identifié un phénomène jusqu'alors inconnu que nous avons baptisé « déplacement paresseux de la probabilité » (LLD), dans lequel la probabilité de réponses correctes augmente légèrement, voire diminue, pendant l'entraînement. Ce comportement reflète un problème de désalignement récemment découvert dans l'optimisation directe des préférences (DPO), attribué à l'influence des gradients négatifs. Nous fournissons une analyse théorique de la dynamique d'apprentissage du GRPO, identifiant la source du LLD comme étant la pénalisation naïve de tous les tokens dans les réponses incorrectes avec la même force. Pour y remédier, nous développons une méthode appelée NTHR, qui réduit la pondération des pénalités sur les jetons contribuant au LLD. Contrairement aux approches précédentes basées sur la DPO, la NTHR tire parti de la structure basée sur les groupes de la GRPO, en utilisant les réponses correctes comme ancres pour identifier les jetons influents. Des expériences sur des benchmarks de raisonnement mathématique démontrent que la NTHR atténue efficacement le LLD, ce qui se traduit par des gains de performance constants sur des modèles allant de 0,5 à 3 milliards de paramètres.

NOBLE - Opérateur neuronal avec des intégrations latentes biologiquement informées pour capturer la variabilité expérimentale dans les modèles de neurones biologiques

Luca Ghafourpour, Valentin Duruisseaux, Bahareh Tolooshams*, Philip H. Wong, Costas A. Anastassiou, Anima Anandkumar

LIEN VERS L'ARTICLE

La caractérisation des propriétés cellulaires des neurones est fondamentale pour comprendre leur fonction dans le cerveau. Dans cette quête, la génération de modèles bio-réalistes est essentielle pour intégrer des ensembles de données cellulaires multimodales et établir des relations causales. Cependant, les approches de modélisation actuelles restent limitées par la disponibilité restreinte et la variabilité intrinsèque des données neuronales expérimentales. Le formalisme déterministe des modèles bio-réalistes empêche actuellement de prendre en compte la variabilité naturelle observée expérimentalement. Si l'apprentissage profond devient de plus en plus pertinent dans ce domaine, il ne parvient pas à saisir toute la complexité biophysique des neurones, leur dynamique de tension non linéaire et leur variabilité. Pour pallier ces lacunes, nous introduisons NOBLE, un cadre d'opérateurs neuronaux qui apprend à établir une correspondance entre un encodage continu à modulation de fréquence des caractéristiques interprétables des neurones et la réponse de tension somatique induite par l'injection de courant. Entraîné sur des données synthétiques générées à partir de modèles neuronaux bio-réalistes, NOBLE prédit les distributions de la dynamique neuronale en tenant compte de la variabilité expérimentale intrinsèque. Contrairement aux modèles neuronaux bio-réalistes conventionnels, l'interpolation dans l'espace d'intégration offre des modèles dont la dynamique est cohérente avec les réponses observées expérimentalement. NOBLE permet la génération efficace de neurones synthétiques qui ressemblent étroitement aux données expérimentales et présentent une variabilité d'un essai à l'autre, offrant une accélération de 4200 fois par rapport au solveur numérique. NOBLE est le premier cadre d'apprentissage profond à grande échelle qui valide sa généralisation avec des données expérimentales réelles. À cette fin, NOBLE capture les propriétés neuronales fondamentales d'une manière unique et émergente qui ouvre la voie à une meilleure compréhension de la composition et des calculs cellulaires, des architectures neuromorphiques, des circuits cérébraux à grande échelle et des applications générales de neuro-IA.

De plat à hiérarchique : extraction de représentations clairsemées avec la poursuite par correspondance

Valérie Costa, Thomas Fel, Ekdeep Singh Lubana, Bahareh Tolooshams, Demba Ba

LIEN VERS L'ARTICLE

Motivés par l'hypothèse selon laquelle les représentations des réseaux neuronaux codent des caractéristiques abstraites et interprétables sous forme de directions linéairement accessibles et approximativement orthogonales, les auto-encodeurs clairsemés (SAE) sont devenus un outil populaire dans la littérature sur l'interprétabilité. Cependant, des travaux récents ont démontré une phénoménologie des représentations des modèles qui dépasse le cadre de cette hypothèse, montrant des signatures de caractéristiques hiérarchiques, non linéaires et multidimensionnelles. Cela soulève la question suivante : les SAE représentent-ils des caractéristiques dont la structure est en contradiction avec leur hypothèse motivante ? Si ce n'est pas le cas, le fait d'éviter cette incompatibilité permet-il d'identifier lesdites caractéristiques et d'obtenir des informations supplémentaires sur les représentations des réseaux neuronaux ? Pour répondre à ces questions, nous adoptons une approche basée sur la construction et recontextualisons l'algorithme populaire de recherche par correspondance (MP) du codage clairsemé pour concevoir le MP-SAE, un SAE qui déroule son encodeur en une séquence d'étapes guidées par les résidus, lui permettant de capturer des caractéristiques hiérarchiques et accessibles de manière non linéaire. En comparant cette architecture avec les SAE existants sur un mélange de données synthétiques et naturelles, nous montrons que : (i) les concepts hiérarchiques induisent des caractéristiques conditionnellement orthogonales, que les SAE existants ne sont pas en mesure de capturer fidèlement, et (ii) l'étape de codage non linéaire du MP-SAE récupère des caractéristiques très significatives, nous aidant à démêler la structure commune dans les espaces de représentation apparemment dichotomiques de différentes modalités dans un modèle vision-langage, démontrant ainsi que l'hypothèse selon laquelle les caractéristiques utiles sont uniquement accessibles de manière linéaire est insuffisante. Nous montrons également que le principe d'encodeur séquentiel du MPSAE offre un avantage supplémentaire d'adaptabilité au moment de l'inférence, ce qui peut présenter un intérêt indépendant. Dans l'ensemble, nous affirmons que nos résultats corroborent l'idée selon laquelle l'interprétabilité doit commencer par la phénoménologie des représentations, avec des méthodes issues d'hypothèses qui s'y adaptent.

Sélection multi-classes en ligne avec garantie d'équité pour les groupes

Faraz Zargari*, Hossein Nekouyan*, Lyndon Hallett, Bo Sun, Xiaoqi Tan*

LIEN VERS L'ARTICLE

Nous étudions le problème de sélection multi-classes en ligne avec des garanties d'équité de groupe, où des ressources limitées doivent être allouées à des agents arrivant séquentiellement. Nos travaux abordent deux limitations clés dans la littérature existante. Premièrement, nous introduisons un nouveau schéma d'arrondi sans perte qui garantit que l'algorithme intégral atteint les mêmes performances attendues que n'importe quelle solution fractionnaire. Deuxièmement, nous abordons explicitement les défis posés par les agents qui appartiennent à plusieurs classes. À cette fin, nous développons un algorithme aléatoire basé sur un cadre de relaxation et d'arrondi. L'algorithme calcule d'abord une solution fractionnaire à l'aide d'une approche de réservation de ressources, appelée mécanisme de mise de côté, afin de garantir l'équité entre les classes. L'étape d'arrondi qui suit préserve ces garanties d'équité sans dégrader les performances. De plus, nous proposons une variante augmentée par l'apprentissage qui intègre des prédictions non fiables issues de l'apprentissage automatique afin de mieux équilibrer l'équité et l'efficacité dans des contextes pratiques.

Difficulté computationnelle de l'apprentissage par renforcement avec réalisabilité partielle qπ

Shayan Karimi*, Xiaoqi Tan*

LIEN VERS L'ARTICLE

Cet article examine la complexité computationnelle de l'apprentissage par renforcement dans un nouveau régime d'approximation de fonctions linéaires, appelé « réalisabilité partielle qπ ». Dans ce cadre, l'objectif est d'apprendre une politique ϵ-optimale par rapport à un ensemble de politiques prédéfini Π, en supposant que toutes les fonctions de valeur pour les politiques dans Π sont linéairement réalisables. Les hypothèses de ce cadre sont plus faibles que celles de la réalisabilité qπ, mais plus fortes que celles de la réalisabilité q∗, fournissant ainsi un modèle pratique où l'approximation de fonction apparaît naturellement. Nous prouvons que l'apprentissage d'une politique ϵ-optimale dans ce contexte est difficile sur le plan informatique. Plus précisément, nous établissons la NP-difficulté dans le cadre d'un ensemble de politiques gourmandes paramétrées (argmax) et montrons que, sauf si NP = RP, une borne inférieure exponentielle (dans la dimension du vecteur de caractéristiques) s'applique lorsque l'ensemble de politiques contient des politiques softmax, dans le cadre de l'hypothèse du temps exponentiel aléatoire. Nos résultats de difficulté reflètent ceux de la réalisabilité q∗ et suggèrent que la difficulté de calcul persiste même lorsque Π est étendu au-delà de la politique optimale. Pour établir cela, nous réduisons deux problèmes de complexité, δ-Max-3SAT et δ-Max-3SAT(b), à des instances de GLinear-κ-RL (politique gloutonne) et SLinear-κ.

-RL (politique softmax). Nos résultats indiquent que des résultats computationnels positifs sont généralement inaccessibles dans le cas d'une réalisabilité qπ partielle, contrairement à la réalisabilité qπ dans le cadre d'un modèle d'accès génératif.

Ateliers

Deuxième atelier sur l'alignement entre les expérimentateurs et les théoriciens de l'apprentissage par renforcement (ARLET)

Marco Mussi, Till Freihaut, Antoine Moulin, Giorgia Ramponi, Dirk van der Hoeven, Alberto Maria Metelli, Felix Berkenkamp, Francesco Trovòm Csaba Szepesvari*

INFORMATIONS SUR L'ATELIER

Unification des représentations dans les modèles neuronaux

Apprentissage des opérateurs pour la simulation de systèmes électriques

Matthew Schlegel*, Matthew Taylor*, Mostafa Farrokhabadi

Dans le cadre de l'atelier «Lutter contre le changement climatique grâce à l'apprentissage automatique »

LIEN VERS L'ARTICLE

La simulation dans le domaine temporel, c'est-à-dire la modélisation de l'évolution du système au fil du temps, est un outil essentiel pour étudier et améliorer la stabilité et les performances dynamiques des réseaux électriques. Cependant, ces simulations deviennent impossibles à réaliser sur le plan informatique pour les réseaux pénétrés par les énergies renouvelables, en raison du petit pas de temps de simulation nécessaire pour capturer les phénomènes dynamiques ultra-rapides des ressources énergétiques renouvelables, de l'ordre de 1 à 50 microsecondes.

Cela crée un besoin critique de solutions à la fois rapides et évolutives, ce qui constitue un obstacle majeur à l'intégration stable des ressources énergétiques renouvelables et, par conséquent, à l'atténuation du changement climatique. Cet article explore l'apprentissage par opérateur, une famille de méthodes d'apprentissage automatique qui apprennent les correspondances entre les fonctions, comme modèle de substitution pour ces simulations coûteuses. Il examine pour la première fois le concept fondamental d'invariance temporelle de la simulation, qui permet aux modèles entraînés sur des pas de temps grossiers de généraliser à des dynamiques à haute résolution. Trois méthodes d'apprentissage des opérateurs sont évaluées sur un système de test simple qui, bien qu'il n'intègre pas les complexités pratiques des réseaux pénétrés par les énergies renouvelables, sert de première preuve de concept pour démontrer la viabilité de l'invariance temporelle. Les modèles sont évalués sur (i) la super-résolution zéro-shot, où l'entraînement est effectué sur un pas de temps de simulation grossier et l'inférence est effectuée en super-résolution, et (ii) la généralisation entre des régimes dynamiques stables et instables. Ce travail aborde un défi majeur dans l'intégration des énergies renouvelables pour l'atténuation du changement climatique en comparant les méthodes d'apprentissage des opérateurs pour modéliser les systèmes physiques.

Partager