Amii Research à l'ICLR 2026 : faire progresser l'efficacité dans l'apprentissage par renforcement, les systèmes de mémoire et l'IA générative

Publié

23 avril 2026

Catégories

Perspectives

Sujet

Recherche

La quatorzième édition annuelle Conférence internationale sur les représentations d'apprentissage (ICLR) se tient cette semaine à Rio de Janeiro, au Brésil. L'Amii est fière de présenter les travaux de recherche variés et de grande envergure que ses boursiers, ses titulaires de chaires CIFAR en IA au Canada et ses étudiants présentent cette année.

L'ICLR est une conférence mondiale de premier plan dédiée à l'avancement de l'apprentissage des représentations, qui explore la manière dont les modèles traitent les données pour résoudre des problèmes complexes en vision par ordinateur, en robotique et en traitement du langage naturel.

Cette année, les travaux d'Amii repoussent les limites du possible en matière d'intelligence automatisée. Nos chercheurs dévoilent de nouveaux cadres visant à optimiser l'efficacité en termes d'échantillons de l'apprentissage par renforcement (RL), développent des architectures de mémoire inspirées de la cognition humaine pour les grands modèles linguistiques (LLM) capables de traiter des millions de tokens, et établissent de nouvelles normes en matière d'équité et de confidentialité dans la synthèse de données.

Vous souhaitez rester informé des dernières recherches menées par la communauté Amii ? Inscrivez-vous à notre newsletter mensuelle !

* indique l'affiliation à Amii

Articles acceptés

Les distributions en tant qu'actions : un cadre unifié pour des espaces d'action variés

Jiamin He* , A. Rupam Mahmood* , Martha White *

LIEN VERS L'ARTICLE

Nous proposons un nouveau cadre d'apprentissage par renforcement (RL) qui traite les distributions d'actions paramétrées comme des actions, redéfinissant ainsi la frontière entre l'agent et l'environnement. Cette reparamétrisation rend le nouvel espace d'actions continu, quel que soit le type d'action d'origine (discret, continu, hybride, etc.). Dans le cadre de cette nouvelle paramétrisation, nous développons un estimateur de gradient de politique déterministe généralisé, le Distributions-as-Actions Policy Gradient (DA-PG), qui présente une variance inférieure à celle du gradient dans l'espace d'action d'origine. Bien que l'apprentissage du critique sur les paramètres de distribution pose de nouveaux défis, nous introduisons l'Interpolated Critic Learning (ICL), une stratégie simple mais efficace pour améliorer l'apprentissage, s'appuyant sur des enseignements tirés des contextes de bandits. En nous appuyant sur TD3, une base de référence solide pour le contrôle continu, nous proposons un algorithme acteur-critique pratique, le Distributions-as-Actions Actor-Critic (DA-AC). Empiriquement, DA-AC atteint des performances compétitives dans divers contextes de contrôle discret, continu et hybride.

La prédiction de la dynamique latente régularisée constitue une référence solide pour les modèles de base comportementaux

Pranaya Jajoo*, Harshit Sikchi, Siddhant Agarwal, Amy Zhang, Scott Niekum, Martha White *

LIEN VERS L'ARTICLE

Les modèles comportementaux fondamentaux (BFM) ont récemment permis de créer des agents capables de s'adapter à n'importe quelle récompense ou tâche inconnue. En réalité, ces méthodes ne sont capables de produire des politiques quasi-optimales que pour les fonctions de récompense qui s'inscrivent dans l'espace défini par certaines caractéristiques d'état préexistantes. Naturellement, leur efficacité repose fortement sur le choix des caractéristiques d'état qu'ils utilisent. Par conséquent, ces BFM ont utilisé une grande variété d'objectifs complexes, souvent sensibles à la couverture de l'environnement, pour entraîner des caractéristiques couvrant des tâches avec différentes propriétés inductives. Avec ce travail, notre objectif est d'examiner la question suivante : ces objectifs complexes d'apprentissage de la représentation sont-ils nécessaires pour l'apprentissage par renforcement sans échantillonnage (zero-shot RL) ? Plus précisément, nous réexaminons l'objectif de prédiction auto-supervisée de l'état suivant dans l'espace latent pour l'apprentissage des caractéristiques d'état, mais observons qu'un tel objectif à lui seul tend à accroître la similarité des caractéristiques d'état, et par conséquent à réduire l'étendue des fonctions de récompense pour lesquelles nous pouvons représenter des politiques optimales. Nous proposons une approche, RLDP, qui ajoute une régularisation simple pour maintenir la diversité des caractéristiques et qui peut égaler ou surpasser les méthodes de pointe d'apprentissage de représentations complexes pour l'apprentissage par renforcement sans apprentissage préalable. De plus, nous démontrons que les approches antérieures divergent dans des scénarios à faible couverture où le RLDP continue de réussir.

Récompense cachée sous forme de jeton : orienter l'exploration et l'exploitation dans l'apprentissage par renforcement profond relatif en groupe

Wenlong Deng, Yi Ren, Yushu Li, Boying Gong, Danica J. Sutherland*, Xiaoxiao Li, Christos Thrampoulidis

LIEN VERS L'ARTICLE

L'apprentissage par renforcement avec des récompenses vérifiables a considérablement amélioré les capacités de raisonnement des grands modèles linguistiques ; cependant, la question de savoir comment orienter explicitement l'entraînement vers l'exploration ou l'exploitation reste un problème non résolu. Nous présentons le Token Hidden Reward (THR), un indicateur au niveau des tokens qui quantifie l'influence de chaque token sur la probabilité d'obtenir des réponses correctes dans le cadre de l'optimisation de politique relative par groupes (GRPO). Nous constatons que la dynamique d'apprentissage est dominée par un petit sous-ensemble de tokens présentant des valeurs THR absolues élevées. Plus intéressant encore, les tokens avec un THR positif renforcent la confiance dans les sorties correctes, favorisant ainsi l'exploitation, tandis que les tokens avec un THR négatif préservent la masse de probabilité pour les sorties alternatives, permettant ainsi l'exploration. Cette observation suggère une intervention naturelle : un algorithme de repondération guidé par le THR qui module les signaux d'apprentissage du GRPO afin d'orienter explicitement l'apprentissage vers l'exploitation ou l'exploration. Nous validons l'efficacité de cet algorithme sur divers benchmarks de raisonnement mathématique. En amplifiant les tokens présentant une valeur THR positive et en affaiblissant ceux présentant une valeur négative, notre algorithme améliore la précision du décodage glouton, favorisant l'exploitation. La stratégie inverse produit des gains constants en termes de précision Pass@K, favorisant l'exploration. Nous démontrons en outre que notre algorithme s'intègre parfaitement à d'autres objectifs d'apprentissage par renforcement (RL) tels que le GSPO et qu'il est généralisable à différentes architectures, y compris Llama. Ces résultats établissent le THR comme un mécanisme fondé sur des principes et finement calibré pour contrôler dynamiquement l'exploration et l'exploitation dans les LLM optimisés pour le RL, fournissant ainsi de nouveaux outils pour un réglage fin ciblé dans les applications nécessitant un raisonnement intensif.

Au-delà du million de tokens : évaluation comparative et amélioration de la mémoire à long terme dans les grands modèles de langage

Mohammad Tavakoli*, Alireza Salemi, Carrie Ye*, Mohamed Abdalla*, Hamed Zamani, J Ross Mitchell*

LIEN VERS L'ARTICLE

L'évaluation des capacités des grands modèles linguistiques (LLM) pour des tâches nécessitant une mémoire à long terme et, par conséquent, un raisonnement sur des contextes étendus, par exemple dans des contextes conversationnels, est entravée par les benchmarks existants, qui manquent souvent de cohérence narrative, couvrent des domaines restreints et ne testent que des tâches simples axées sur la mémorisation. Cet article propose une solution complète à ces défis. Tout d'abord, nous présentons un nouveau cadre permettant de générer automatiquement des conversations longues (jusqu'à 10 millions de tokens), cohérentes et thématiquement variées, accompagnées de questions de vérification ciblant un large éventail de capacités mémorielles. À partir de là, nous construisons BEAM, un nouveau benchmark comprenant 100 conversations et 2 000 questions validées. Deuxièmement, pour améliorer les performances des modèles, nous proposons LIGHT, un cadre inspiré de la cognition humaine qui dote les LLM de trois systèmes de mémoire complémentaires : une mémoire épisodique à long terme, une mémoire de travail à court terme et un bloc-notes pour accumuler les faits saillants. Nos expériences sur BEAM révèlent que même les LLM dotés de fenêtres de contexte d'un million de tokens (avec ou sans augmentation par récupération) peinent à mesure que les dialogues s'allongent. En revanche, LIGHT améliore systématiquement les performances de divers modèles, atteignant une amélioration moyenne de 3,5 % à 12,69 % par rapport aux références les plus performantes, en fonction du LLM de base. Une étude d'ablation confirme en outre la contribution de chaque composante de la mémoire.

Apprentissage par renforcement efficace grâce à des modèles du monde guidés par des données non sélectionnées

Yi Zhao, Aidan Scannell, Wenshuai Zhao, Yuxin Hou, Tianyu Cui, Le Chen, Dieter Büchler,* Arno Solin, Juho Kannala, Joni Pajarinen

LIEN VERS L'ARTICLE

Leveraging offline data is a promising way to improve the sample efficiency of online reinforcement learning (RL). This paper expands the pool of usable data for offline-to-online RL by leveraging abundant non-curated data that is reward-free, of mixed quality, and collected across multiple embodiments. Although learning a world model appears promising for utilizing such data, we find that naive fine-tuning fails to accelerate RL training on many tasks. Through careful investigation, we attribute this failure to the distributional shift between offline and online data during fine-tuning. To address this issue and effectively use the offline data, we propose two essential techniques: \emph{i)} experience rehearsal and \emph{ii)} execution guidance. With these modifications, the non-curated offline data substantially improves RL's sample efficiency. Under limited sample budgets, our method achieves a 102.8\% relative improvement in aggregate score over learning-from-scratch baselines across 72 visuomotor tasks spanning 6 embodiments. On challenging tasks such as locomotion and robotic manipulation, it outperforms prior methods that utilize offline data by a decent margin.

Apprentissage de réductions causales non linéaires pour expliquer les politiques d'apprentissage par renforcement

Armin Kekić, Jan Schneider, Dieter Büchler, Bernhard Schölkopf, Michel Besserve

LIEN VERS L'ARTICLE

Leveraging offline data is a promising way to improve the sample efficiency of online reinforcement learning (RL). This paper expands the pool of usable data for offline-to-online RL by leveraging abundant non-curated data that is reward-free, of mixed quality, and collected across multiple embodiments. Although learning a world model appears promising for utilizing such data, we find that naive fine-tuning fails to accelerate RL training on many tasks. Through careful investigation, we attribute this failure to the distributional shift between offline and online data during fine-tuning. To address this issue and effectively use the offline data, we propose two essential techniques: \emph{i)} experience rehearsal and \emph{ii)} execution guidance. With these modifications, the non-curated offline data substantially improves RL's sample efficiency. Under limited sample budgets, our method achieves a 102.8\% relative improvement in aggregate score over learning-from-scratch baselines across 72 visuomotor tasks spanning 6 embodiments. On challenging tasks such as locomotion and robotic manipulation, it outperforms prior methods that utilize offline data by a decent margin.

Mécanismes à enveloppe exponentielle : la confidentialité différentielle sur les variétés de Hadamard mise en pratique

Yangdi Jiang, Xiaotian Chang, Lei Ding, Linglong Kong*, Bei Jiang*

LIEN VERS L'ARTICLE

Nous étendons le cadre de la confidentialité différentielle (DP) aux variétés de Hadamard, c'est-à-dire à la classe des variétés riemanniennes complètes et simplement connexes dont la courbure sectionnelle est non positive. En nous inspirant du théorème de Cartan-Hadamard, nous introduisons des mécanismes de Laplace et gaussiens enveloppés de fonction exponentielle afin de mettre en œuvre la confidentialité différentielle de type -DP, -DP, la confidentialité différentielle gaussienne (GDP) et la confidentialité différentielle de R'enyi (RDP) sur ces variétés. Notre approche utilise des algorithmes efficaces et simples qui contournent les méthodes de chaînes de Markov Monte Carlo (MCMC), très gourmandes en ressources de calcul. Ce travail est le premier à étendre la DP, la GDP et la RDP aux variétés de Hadamard. Nous démontrons en outre l'efficacité de notre méthodologie à travers des simulations sur l'espace des matrices symétriques définies positives, une variété de Hadamard fréquemment utilisée en statistique. Nos résultats révèlent que nos mécanismes à enveloppe exponentielle surpassent les approches traditionnelles basées sur les MCMC, qui nécessitent un réglage minutieux et des diagnostics approfondis, tant en termes de performances que de facilité d'utilisation. De plus, nos méthodes offrent une utilité comparable à celle du mécanisme de Laplace riemannien, avec une utilité améliorée pour les petits budgets de confidentialité (), et fonctionnent à une vitesse de calcul supérieure de plusieurs ordres de grandeur.

Un cadre bayésien non paramétrique pour la synthèse de données tabulaires respectant la confidentialité, l'équité et l'équilibre

Forough Fazeli-Asl, Michael Minyi Zhang, Linglong Kong*, Bei Jiang*

LIEN VERS L'ARTICLE

L'un des principaux défis de la synthèse de données consiste à préserver l'équité et la confidentialité des individus, en particulier dans les environnements où les données sont rares et où les groupes sous-représentés risquent d'être encore davantage marginalisés par la reproduction des biais inhérents au processus de modélisation des données. Nous présentons une approche respectueuse de la vie privée et de l'équité pour une classe de modèles génératifs, qui intègre le générateur conditionnel dans le cadre de l'apprentissage bayésien non paramétrique (BNPL). Cette structure conditionnelle impose des contraintes d'équité à notre modèle génératif en minimisant l'information mutuelle entre les résultats générés et les attributs protégés. Contrairement aux méthodes existantes qui se concentrent principalement sur les attributs sensibles à valeur binaire, notre cadre s'étend de manière transparente aux attributs non binaires. De plus, notre méthode apporte une solution systématique au déséquilibre des classes, garantissant une représentation adéquate des groupes protégés sous-représentés. L'approche que nous proposons offre un cadre évolutif et préservant la confidentialité pour une génération de données éthique et équitable, ce que nous démontrons par des garanties théoriques et des expériences approfondies sur des exemples empiriques sensibles.

Apprenants rapides et dotés de méta-connaissances pour l'apprentissage par renforcement continu

Ke Sun, Hongming Zhang, Jun Jin*, Chao Gao, Xi Chen, Wulong Liu, Linglong Kong*

LIEN VERS L'ARTICLE

S'inspirant du système humain d'apprentissage et de mémoire, en particulier de l'interaction entre l'hippocampe et le cortex cérébral, cette étude propose un cadre à double apprenant comprenant un « apprenant rapide » et un « méta-apprenant » pour traiter les problèmes d'apprentissage par renforcement (RL) en continu. Ces deux apprenants sont couplés pour remplir des rôles distincts mais complémentaires : l'apprenant rapide se concentre sur le transfert de connaissances, tandis que le méta-apprenant assure l'intégration des connaissances. Contrairement aux approches traditionnelles de RL multitâches qui partagent les connaissances via la maximisation du rendement moyen, notre méta-apprenant intègre progressivement de nouvelles expériences en minimisant explicitement l'oubli catastrophique, favorisant ainsi un transfert cumulatif efficace des connaissances vers l'apprenant rapide. Afin de faciliter une adaptation rapide à de nouveaux environnements, nous introduisons un mécanisme adaptatif de « méta-échauffement » qui exploite de manière sélective les connaissances passées. Nous menons des expériences sur divers benchmarks de contrôle pixelisé et continu, révélant les performances supérieures de l'apprentissage continu de notre approche à double apprenant par rapport aux méthodes de référence.

Au-delà de la qualité de la reconstruction visuelle : le « 3D Gaussian Splatting » tenant compte de la perception des objets pour la conduite autonome

Renzhi Wang, Yuxiang Fu, Wuqi Wang, Haigen Min, Wei Feng, Lei Ma, Qing Guo

LIEN VERS L'ARTICLE

Les techniques de reconstruction, telles que le 3D Gaussian Splatting (3DGS), sont de plus en plus utilisées pour générer des scénarios dans le cadre de la recherche sur les systèmes de conduite autonome (ADS). Les approches existantes basées sur le 3DGS pour la génération de scénarios de conduite autonome ont, grâce à diverses optimisations, permis d'obtenir une grande similitude visuelle dans les scènes reconstruites. Cependant, cette approche repose sur une hypothèse forte : celle selon laquelle une plus grande similitude entre les scènes se traduit directement par une meilleure préservation du comportement des ADS. Malheureusement, cette hypothèse n'a pas été validée de manière efficace, et le comportement des ADS est plus étroitement lié aux objets présents dans le champ de vision qu'à l'image globale. Nous nous concentrons donc sur le module de perception, point d'entrée des ADS. Des expériences préliminaires révèlent que, bien que les méthodes actuelles puissent produire des reconstructions présentant une grande similitude globale, elles ne parviennent souvent pas à garantir que les sorties du module de perception restent cohérentes avec celles obtenues à partir des images originales. Une telle limitation peut nuire considérablement à l'applicabilité de la reconstruction dans le domaine de l'ADS. Pour combler cette lacune, nous proposons deux solutions complémentaires : une perte alignée sur la perception, qui exploite directement les différences de sortie entre les images reconstruites et les images de référence pendant l'entraînement ; et une perte de qualité de zone d'objet, qui renforce spécifiquement l'entraînement sur les emplacements d'objets identifiés par le modèle de perception sur les images de référence. Les expériences démontrent que nos deux méthodes améliorent la capacité des scènes reconstruites à maintenir la cohérence entre les sorties du module de perception et les entrées de référence. Nous publions le code à l'adresse suivante : https://github.com/Shanicky-RenzhiWang/Perception-aware-3DGS

Nano3D : une approche sans apprentissage pour un montage 3D efficace sans masques

Renzhi Wang, Yuxiang Fu, Wuqi Wang, Haigen Min, Wei Feng, Lei Ma, Qing Guo

LIEN VERS L'ARTICLE

Les techniques de reconstruction, telles que le 3D Gaussian Splatting (3DGS), sont de plus en plus utilisées pour générer des scénarios dans le cadre de la recherche sur les systèmes de conduite autonome (ADS). Les approches existantes basées sur le 3DGS pour la génération de scénarios de conduite autonome ont, grâce à diverses optimisations, permis d'obtenir une grande similitude visuelle dans les scènes reconstruites. Cependant, cette approche repose sur une hypothèse forte : celle selon laquelle une plus grande similitude entre les scènes se traduit directement par une meilleure préservation du comportement des ADS. Malheureusement, cette hypothèse n'a pas été validée de manière efficace, et le comportement des ADS est plus étroitement lié aux objets présents dans le champ de vision qu'à l'image globale. Nous nous concentrons donc sur le module de perception, point d'entrée des ADS. Des expériences préliminaires révèlent que, bien que les méthodes actuelles puissent produire des reconstructions présentant une grande similitude globale, elles ne parviennent souvent pas à garantir que les sorties du module de perception restent cohérentes avec celles obtenues à partir des images originales. Une telle limitation peut nuire considérablement à l'applicabilité de la reconstruction dans le domaine de l'ADS. Pour combler cette lacune, nous proposons deux solutions complémentaires : une perte alignée sur la perception, qui exploite directement les différences de sortie entre les images reconstruites et les images de référence pendant l'entraînement ; et une perte de qualité de zone d'objet, qui renforce spécifiquement l'entraînement sur les emplacements d'objets identifiés par le modèle de perception sur les images de référence. Les expériences démontrent que nos deux méthodes améliorent la capacité des scènes reconstruites à maintenir la cohérence entre les sorties du module de perception et les entrées de référence. Nous publions le code à l'adresse suivante : https://github.com/Shanicky-RenzhiWang/Perception-aware-3DGS

Cactus : accélération du décodage autorégressif grâce à un échantillonnage spéculatif à acceptation contrainte

Yongchang Hao*, Lili Mou*

LIEN VERS L'ARTICLE

L'échantillonnage spéculatif (SpS) a permis d'accélérer le débit de décodage des grands modèles de langage autorégressifs en s'appuyant sur des modèles préliminaires plus petits. Le SpS impose strictement que la distribution générée corresponde à celle du grand modèle de langage (LLM) de vérification. Cette contrainte est inutilement restrictive, car de légères variations de la distribution du vérificateur, telles que l'échantillonnage avec un seuil maximal ou une température, seraient également acceptables. L'échantillonnage d'acceptation typique (TAS) atténue ce problème en acceptant davantage de tokens à l'aide d'heuristiques basées sur l'entropie. Cependant, cette approche fausse la distribution du vérificateur, ce qui peut dégrader la qualité de la sortie lorsque le vérificateur encode des informations critiques. Dans ce travail, nous formalisons l'algorithme d'échantillonnage spéculatif sous l'angle de l'optimisation sous contraintes. Sur la base de cette formulation, nous proposons Cactus (constrained acceptspécifications deus séchantillonnage), une méthode qui garantit une divergence contrôlée par rapport à la distribution du vérificateur et des taux d'acceptation croissants. Des résultats empiriques obtenus sur un large éventail de benchmarks confirment l'efficacité de notre approche.

TokMem : mémoire procédurale à un seul jeton pour les grands modèles linguistiques

Zijun Wu*, Yongchang Hao*, Lili Mou*

LIEN VERS L'ARTICLE

Les grands modèles linguistiques sont généralement pilotés par des invites, qui doivent être retraitées à chaque nouvelle requête et sont difficiles à réutiliser de manière modulaire. Nous présentons TokMem, un cadre de mémoire procédurale qui compile chaque procédure de tâche réutilisable en un seul jeton de mémoire entraînable. Chaque jeton sert à la fois d'index de procédure et de signal de contrôle de génération qui oriente la génération, permettant ainsi des comportements ciblés avec une surcharge de taille constante. TokMem maintient le LLM de base figé et stocke les connaissances procédurales entièrement dans ces unités dédiées, de sorte que de nouvelles procédures peuvent être ajoutées en continu sans interférer avec celles existantes. Nous évaluons TokMem dans deux contextes : la récupération atomique sur 1 000 tâches Super-Natural Instructions et la récupération compositionnelle sur des appels de fonctions en plusieurs étapes. Nos résultats montrent que TokMem surpasse systématiquement les prompts augmentés par la récupération tout en évitant la surcharge contextuelle répétée. De plus, il égale ou dépasse le réglage fin efficace en termes de paramètres avec un nombre de paramètres entraînables nettement inférieur.

Apprentissage d'heuristiques admissibles pour l'algorithme A* : théorie et pratique

Ehsan Futuhi*, Nathan R. Sturtevant*

LIEN VERS L'ARTICLE

Les fonctions heuristiques jouent un rôle central dans les performances des algorithmes de recherche tels que A*, où l’\emph{admissibilité} — la propriété de ne jamais surestimer le coût réel du chemin le plus court — garantit l’optimalité de la solution. Les approches récentes basées sur l’apprentissage profond négligent souvent l’admissibilité totale et n’offrent que des garanties limitées quant à la généralisation au-delà des données d’apprentissage. Nous remédions à ces deux limites. Tout d’abord, nous formulons l’apprentissage heuristique comme un problème d’optimisation sous contraintes et introduisons l’\emph{admissibilité par entropie croisée (CEA)}, une fonction de perte qui impose l’admissibilité pendant l’entraînement. Lorsqu’elle est évaluée sur le domaine du Rubik’s Cube, notre méthode produit des heuristiques présentant une admissibilité quasi parfaite et une orientation nettement plus forte que les heuristiques basées sur des bases de données de motifs compressées (PDB). Sur le plan théorique, nous dérivons une nouvelle borne supérieure sur la sous-optimalité attendue de l’A*. En exploitant les abstractions PDB et les propriétés structurelles de graphes tels que le Rubik’s Cube, nous resserrons la borne sur le nombre d’échantillons d’apprentissage nécessaires pour que l’A* généralise à des états non observés. Le remplacement d’une classe d’hypothèses générale par un réseau neuronal ReLU donne des bornes qui dépendent principalement de la largeur et de la profondeur du réseau, plutôt que de la taille du graphe. En utilisant le même réseau, nous fournissons également les premières garanties de généralisation pour les heuristiques \emph{dépendantes de l’objectif}.

Apprendre à raisonner efficacement grâce à l'apprentissage par renforcement avec actualisation

Alex Ayoub*, Kavosh Asadi, Dale Schuurmans*, Csaba Szepesvári*, Karim Bouyarmane

LIEN VERS L'ARTICLE

Les grands modèles de raisonnement (LRM) consomment souvent un nombre excessif de tokens, ce qui augmente le coût de calcul et la latence. Nous remettons en question l'hypothèse selon laquelle des réponses plus longues améliorent la précision. En pénalisant les tokens de raisonnement à l'aide d'un dispositif d'apprentissage par renforcement avec décote (interprétable comme un faible coût par token) et en analysant l'optimalité de Blackwell dans des classes de politiques restreintes, nous favorisons un raisonnement concis mais précis. Les expériences confirment nos résultats théoriques, à savoir que cette approche raccourcit les chaînes de raisonnement tout en préservant la précision.

Documents de l'atelier

Aligner la compositionnalité structurelle visuelle chez les humains et dans les modèles de langage visuel

Helena Balabin*, Lauren Nicole De Long, Rohan Saha*, Rik Vandenberghe, Marie-Francine Moens, Alona Fyshe*

LIEN VERS L'ARTICLE

Les grands modèles de raisonnement (LRM) consomment souvent un nombre excessif de tokens, ce qui augmente le coût de calcul et la latence. Nous remettons en question l'hypothèse selon laquelle des réponses plus longues améliorent la précision. En pénalisant les tokens de raisonnement à l'aide d'un dispositif d'apprentissage par renforcement avec décote (interprétable comme un faible coût par token) et en analysant l'optimalité de Blackwell dans des classes de politiques restreintes, nous favorisons un raisonnement concis mais précis. Les expériences confirment nos résultats théoriques, à savoir que cette approche raccourcit les chaînes de raisonnement tout en préservant la précision.

Partager