Institut de l'intelligence artificielle de l'Alberta

Les chercheurs d'Amii présentent les avancées de la LR, la prédiction de la survie, les LLM et la découverte de médicaments à NeurIPS 2024.

Publié

9 décembre 2024

Catégories

Mises à jour

Application de l'IA

Vision par ordinateur, apprentissage profond (DL), modèles frontières, recherche heuristique, traitement du langage naturel (NLP), apprentissage par renforcement (RL), robotique et systèmes autonomes, IA digne de confiance.

La trente-huitième édition annuelle de Systèmes de traitement de l'information neuronale (NeurIPS) commence à Vancouver la semaine prochaine, et Amii est fier de partager certaines des recherches que nos boursiers, les chaires d'IA du CIFAR Canada et les étudiants affiliés présentent à l'événement de cette année.

Lancée en 1987, NeurIPS est devenue une conférence de premier plan sur l'apprentissage automatique et les neurosciences cognitives. Chaque année, elle attire des chercheurs de nombreuses disciplines différentes, dont la théorie de l'information, la vision par ordinateur et la linguistique.

Vous trouverez ci-dessous 25 articles co-rédigés par les boursiers Amii, Canada CIFAR et des chercheurs émergents qui ont été acceptés à NeurIPS. Cette année, leurs recherches s'attaquent à certains des défis les plus pressants de l'apprentissage automatique, notamment l'optimisation de l'apprentissage par renforcement, les grands modèles de langage pour les données non structurées et la protection de la vie privée dans les grands ensembles de données.

Découvrez tous les articles et leurs résumés, ainsi que les chercheurs qui ont relevé notre défi de recherche en une minute.

Vous souhaitez être tenu au courant des dernières recherches de la communauté Amii ? Inscrivez-vous à notre lettre d'information mensuelle!


Apprentissage récurrent en temps réel à l'aide d'unités de trace dans l'apprentissage par renforcement
Esraa Elelimy, Adam White, Michael Bowling, Martha White

Les réseaux neuronaux récurrents (RNN) sont utilisés pour apprendre des représentations dans des environnements partiellement observables. Pour les agents qui apprennent en ligne et interagissent continuellement avec l'environnement, il est souhaitable d'entraîner les RNN avec un apprentissage récurrent en temps réel (RTRL) ; malheureusement, le coût du RTRL est prohibitif pour les RNN standard. Une voie prometteuse consiste à utiliser des architectures récurrentes linéaires (LRU), où les poids récurrents denses sont remplacés par une diagonale à valeur complexe, ce qui rend l'apprentissage récurrent en temps réel efficace. Dans ce travail, nous nous appuyons sur ces idées pour fournir une approche légère mais efficace pour l'entraînement des RNN dans la RL en ligne. Nous introduisons les unités de traces récurrentes (RTU), une petite modification des LRU qui présente néanmoins des avantages significatifs en termes de performances par rapport aux LRU lorsqu'elles sont entraînées avec la RTRL. Nous constatons que les RTUs surpassent de manière significative les autres architectures récurrentes dans plusieurs environnements partiellement observables tout en utilisant beaucoup moins de calculs.

Méthode d'évaluation de la sensibilité des hyperparamètres dans l'apprentissage par renforcement
Jacob Adkins, Michael Bowling, Adam White

Cet article aborde le défi du réglage des hyperparamètres dans les algorithmes d'apprentissage par renforcement profond (RL), qui est essentiel pour la performance mais souvent difficile en raison des interactions complexes entre les hyperparamètres. Les auteurs proposent une nouvelle méthode empirique pour analyser la façon dont les hyperparamètres affectent les performances de l'apprentissage par renforcement dans différents environnements, aidant ainsi les praticiens à comprendre à quel point les performances dépendent du réglage spécifique à l'environnement. À l'aide de cette méthode, ils évaluent comment différentes techniques de normalisation influencent la sensibilité de l'algorithme PPO aux hyperparamètres, et constatent que l'amélioration des performances se fait souvent au prix d'une sensibilité accrue, ce qui souligne la nécessité d'un réglage minutieux dans la pratique.

BIOSCAN-5M : un ensemble de données multimodales sur la biodiversité des insectes
Zahra Gharaee, Scott C. Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Eyriay, Lila Kari, Dirk Steinke, Graham Taylor, Paul Fieguth, Angel Chang

Dans le cadre d'un effort mondial continu pour comprendre et surveiller la biodiversité des insectes, cet article présente l'ensemble de données BIOSCAN-5M Insect à la communauté de l'apprentissage automatique et établit plusieurs tâches de référence. BIOSCAN-5M est un ensemble de données complet contenant des informations multimodales pour plus de 5 millions de spécimens d'insectes. Il élargit considérablement les ensembles de données biologiques basés sur des images en incluant des étiquettes taxonomiques, des séquences de codes-barres nucléotidiques bruts, des numéros d'index de codes-barres assignés, des informations géographiques et des informations sur la taille. Nous proposons trois expériences de référence pour démontrer l'impact des types de données multimodales sur la précision de la classification et du regroupement. Tout d'abord, nous pré-entraînons un modèle de langage masqué sur les séquences de codes-barres ADN de l'ensemble de données BIOSCAN-5M, et nous démontrons l'impact de l'utilisation de cette grande bibliothèque de référence sur les performances de classification au niveau de l'espèce et du genre. Deuxièmement, nous proposons une tâche d'apprentissage par transfert zéro appliquée aux images et aux codes-barres ADN pour regrouper les enchâssements de caractéristiques obtenus par apprentissage auto-supervisé, afin d'étudier si des regroupements significatifs peuvent être dérivés de ces enchâssements de représentations. Troisièmement, nous évaluons la multi-modalité en effectuant un apprentissage contrastif sur les codes-barres ADN, les données d'images et les informations taxonomiques. Nous obtenons ainsi un espace d'intégration général partagé permettant la classification taxonomique à l'aide de plusieurs types d'informations et de modalités. Le dépôt de code de l'ensemble de données BIOSCAN-5M Insect est disponible à l'adresse suivante : https URL.

MassSpecGym : Une référence pour la découverte et l'identification de molécules
Roman Bushuiev, Anton Bushuiev, Niek de Jonge, Adamo Young, Fleming Kretschmer, Raman Samusevich, Janne Heirman, Fei Wang, Luke Zhang, Kai Dührkop, Marcus Ludwig, Nils Haupt, Apurva Kalia, Corinna Brungs, Robin Schmid, Russell Greiner, Bo Wang, David Wishart, Liping Liu, Juho Rousu, Wout Bittremieux, Hannes Rost, Tytus Mak, Soha Hassoun, Florian Huber, Justin J.J. van der Hooft, Michael Stravs, Sebastian Böcker, Josef Sivic, Tomáš Pluskal

The discovery and identification of molecules in biological and environmental samples is crucial for advancing biomedical and chemical sciences. Tandem mass spectrometry (MS/MS) is the leading technique for high-throughput elucidation of molecular structures. However, decoding a molecular structure from its mass spectrum is exceptionally challenging, even when performed by human experts. As a result, the vast majority of acquired MS/MS spectra remain uninterpreted, thereby limiting our understanding of the underlying (bio)chemical processes. Despite decades of progress in machine learning applications for predicting molecular structures from MS/MS spectra, the development of new methods is severely hindered by the lack of standard datasets and evaluation protocols. To address this problem, we propose MassSpecGym -- the first comprehensive benchmark for the discovery and identification of molecules from MS/MS data. Our benchmark comprises the largest publicly available collection of high-quality labeled MS/MS spectra and defines three MS/MS annotation challenges: \textit{de novo} molecular structure generation, molecule retrieval, and spectrum simulation. It includes new evaluation metrics and a generalization-demanding data split, therefore standardizing the MS/MS annotation tasks and rendering the problem accessible to the broad machine learning community. MassSpecGym is publicly available at this URL.

Vers l'étalonnage de la distribution conditionnelle dans la prédiction de survie
Shi-ang Qi, Yakun Yu, Russell Greiner

La prédiction de la survie implique souvent l'estimation de la distribution du temps à l'événement à partir d'ensembles de données censurées. Les approches précédentes se sont concentrées sur l'amélioration de la discrimination et du calibrage marginal. Dans cet article, nous soulignons l'importance du calibrage conditionnel pour les applications du monde réel - en particulier son rôle dans la prise de décision individuelle. Nous proposons une méthode basée sur la prédiction conforme qui utilise la probabilité de survie individuelle prédite par le modèle au moment de l'observation de cette instance. Cette méthode améliore efficacement l'étalonnage marginal et conditionnel du modèle, sans compromettre la discrimination. Nous fournissons des garanties théoriques asymptotiques pour l'étalonnage marginal et conditionnel et nous le testons de manière approfondie sur 15 ensembles de données réels divers, démontrant l'efficacité pratique et la polyvalence de la méthode dans divers contextes.

Apprentissage par renforcement Apprentissage semi-supervisé guidé
Marzi Heidari, Hanping Zhang, Yuhong Guo

Ces dernières années, l'apprentissage semi-supervisé (SSL) a fait l'objet d'une attention particulière en raison de sa capacité à exploiter les données étiquetées et non étiquetées pour améliorer les performances du modèle, en particulier lorsque les données étiquetées sont rares. Toutefois, la plupart des méthodes actuelles d'apprentissage supervisé reposent sur des heuristiques ou des règles prédéfinies pour générer des pseudo-étiquettes et exploiter les données non étiquetées. Elles se limitent à exploiter les fonctions de perte et les méthodes de régularisation dans la norme standard. Dans cet article, nous proposons une nouvelle méthode d'apprentissage par renforcement (RL) guidée par SSL, RLGSSL, qui formule SSL comme un problème de bandit manchot et déploie une perte RL innovante basée sur la récompense pondérée pour guider de manière adaptative le processus d'apprentissage du modèle de prédiction. RLGSSL incorpore une fonction de récompense soigneusement conçue qui équilibre l'utilisation de données étiquetées et non étiquetées afin d'améliorer les performances de généralisation. Un cadre enseignant-étudiant semi-supervisé est également déployé pour accroître la stabilité de l'apprentissage. Nous démontrons l'efficacité de RLGSSL par le biais d'expériences approfondies sur plusieurs ensembles de données de référence et montrons que notre approche permet d'obtenir des performances supérieures constantes par rapport aux méthodes SSL les plus récentes.

Mélange d'experts imbriqués : Traitement adaptatif des jetons visuels
Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul

Le support visuel (images et vidéos) contient naturellement une grande quantité d'informations redondantes, ce qui offre une grande opportunité de tirer parti de l'efficacité du traitement. Bien que les modèles basés sur les transformateurs de vision (ViT) s'adaptent efficacement à de grandes quantités de données, ils ne parviennent pas à exploiter cette redondance inhérente, ce qui entraîne des coûts de calcul plus élevés. Les réseaux de mélange d'experts (MoE) sont évolutifs tout en conservant les mêmes coûts d'inférence, mais ils s'accompagnent d'un plus grand nombre de paramètres. Nous présentons le mélange d'experts imbriqués (MoNE), qui utilise une structure imbriquée pour les experts, dans laquelle les experts individuels se situent sur une courbe de précision de calcul croissante. Compte tenu d'un budget de calcul, MoNE apprend à choisir dynamiquement les jetons dans un ordre de priorité, et les jetons redondants sont donc traités par des experts imbriqués moins coûteux. En utilisant ce cadre, nous obtenons des performances équivalentes à celles des modèles de base, tout en réduisant le temps de calcul de l'inférence de plus de deux fois. Nous validons notre approche sur des ensembles de données d'images et de vidéos standard - ImageNet-21K, Kinetics400, et Something-Something-v2. Nous soulignons en outre l'adaptabilité de MoNE′s en montrant sa capacité à maintenir une forte performance à travers différents budgets de calcul de temps d'inférence sur les vidéos, en utilisant seulement un seul modèle entraîné.

Apprentissage par renforcement distributionnel avec perte de Wasserstein régularisée
Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong

Le succès empirique de l'apprentissage par renforcement distributionnel (RL) dépend fortement du choix de la divergence de distribution équipé d'une représentation de distribution appropriée. Dans cet article, nous proposons l'apprentissage par renforcement distributionnel de Sinkhorn (SinkhornDRL), qui tire parti de la divergence de Sinkhorn, une perte de Wasserstein régularisée, pour minimiser la différence entre les distributions de rendement de Bellman actuelles et cibles. Sur le plan théorique, nous démontrons les propriétés de contraction de SinkhornDRL, en nous alignant sur la nature d'interpolation de la divergence de Sinkhorn entre la distance de Wasserstein et l'écart moyen maximal (MMD). Le SinkhornDRL introduit enrichit la famille des algorithmes RL distributionnels, contribuant à interpréter les comportements de l'algorithme par rapport aux approches existantes grâce à notre étude de leurs relations. Empiriquement, nous montrons que SinkhornDRL surpasse ou égale les algorithmes existants sur la suite de jeux Atari et se distingue particulièrement dans le cadre des récompenses multidimensionnelles.

Sonder les biais sociaux dans la génération de textes sur le marché du travail par ChatGPT : Une approche fondée sur un modèle de langage masqué
Lei Ding, Yang Hu, Nicole Denier, Enze Shi, Junxi Zhang, Qirui Hu, Karen Hughes, Linglong Kong, Bei Jiang

Alors que les grands modèles de langage génératifs (LLM) tels que ChatGPT sont de plus en plus adoptés dans divers domaines, leur potentiel de propagation et d'amplification des préjugés sociaux, en particulier dans des domaines à fort enjeu tels que le marché du travail, est devenu une préoccupation pressante. Les algorithmes d'IA ne sont pas seulement largement utilisés dans la sélection des candidats à l'emploi, les demandeurs d'emploi peuvent également utiliser des LLM génératifs pour les aider à élaborer leur dossier de candidature. Dans ce contexte, cette recherche s'appuie sur un nouveau modèle expérimental pour examiner les biais sociaux dans les candidatures générées par ChatGPT en réponse à de vraies offres d'emploi. En simulant le processus de création d'une demande d'emploi, nous examinons les modèles de langage et les préjugés qui émergent lorsque le modèle est invité à répondre à diverses offres d'emploi. Nous présentons notamment un nouveau cadre d'évaluation des préjugés basé sur des modèles de langage masqué pour évaluer quantitativement les préjugés sociaux sur la base d'inventaires validés d'indices/mots sociaux, ce qui permet une analyse systématique du langage utilisé. Nos résultats montrent que l'adoption croissante de l'IA générative, non seulement par les employeurs mais aussi de plus en plus par les demandeurs d'emploi, peut renforcer et exacerber les inégalités sociales et de genre sur le marché du travail par l'utilisation d'un langage biaisé et genré.

Au-delà de l'optimisme : Exploration avec des récompenses partiellement observables
Simone Parisi, Alireza Kazemipour, Michael Bowling

L'exploration dans l'apprentissage par renforcement (RL) reste un défi ouvert. Les algorithmes d'apprentissage par renforcement s'appuient sur l'observation des récompenses pour former l'agent, et si les récompenses informatives sont peu nombreuses, l'agent apprend lentement, voire n'apprend pas du tout. Pour améliorer l'exploration et la découverte des récompenses, les algorithmes les plus répandus s'appuient sur l'optimisme. Mais que se passe-t-il si les récompenses sont parfois inobservables, par exemple dans les situations de surveillance partielle dans les bandits et dans le formalisme récent du processus de décision de Markov surveillé ? Dans ce cas, l'optimisme peut conduire à un comportement sous-optimal qui n'explore pas davantage pour réduire l'incertitude. Dans cet article, nous présentons une nouvelle stratégie d'exploration qui surmonte les limites des méthodes existantes et garantit la convergence vers une politique optimale même lorsque les récompenses ne sont pas toujours observables. Nous proposons en outre une collection d'environnements tabulaires pour évaluer l'exploration en RL (avec et sans récompenses non observables) et montrons que notre méthode est plus performante que les méthodes existantes.

Rétrospective de la compétition Dynamic Sensorium pour la prédiction de l'activité du cortex visuel primaire de la souris à grande échelle à partir de vidéos
Polina Turishcheva, Paul Fahey, Michaela Vystrčilová, Laura Hansel, Rachel Froebe, Kayla Ponder, Yongrong Qiu, Konstantin Willeke, Mohammad Bashiri, Ruslan Baikulov, Yu Zhu, Lei Ma, Shan Yu, Tiejun Huang, Bryan Li, Wolf De Wulf, Nina Kudryashova, Matthias Hennig, Nathalie Rochefort, Arno Onken, Eric Y. Wang, Zhiwei Ding, Andreas Tolias, Fabian Sinz, Alexander Ecker

Il est difficile de comprendre comment les systèmes visuels biologiques traitent l'information en raison de la relation non linéaire entre l'entrée visuelle et les réponses neuronales. Les réseaux de neurones artificiels permettent aux neuroscientifiques computationnels de créer des modèles prédictifs qui relient la vision biologique à la vision artificielle. L'apprentissage automatique a grandement bénéficié de l'existence de points de référence qui comparent différents modèles pour une même tâche dans des conditions normalisées. Cependant, il n'existait pas de référence standardisée pour identifier les modèles dynamiques de pointe du système visuel de la souris. Pour combler cette lacune, nous avons établi le concours de référence Sensorium 2023 avec une entrée dynamique, présentant un nouvel ensemble de données à grande échelle provenant du cortex visuel primaire de dix souris. Cet ensemble de données comprend les réponses de 78 853 neurones à 2 heures de stimuli dynamiques par neurone, ainsi que des mesures comportementales telles que la vitesse de course, la dilatation de la pupille et les mouvements oculaires. Le concours a permis de classer les modèles en deux catégories en fonction de leurs performances prédictives pour les réponses neuronales sur un ensemble de tests : l'une portant sur la prédiction de stimuli naturels dans le domaine et l'autre sur des stimuli hors distribution (OOD) afin d'évaluer la généralisation du modèle. Dans le cadre de la compétition NeurIPS 2023, nous avons reçu plus de 160 modèles soumis par 22 équipes. Plusieurs nouvelles architectures de modèles prédictifs ont été proposées, et les équipes gagnantes ont amélioré de 50 % le modèle de pointe précédent. L'accès à l'ensemble des données ainsi qu'à l'infrastructure d'analyse comparative restera en ligne à l'adresse suivante cette URL http.

Apprentissage à partir de la complétion de motifs : Génération auto-supervisée contrôlable
Zhiqiang Chen, Guofan Fan, Jinying Gao, Lei Ma, Bo Lei, Tiejun Huang, Shan Yu

Le cerveau humain fait preuve d'une grande capacité à associer spontanément différents attributs visuels d'une même scène visuelle ou d'une scène visuelle similaire, comme l'association de croquis et de graffitis à des objets visuels du monde réel, généralement sans information de supervision. En revanche, dans le domaine de l'intelligence artificielle, les méthodes de génération contrôlable telles que ControlNet s'appuient fortement sur des ensembles de données d'apprentissage annotés tels que des cartes de profondeur, des cartes de segmentation sémantique et des poses, ce qui limite l'évolutivité de la méthode. Inspirés par les mécanismes neuronaux qui peuvent contribuer au pouvoir associatif du cerveau, en particulier la modularisation corticale et l'achèvement des motifs hippocampiques, nous proposons ici un cadre de génération contrôlable auto-supervisée (SCG). Tout d'abord, nous introduisons une contrainte équivariante pour promouvoir l'indépendance inter-module et la corrélation intra-module dans un réseau d'autoencodeurs modulaires, réalisant ainsi une spécialisation fonctionnelle. Ensuite, sur la base de ces modules spécialisés, nous employons une approche auto-supervisée d'achèvement de modèle pour la formation de génération contrôlable. Les résultats expérimentaux démontrent que l'autoencodeur modulaire proposé réalise efficacement la spécialisation fonctionnelle, y compris le traitement modulaire de la couleur, de la luminosité et de la détection des contours, et qu'il présente des caractéristiques semblables à celles du cerveau, notamment la sélectivité de l'orientation, l'antagonisme des couleurs et les champs réceptifs centre-entourage. Grâce à un entraînement auto-supervisé, des capacités de génération associative émergent spontanément dans le SCG, démontrant une excellente capacité de généralisation à diverses tâches telles que la génération associative sur la peinture, les croquis et les graffitis anciens. Par rapport à la méthode représentative précédente ControlNet, notre approche proposée démontre non seulement une robustesse supérieure dans des scénarios plus difficiles à fort bruit, mais possède également un potentiel d'extensibilité plus prometteur en raison de son auto-supervision. cette URL http sont disponibles sur Github et Gitee.

Méthodes de gradient de politique profonde sans mises à jour par lots, réseaux cibles ou tampons de relecture
Gautham Vasan, Mohamed Elsayed, Seyed Alireza Azimi, Jiamin He, Fahim Shahriar, Colin Bellinger, Martha White, Rupam Mahmood

Les méthodes modernes de gradient de politique profonde permettent d'obtenir des performances efficaces sur des tâches robotiques simulées, mais elles nécessitent toutes de grands tampons de relecture ou des mises à jour par lots coûteuses, ou les deux, ce qui les rend incompatibles avec les systèmes réels dotés d'ordinateurs aux ressources limitées. Nous montrons que ces méthodes échouent de manière catastrophique lorsqu'elles sont limitées à de petits tampons de relecture ou pendant l'apprentissage incrémental, où les mises à jour n'utilisent que l'échantillon le plus récent sans mises à jour par lots ni tampon de relecture. Nous proposons une nouvelle méthode incrémentale de gradient de politique profonde - Action Value Gradient (AVG) - et un ensemble de techniques de normalisation et de mise à l'échelle pour relever les défis de l'instabilité dans l'apprentissage incrémental. Sur des bancs d'essai de simulation robotique, nous montrons qu'AVG est la seule méthode incrémentale qui apprend efficacement, atteignant souvent des performances finales comparables à celles des méthodes de gradient de politique par lots. Cette avancée nous a permis de montrer pour la première fois l'efficacité de l'apprentissage par renforcement profond avec des robots réels en utilisant uniquement des mises à jour incrémentales, en employant un manipulateur robotique et un robot mobile.

LoTLIP : Amélioration du pré-entraînement des images linguistiques pour la compréhension des textes longs
Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha

La compréhension de textes longs est très importante dans la pratique, mais elle est hors de portée de la plupart des modèles de pré-entraînement langage-image (LIP). Dans ce travail, nous confirmons empiriquement que la raison principale de ce problème est que les images d'apprentissage sont généralement associées à des légendes courtes, ce qui fait que certains tokens sont facilement éclipsés par des tokens saillants. Pour résoudre ce problème, notre première tentative consiste à réétiqueter les données avec des légendes longues, mais l'apprentissage direct avec ces légendes peut entraîner une dégradation des performances dans la compréhension des textes courts (par exemple, dans la tâche de classification d'images). Ensuite, après avoir incorporé des jetons d'angle pour agréger diverses informations textuelles, nous parvenons à aider le modèle à rattraper son niveau initial de compréhension des textes courts tout en améliorant considérablement sa capacité de compréhension des textes longs. Nous examinons en outre si le modèle peut continuer à bénéficier de légendes plus longues et nous constatons un compromis clair entre la performance et l'efficacité. Enfin, nous validons l'efficacité de notre approche à l'aide d'un ensemble de données à grande échelle constitué par nous-mêmes, qui comprend 100 millions de paires texte-image orientées vers des légendes longues. Notre méthode démontre des performances supérieures dans les tâches de recherche d'images et de textes longs. La page du projet est disponible à cette URL https.

PrivAuditor : Analyse comparative des vulnérabilités en matière de protection des données dans les techniques d'adaptation du LLM
Derui Zhu, Dingfan Chen, Xiongfei Wu, Jiahui Geng, Zhuo Li, Jens Grossklags, Lei Ma

Les grands modèles de langage (LLM) sont reconnus pour leur potentiel en tant qu'élément constitutif important de l'intelligence artificielle générale en raison de leur capacité sans précédent à résoudre diverses tâches. Malgré ces réalisations, les LLM sont souvent moins performants dans les tâches spécifiques à un domaine sans formation sur les données pertinentes du domaine. Ce phénomène, souvent attribué à des changements de distribution, rend cruciale l'adaptation des LLM pré-entraînés avec des données spécifiques au domaine. Cependant, cette adaptation soulève d'importants problèmes de confidentialité, en particulier lorsque les données impliquées proviennent de domaines sensibles. Dans ce travail, nous étudions de manière approfondie les vulnérabilités en matière de confidentialité des LLM adaptés (fine-tuned) et évaluons les fuites de confidentialité à travers une large gamme de modalités de données, de méthodes d'attaque de confidentialité de pointe, de techniques d'adaptation et d'architectures de modèles. Nous évaluons et identifions systématiquement les facteurs critiques liés à la perte de confidentialité. Grâce à notre base de code organisée et aux informations exploitables, nous souhaitons fournir un outil d'audit normalisé aux praticiens qui cherchent à déployer des applications LLM personnalisées avec des évaluations fidèles de la protection de la vie privée.

Déséquilibre de classe à queue lourde et pourquoi Adam surpasse la descente de gradient sur les modèles de langage
Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto Bietti

Adam s'est avéré plus performant que d'autres tâches sur les modèles de langage de grande taille, mais les raisons n'en sont pas claires. Nous montrons qu'un facteur clé de cet écart de performance est le déséquilibre de classe à queue lourde que l'on trouve dans les tâches linguistiques. Lors de l'apprentissage par descente de gradient, la perte de mots peu fréquents diminue plus lentement que la perte de mots fréquents. Cela conduit à une diminution lente de la perte moyenne car la plupart des échantillons proviennent de mots peu fréquents. En revanche, les méthodes basées sur Adam et les signes sont moins sensibles à ce problème. Pour établir que ce comportement est causé par un déséquilibre de classe, nous montrons empiriquement qu'il peut être reproduit à travers les architectures et les types de données, sur des transformateurs de langage, des CNN de vision, et des modèles linéaires. Sur un modèle linéaire avec perte d'entropie croisée, nous montrons que le déséquilibre des classes conduit à des gradients et des hessiens déséquilibrés et corrélés qui ont été supposés profiter à Adam. Nous prouvons également qu'en temps continu, la descente de gradient converge lentement sur les classes à basse fréquence, ce qui n'est pas le cas de la descente de signe.

Plus de petits pas : Convergence globale des bandits de gradient stochastiques pour des taux d'apprentissage arbitraires
Jincheng Mei, Bo Dai, Alekh Agarwal, Sharan Vaswani, Anant Raj, Csaba Szepesvari, Dale Schuurmans

Nous apportons une nouvelle compréhension de l'algorithme de bandit à gradient stochastique en montrant qu'il converge vers une politique globalement optimale presque sûrement en utilisant n'importe quel taux d'apprentissage constant. Ce résultat démontre que l'algorithme du gradient stochastique continue à équilibrer l'exploration et l'exploitation de manière appropriée, même dans des scénarios où les hypothèses standard de lissage et de contrôle du bruit ne tiennent pas. Les preuves sont basées sur de nouvelles découvertes concernant les taux d'échantillonnage d'action et la relation entre le progrès cumulatif et le bruit, et étendent la compréhension actuelle du comportement des méthodes simples de gradient stochastique dans les contextes de bandits.

Les données de trajectoire suffisent pour un apprentissage statistiquement efficace dans le cadre de la RL hors ligne avec une qπ-Réalisabilité linéaire et une concentrabilité.
Volodymyr Tkachuk, Gellert Weisz, Csaba Szepesvari
UQE : un moteur de requête pour les bases de données non structurées
Hanjun Dai, Bethany Wang, Xingchen Wan, Bo Dai, Sherry Yang, Azade Nova, Pengcheng Yin, Mangpo Phothilimthana, Charles Sutton, Dale Schuurmans

Nous étudions l'apprentissage par renforcement hors ligne dans les processus décisionnels de Markov (PDM) à horizon H sous l'hypothèse de qπ-réalisabilité linéaire, où la fonction action-valeur de chaque politique est linéaire par rapport à une fonction de caractéristique d-dimensionnelle donnée. L'espoir dans ce cadre est que l'apprentissage d'une bonne politique sera possible sans nécessiter une taille d'échantillon qui augmente avec le nombre d'états dans le PDM. Foster et al. ont montré que cela était impossible même dans le cadre de la concentrabilité, une hypothèse de couverture des données où un coefficient C(conc) limite la mesure dans laquelle la distribution état-action de toute politique peut s'écarter de la distribution des données. Toutefois, les données de ces travaux antérieurs se présentaient sous la forme d'une séquence de transitions individuelles. On peut donc se demander si le résultat négatif mentionné pourrait être surmonté si les données étaient composées de séquences de trajectoires complètes. Dans ce travail, nous répondons positivement à cette question en prouvant qu'avec des données de trajectoires, un ensemble de données de taille poly(d,H,C(conc))/ϵ2 est suffisant pour dériver une politique ϵ-optimale, quelle que soit la taille de l'espace d'état. L'outil principal qui rend ce résultat possible est dû à Weisz et al [2023], qui démontrent que les PDM linéaires peuvent être utilisés pour approximer linéairement des PDM qπ-réalisables. Le lien avec les données de trajectoire est que l'approximation MDP linéaire repose sur le "saut" de certains états. Les problèmes d'estimation associés sont donc faciles à résoudre lorsque l'on travaille avec des données de trajectoire, alors qu'ils restent non triviaux lorsque l'on travaille avec des transitions individuelles. La question de l'efficacité des calculs dans le cadre de nos hypothèses reste ouverte.

Recherche générative hiérarchique de matériaux
Sherry Yang, Simon Batzner, Ruiqi Gao, Muratahan Aykol, Alexander Gaunt, Brendan C McMorrow, Danilo Jimenez Rezende, Dale Schuurmans, Igor Mordatch, Ekin Dogus Cubuk

Les modèles génératifs formés à grande échelle peuvent désormais produire du texte, des vidéos et, plus récemment, des données scientifiques telles que des structures cristallines. Dans les applications des approches génératives à la science des matériaux, et en particulier aux structures cristallines, les conseils de l'expert du domaine sous la forme d'instructions de haut niveau peuvent être essentiels pour qu'un système automatisé produise des cristaux candidats viables pour la recherche en aval. Dans ce travail, nous formulons la génération de bout en bout du langage à la structure comme un problème d'optimisation multi-objectif, et nous proposons la recherche générative hiérarchique de matériaux (GenMS) pour la génération contrôlable de structures cristallines. GenMS se compose (1) d'un modèle de langage qui prend en entrée un langage naturel de haut niveau et génère des informations textuelles intermédiaires sur un cristal (par exemple, des formules chimiques), et (2) d'un modèle de diffusion qui prend en entrée des informations intermédiaires et génère des structures cristallines de bas niveau à valeur continue. GenMS utilise en outre un réseau neuronal graphique pour prédire les propriétés (par exemple, l'énergie de formation) à partir des structures cristallines générées. Lors de l'inférence, GenMS exploite les trois composants pour effectuer une recherche arborescente sur l'espace des structures possibles. Les expériences montrent que GenMS est plus performant que d'autres solutions consistant à utiliser directement des modèles de langage pour générer des structures, à la fois pour satisfaire la demande de l'utilisateur et pour générer des structures à faible énergie. Nous confirmons que GenMS est capable de générer des structures cristallines courantes telles que les pérovskites doubles ou les spinelles, uniquement à partir d'un langage naturel, et qu'il peut donc servir de base à la génération de structures plus complexes dans un avenir proche.


Linéarité locale : la clé de l'apprentissage par renforcement sans regret dans les PDM continus
Davide Maran, Alberto Maria Metelli, Matteo Papini, Marcello Restelli

L'obtention de la propriété de non-regret pour les problèmes d'apprentissage par renforcement (RL) dans des environnements d'état et d'espace d'action continus est l'un des principaux problèmes ouverts dans ce domaine. Les solutions existantes fonctionnent sous des hypothèses très spécifiques ou atteignent des limites qui sont vacantes dans certains régimes. En outre, de nombreuses hypothèses structurelles sont connues pour souffrir d'une dépendance exponentielle manifestement inévitable sur l'horizon temporel H dans le regret, ce qui rend toute solution possible irréalisable dans la pratique. Dans cet article, nous identifions la linéarité locale comme la caractéristique qui rend les processus de décision de Markov (PDM) à la fois apprenables (regret sous-linéaire) et réalisables (regret polynomial en H). Nous définissons une nouvelle classe de représentation des PDM, à savoir les PDM localement linéarisables, généralisant d'autres classes de représentation telles que les PDM linéaires et les MDPS à faible erreur de Belmman inhérente. Ensuite, i) nous introduisons Cinderella, un algorithme sans regret pour cette classe de représentation générale, et ii) nous montrons que toutes les familles connues de MDP apprenables et réalisables sont représentables dans cette classe. Nous montrons d'abord que tous les MDP réalisables connus appartiennent à une famille que nous appelons les MDP légèrement lisses. Ensuite, nous montrons comment tout MDP légèrement lisse peut être représenté comme un MDP localement linéarisable par un choix approprié de représentation. De cette manière, il est démontré que Cinderella atteint des limites de regret de pointe pour tous les MDP continus précédemment connus (et certains nouveaux) pour lesquels la RL est apprenable et réalisable.

Des transformateurs graphiques encore plus rares
Hamed Shirzad, Honghao Lin, Balaji Venkatachalam, Ameya Velingker, David Woodruff, Danica J. Sutherland

Les transformateurs de graphes excellent dans la modélisation des dépendances à longue portée, mais nécessitent généralement une complexité de mémoire quadratique dans le nombre de nœuds d'un graphe d'entrée, et ont donc du mal à s'adapter à de grands graphes. Les variantes d'attention éparse telles que Exphormer peuvent aider, mais peuvent nécessiter des augmentations de degré élevé du graphe d'entrée pour obtenir de bonnes performances, et ne tentent pas de sparsifier un graphe d'entrée déjà dense. Comme les mécanismes d'attention appris ont tendance à utiliser peu de ces arêtes, ces connexions de degré élevé peuvent être inutiles. Nous montrons (de manière empirique et avec un soutien théorique) que les scores d'attention sur les graphes sont généralement assez cohérents en fonction de la largeur du réseau, et nous utilisons cette observation pour proposer une procédure en deux étapes, que nous appelons Spexphormer : tout d'abord, former un réseau étroit sur le graphe augmenté complet. Ensuite, nous n'utilisons que les connexions actives pour former un réseau plus large sur un graphe beaucoup plus clairsemé. Nous établissons les conditions théoriques dans lesquelles les scores d'attention d'un réseau étroit peuvent égaler ceux d'un réseau large, et nous montrons que Spexphormer atteint de bonnes performances avec des exigences de mémoire considérablement réduites sur divers ensembles de données graphiques.

Amplification des biais dans l'évolution des modèles linguistiques : Une perspective d'apprentissage itéré
Yi Ren, Shangmin Guo, Linlu Qiu, Bailin Wang, Danica J. Sutherland

Avec l'adoption généralisée des grands modèles de langage (LLM), la prévalence des interactions itératives entre ces modèles devrait augmenter. En particulier, les progrès récents dans les méthodes d'auto-amélioration à plusieurs tours permettent aux LLM de générer de nouveaux exemples pour l'entraînement des modèles suivants. Parallèlement, les systèmes LLM multi-agents, qui impliquent des interactions automatisées entre les agents, gagnent également en importance. Ainsi, à court et à long terme, les LLM peuvent s'engager activement dans un processus d'évolution. Nous établissons des parallèles entre le comportement des LLM et l'évolution de la culture humaine, cette dernière ayant été largement étudiée par les scientifiques cognitifs depuis des décennies. Notre approche consiste à tirer parti de l'apprentissage itéré (IL), un cadre bayésien qui élucide la manière dont les biais subtils sont amplifiés au cours de l'évolution culturelle humaine, pour expliquer certains comportements des LLM. Cet article présente les principales caractéristiques du comportement des agents dans le cadre de l'apprentissage bayésien et de l'apprentissage itératif, y compris les prédictions qui sont étayées par une vérification expérimentale avec divers MFR. Ce cadre théorique pourrait permettre de prédire et d'orienter plus efficacement l'évolution des LLM dans les directions souhaitées.

Almost Free : Self-concordance in Natural Exponential Families and an Application to Bandits (Presque libre : autoconcordance dans les familles exponentielles naturelles et application aux bandits)
Shuai Liu, Alex Ayoub, Flore Sentenac, Xiaoqi Tan, Csaba Szepesvari

Nous prouvons que les familles exponentielles naturelles à paramètre unique avec des queues sous-exponentielles sont autoconcordantes avec des paramètres de taille polynomiale. Pour les familles exponentielles naturelles sous-gaussiennes, nous établissons une caractérisation exacte du taux de croissance du paramètre d'autoconcordance. L'application de ces résultats aux bandits nous permet de combler des lacunes dans la littérature : Nous montrons que les algorithmes optimistes pour les bandits linéaires généralisés bénéficient de limites de regret qui sont à la fois du second ordre (s'échelonnent avec la variance de la distribution de récompense du bras optimal) et exemptes d'une dépendance exponentielle sur la limite du paramètre du problème dans le premier terme. À notre connaissance, il s'agit de la première limite de regret pour les bandits linéaires généralisés avec des queues sous-exponentielles, ce qui élargit la classe de problèmes aux bandits de Poisson, exponentiels et gamma.

Gradient de politique naturelle confiant pour la planification locale dans des PDM contraints réalisables à $q_\pi$.
Tian Tian, Lin Yang, Csaba Szepesvari

Le processus décisionnel de Markov contraint (CMDP) apparaît comme une approche d'apprentissage par renforcement importante pour imposer des objectifs de sécurité ou d'autres objectifs critiques tout en maximisant la récompense cumulative. Cependant, la compréhension actuelle de la manière d'apprendre efficacement dans un environnement CMDP avec un nombre potentiellement infini d'états reste à l'étude, en particulier lorsque l'approximation des fonctions est appliquée aux fonctions de valeur. Dans cet article, nous abordons le problème de l'apprentissage à partir d'une approximation de fonction linéaire avec qπ-où les fonctions de valeur de toutes les politiques sont linéairement représentables avec une carte de caractéristiques connue, un cadre connu pour être plus général et plus difficile que d'autres cadres linéaires. En utilisant un modèle d'accès local, nous proposons un nouvel algorithme primal-dual qui, après un temps de calcul de Õ(poly(d))ϵ , produit avec une forte probabilité une politique qui satisfait strictement les contraintes tout en optimisant presque la valeur par rapport à une fonction de récompense. Ici, d est la dimension de la caractéristique et ϵ>0 est une erreur donnée. L'algorithme s'appuie sur une procédure d'évaluation hors politique soigneusement conçue pour évaluer la politique à l'aide de données historiques, ce qui permet d'informer les mises à jour de la politique par le biais des gradients de la politique et de conserver les échantillons. À notre connaissance, il s'agit du premier résultat permettant d'obtenir une complexité d'échantillonnage polynomiale pour le CMDP dans la catégorie qπ-réalisable.

Échantillonnage d'ensemble pour les bandits linéaires : les petits ensembles suffisent
David Janz, Alexander Litvak, Csaba Szepesvari

Nous fournissons la première analyse utile et rigoureuse de l'échantillonnage d'ensemble dans le cadre d'un bandit linéaire stochastique. En particulier, nous montrons que, sous des hypothèses standard, pour un bandit linéaire stochastique à d dimensions avec un horizon d'interaction T, l'échantillonnage d'ensemble avec un ensemble de taille d'ordre dlogT entraîne un regret au plus de l'ordre (dlogT)5/2T‾‾√. Il s'agit du premier résultat dans un cadre structuré qui n'exige pas que la taille de l'ensemble augmente linéairement avec T - ce qui va à l'encontre de l'objectif de l'échantillonnage d'ensemble - tout en obtenant un regret d'ordre proche de T‾‾√. Notre résultat est également le premier à autoriser des ensembles d'actions infinis.

Croire ou ne pas croire à son LLM : la promotion itérative pour l'estimation de l'incertitude épistémique
Yasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvari

Nous explorons la quantification de l'incertitude dans les grands modèles de langage (LLM), dans le but d'identifier quand l'incertitude dans les réponses données à une requête est importante. Nous considérons simultanément les incertitudes épistémiques et aléatoires, les premières provenant du manque de connaissances sur la vérité de base (comme les faits ou la langue) et les secondes provenant d'un hasard irréductible (comme les réponses multiples possibles). En particulier, nous dérivons une métrique de la théorie de l'information qui permet de détecter de manière fiable quand seule l'incertitude épistémique est importante, auquel cas la sortie du modèle n'est pas fiable. Cette condition peut être calculée uniquement sur la base de la sortie du modèle obtenue simplement par une incitation itérative spéciale basée sur les réponses précédentes. Cette quantification permet, par exemple, de détecter les hallucinations (cas où l'incertitude épistémique est élevée) dans les réponses uniques et multiples. Cela contraste avec de nombreuses stratégies standard de quantification de l'incertitude (telles que le seuillage de la log-vraisemblance d'une réponse), qui ne permettent pas de détecter les hallucinations dans le cas de réponses multiples. Nous menons une série d'expériences qui démontrent l'avantage de notre formulation. En outre, nos recherches nous éclairent sur la manière dont les probabilités attribuées à une sortie donnée par un LLM peuvent être amplifiées par une incitation itérative, ce qui pourrait être d'un intérêt indépendant.

Partager