Mark Schmidt, président du CIFAR AI au Canada s'est vu attribuer une Bourse Dorothy Killam 2025 pour soutenir ses travaux sur l'amélioration des éléments fondamentaux de l'apprentissage automatique. Ces travaux pourraient avoir un impact considérable sur la manière dont nous utilisons l'intelligence artificielle.
Les bourses sont attribuées chaque année à des chercheurs "dont la recherche supérieure, novatrice et transformatrice est susceptible d'améliorer la vie des Canadiens".
"Ils doivent recevoir un grand nombre de très bonnes candidatures", déclare M. Schmidt.
"Je me sens donc très chanceux que le mien ait été choisi parmi tous les autres.
Outre la reconnaissance de son travail, la bourse fournit également des fonds pour soutenir la recherche de M. Schmidt, qui s'est récemment concentrée sur l'optimisation des modèles d'apprentissage automatique. L'accent a été mis sur la détermination des taux d'apprentissage optimaux pour les modèles de grande taille.
"Je pense que l'impact potentiel est énorme.
-Mark Schmidt
Canada CIFAR AI Chair
Apprendre à apprendre
Dans l'apprentissage automatique, les hyperparamètres sont des paramètres qui peuvent être configurés pour modifier la façon dont un modèle apprend à partir des données. L'hyperparamètre du taux d'apprentissage contrôle l'ampleur des changements de valeurs d'un modèle en cours de formation : en fait, la vitesse d'apprentissage d'un modèle pendant la formation. Il n'existe pas de meilleur taux d'apprentissage universel pour tous les modèles. Il dépend de nombreux facteurs, notamment de l'ensemble de données, des méthodes de formation et d'autres variables.
Trouver le bon taux d'apprentissage pour une application particulière peut s'avérer long et difficile. Il faut souvent essayer différents ensembles de paramètres, ce qui est lent et coûteux. M. Schmidt prend l'exemple d'un grand modèle linguistique, comme ChatGPT. Lors de la formation du modèle, les scientifiques spécialisés dans l'apprentissage automatique utiliseront des heuristiques pour définir un taux d'apprentissage individuel pour chacune des variables du modèle. Toutefois, il s'agit d'une approche brutale, ce qui signifie que le taux d'apprentissage pour chaque variable n'est pas optimal, ce qui rend la formation inefficace.
Il est possible de surveiller les taux d'apprentissage pour déterminer ceux qui pourraient être ajustés, mais c'est une tâche ardue lorsqu'il s'agit des milliards de variables qui composent un modèle linguistique de grande taille. Pour compliquer encore les choses, ces taux d'apprentissage ne sont pas indépendants : l'ajustement du taux d'apprentissage d'une variable peut modifier les taux optimaux pour d'autres variables.
M. Schmidt travaille à l'élaboration de méthodes qui permettraient d'actualiser automatiquement le taux d'apprentissage au fur et à mesure de la formation du modèle. Cela permettrait de faire progresser radicalement la formation des modèles d'apprentissage automatique et aurait d'énormes applications dans des domaines tels que l'IA dans les soins de santé, l'ingénierie et la découverte scientifique.
"Je pense que l'impact potentiel est énorme", a-t-il déclaré. "Si vous avez entendu parler de DeepSeek [...], ils ont formé de manière très intelligente un grand modèle de langage et ont montré qu'il était possible de le rendre beaucoup moins cher. Et je pense qu'il y a d'autres possibilités de faire des choses comme ça. J'espère que nous sommes bien placés pour faire quelque chose comme ça.
Nouvelle approche, anciennes mathématiques
Jusqu'à présent, les travaux sont prometteurs. Le laboratoire de M. Schmidt a publié un article à la fin de l'année dernière après qu'un de ses étudiants a mis au point une méthode permettant d'établir des liens entre des ensembles de taux d'apprentissage : si un ensemble d'un milliard de taux d'apprentissage doit être ajusté, il peut également suggérer d'autres groupes de taux d'apprentissage qui pourraient nécessiter des ajustements similaires. M. Schmidt explique que la méthode utilisée par l'étudiant pour déterminer les différents taux trouve son origine dans la méthode Jacobi, une approche mathématique mise au point dans les années 1840.
"Il s'agit d'un vieux sujet, et mes étudiants ont fait cette découverte qui a conduit à cette nouvelle méthode. J'en suis vraiment choqué. Je pense que c'est l'une des choses les plus intéressantes auxquelles j'ai participé."
Outre le financement fourni par la bourse Killam, M. Schmidt indique qu'elle lui procure également une décharge d'enseignement, ce qui lui permettra de se concentrer davantage sur la recherche. Il note qu'il a déjà pu engager de nouveaux étudiants diplômés pour l'aider à explorer les méthodes d'optimisation des taux d'apprentissage par variable.
Au printemps, M. Schmidt présentera certains de ses travaux sur l'optimisation de l'apprentissage automatique lors de la conférence Amii's Upper Bound d'Amii d'Amii à Edmonton, du 20 au 23 mai.