Journal Upper Bound : L'apprentissage par renforcement est prêt à occuper le devant de la scène

Publié

20 mai 2026

Je suis bien conscient que j'ai beaucoup de chance.

En tant que chargée de communication scientifique chez Amii, mon travail consiste essentiellement à m'informer autant que possible sur les avancées vraiment fascinantes réalisées par nos chercheurs et nos scientifiques en matière d'intelligence artificielle. La majeure partie de l'année, c'est un peu comme si je devais boire à la source d'un torrent de nouveautés passionnantes.

Mais chaque année, pendant Upper Bound, cette caserne de pompiers se transforme en véritable geyser. Un véritable déluge d’informations à assimiler, digne du parc de Yellowstone. Des centaines de sessions sur l’IA, et à peine le temps d’en suivre quelques-unes.

Quand je me suis enfin mis à établir mon programme, mes premiers choix se sont portés sur certaines des sessions consacrées à l'apprentissage par renforcement qui étaient prévues pour le premier jour.

Chez Amii, on parle beaucoup de la réalité virtuelle (RV). Et de plus en plus, ces discussions portent sur l'impact qu'elle peut avoir lorsqu'elle est appliquée à des problèmes concrets.

RL dans la vie réelle

C’est pourquoi j’ai commencé ma matinée en passant voir la conférence d’Adam White intitulée « L’apprentissage par renforcement dans le monde réel ». En plus d’être un conférencier captivant et tout simplement quelqu’un de très sympathique, Adam est la personne à qui s’adresser pour parler de l’apprentissage par renforcement dans le monde réel. Il est membre de l’Amii, titulaire d’une chaire CIFAR en IA au Canadaet chercheur principal au Laboratoire d’apprentissage par renforcement et d’intelligence artificielle de l’Université de l’Alberta.

Adam, ainsi que Martha White, boursière Amii et titulaire de la chaire CIFAR en IA au Canada, est l’un des cofondateurs de RL Core Technologies, une start-up qui démontre comment l’IA peut être utilisée dans des contextes industriels, notamment dans le domaine du traitement de l’eau.

Étant un grand passionné à la fois d’apprentissage par la recherche (RL) et d’infrastructures, je suis de près les travaux de RL Core depuis un certain temps. J’ai donc entendu Adam dire à plusieurs reprises qu’il considérait l’apprentissage par la recherche comme la prochaine étape pour des secteurs tels que les services publics et l’industrie manufacturière. Mais c’était la première fois que je l’entendais affirmer que l’apprentissage par la recherche dans le monde réel constituait également la prochaine grande avancée pour faire progresser la science elle-même.

« L'apprentissage par renforcement a besoin de problèmes concrets : cela permettra d'améliorer les algorithmes d'apprentissage par renforcement », a-t-il déclaré à l'auditoire qui remplissait la salle.

Il fait valoir que de nombreuses avancées vraiment passionnantes ont été réalisées en matière d'apprentissage par renforcement dans les laboratoires et les simulations. Mais le monde réel est d'une tout autre nature : comme il le souligne, la vie réelle est plus complexe et les données sont plus difficiles à obtenir. De plus, bon nombre des modèles d'apprentissage par renforcement utilisés en laboratoire sont trop spécialisés. Ils peuvent être affinés et ajustés à l'infini pour réussir brillamment sur des problèmes très spécifiques ou pour obtenir de bons résultats lors de tests très précis, mais ils ne se généralisent pas aussi bien qu'ils le devraient – ce qu'il a qualifié de « plus grand péché de notre domaine ».

Quand il évoque le déploiement en conditions réelles, il en donne l'impression qu'il s'agit de l'équivalent, en apprentissage automatique, d'un haut fourneau. Un environnement à haute température, mais qui permettra de forger des modèles et des approches d'apprentissage par renforcement plus robustes, capables d'avoir un impact réel dans un monde dynamique et imprévisible.

Il a ensuite partagé quelques enseignements tirés de trois projets concrets d’apprentissage en profondeur (RL) auxquels il a participé, chacun illustrant sous un angle différent les défis qu’il évoquait et les avantages réels que peut apporter le RL. Outre le traitement de l'eau, il a présenté quelques autres applications très intéressantes, telles que la prévision des tempêtes solaires à l'aide de données satellitaires et l'évaluation de l'impact de différentes conditions d'éclairage sur la croissance des plantes. Ces deux projets en sont encore à leurs débuts, mais ils ont mis en évidence deux autres façons passionnantes dont l'apprentissage par renforcement s'attaque à des problèmes concrets.

Apprendre dans un monde en constante évolution

Quelques heures plus tard, j'ai pu assister à une autre brève présentation consacrée à un autre exemple concret d'apprentissage par renforcement. Cette fois-ci, l'intervenant était Soumya Ranjan Sahoo, chercheur en apprentissage automatique chez NTWIST, une société de logiciels au service des entreprises minières et manufacturières. Il a présenté les résultats positifs obtenus par son entreprise en combinant l'apprentissage par renforcement avec d'autres technologies d'apprentissage automatique dans le domaine de la planification des ateliers de fabrication.

Il explique que pour une entreprise qui fabrique des pièces complexes, la planification est un enjeu majeur. Une pièce devra probablement passer par plusieurs machines, ce qui prend un certain temps et doit être effectué dans un ordre précis. Or, toutes ces machines doivent généralement être pilotées par une personne, qui peut également être sollicitée ailleurs. L'entreprise a donc mis au point des algorithmes d'apprentissage automatique pour planifier le processus, dans le but de réduire au maximum les temps d'arrêt des machines et les conflits.

Mais, comme l’a dit Adam White plus tôt dans la journée, le monde réel est imprévisible. Le système NTWISTS a été pré-entraîné sur un vaste ensemble de données comprenant des plannings réussis, et il fonctionne bien tant que tout reste inchangé.  Mais rien ne reste jamais identique. Les machines tombent en panne, les employés changent de poste ou prennent des congés, ou encore un million d’autres petits détails s’accumulent pour modifier le plan. C’est là qu’intervient l’apprentissage par renforcement. Il est capable d’apprendre en continu, en s’adaptant aux retards imprévus et en maintenant le cap lorsque la situation change. L’ajout de la composante d’apprentissage par renforcement a permis à leurs modèles de fonctionner cinq fois mieux qu’auparavant, explique Sahoo.

Grâce à cette approche hybride, explique-t-il, ils ont obtenu des résultats tout à fait remarquables, bien supérieurs à ceux qu'ils auraient obtenus en utilisant une solution purement pré-entraînée ou purement basée sur l'apprentissage par renforcement. Dans une étude de cas anonymisée, il a évoqué un fabricant de têtes de forage avec lequel ils avaient collaboré et qui avait réussi à réduire son délai de fabrication d'environ 56 jours à seulement douze, ce qui semblait être un résultat tout à fait remarquable.

Ce ne sont là que quelques-unes des sessions sur l'apprentissage par renforcement auxquelles j'ai pu assister lors de la première journée de la conférence Upper Bound. Mais cela a suffi à démontrer que l'apprentissage par renforcement n'est plus une technologie abstraite, réservée à un avenir lointain. Tant les chercheurs que les entreprises l'utilisent déjà dans des applications concrètes, dans le monde réel. Et cela ne se limite pas à résoudre les problèmes d'aujourd'hui : cela nous en apprend énormément sur l'apprentissage par renforcement lui-même, nous rapprochant ainsi d'applications encore plus passionnantes. Une technologie à la fois d'aujourd'hui et de demain.

Partager