Explorer la « matière noire » de la chimie humaine : un nouvel article publié dans Nature montre comment l'IA peut révéler de nouveaux métabolites

Publié

27 janvier 2026

Si les dernières décennies ont été marquées par des progrès sans précédent dans le domaine de la recherche médicale, une grande partie de ce qui se passe dans le corps humain reste encore mystérieuse. Aujourd'hui, une étude historique publiée dans la prestigieuse revue scientifique Nature, co-rédigée par des chercheurs d'Amii, révèle comment l'intelligence artificielle accélère notre compréhension de l'un des plus grands mystères du corps humain : les métabolites inconnus. Cette recherche est très prometteuse pour l'avenir du diagnostic des maladies et de la découverte de médicaments.

L'article intitulé Anticipation et découverte des métabolites mammifères guidées par un modèle linguistique, a été publié le 14 janvier dans la prestigieuse revue scientifique par une équipe internationale composée notamment de membres de l'Université de l'Alberta, de l'Université de Colombie-Britannique et de l'Université de Princeton. L'équipe comprenait Fei Wang, étudiant en informatique à l'Université de l'Alberta, qui a travaillé aux côtés de ses superviseurs — Russ Greiner, membre de l'Amii et titulaire de la chaire CIFAR du Canada , et le chercheur en métabolisme et professeur émérite à l'Université de l'Alberta, David S. Wishart.

Dans leur article, les chercheurs ont présenté DeepMet, un modèle linguistique sophistiqué spécialement entraîné sur les structures chimiques, qui a permis à cet outil de révéler des dizaines de métabolites jusqu'alors inconnus dans les tissus humains et murins.

« Nous essayons de résoudre ce mystère appelé la matière noire de la chimie, où l'on estime qu'il existe des centaines de milliers de structures moléculaires inconnues dans un système biologique », explique Wang.


Métabolites : un aperçu de l'organisme

Les métabolites sont de minuscules molécules, telles que les sucres et les acides aminés, présentes dans notre corps et qui revêtent une grande importance. Ces minuscules molécules sont produites par votre corps, soit en interne, soit à partir de tout ce que vous ingérez, par exemple lorsque vous respirez, buvez, mangez ou prenez des médicaments.

Les métabolites jouent un rôle essentiel dans le fonctionnement de l'organisme : certains fournissent l'énergie dont l'organisme a besoin, tandis que d'autres servent à construire les structures internes du corps. D'autres types de métabolites envoient des signaux qui permettent aux différentes parties du corps de communiquer entre elles, et jouent également toutes sortes d'autres rôles vitaux.

Les métabolites sont également l'un des moyens utilisés par les professionnels de santé pour déterminer ce qui se passe dans l'organisme d'un patient. Les tests métaboliques sont un outil de diagnostic extrêmement courant : si vous avez déjà subi une analyse de sang ou d'urine dans le cadre d'un bilan de santé, il y a de fortes chances que celle-ci ait permis de vérifier le taux de certains métabolites spécifiques. La glycémie, qui mesure le taux de glucose, un métabolite, est l'un de ces tests courants.

Comprendre les voies métaboliques dans l'organisme, c'est-à-dire les chemins empruntés par certains métabolites pour transporter des signaux entre différentes parties du corps, pourrait mener à la mise au point de nouveaux médicaments qui exploitent ces voies pour agir plus efficacement.

« Les gènes sont comme le plan de votre corps, ils décrivent ce avec quoi vous êtes né. Les métabolites sont ce qui se passe dans votre corps à l'instant présent, ce qui est clairement important », explique Greiner.

« Les gènes sont comme le plan de votre corps, ils décrivent ce avec quoi vous êtes né.

Les métabolites correspondent à ce qui se passe dans votre corps à l'instant présent, ce qui est évidemment important. »

Russ Greiner, membre de l'Amii et titulaire de la chaire CIFAR AI du Canada

Un vaste territoire inconnu

Même si les métabolites sont importants pour les soins de santé, malheureusement, nous en connaissons très peu. Les scientifiques estiment aujourd'hui que nous avons identifié environ 3 000 à 4 000 métabolites dans le corps humain. Mais il en existe des centaines de milliers, voire des millions, qui n'ont pas encore été identifiés. Nous pouvons voir des traces de substances chimiques qui ne correspondent à aucun métabolite connu dans notre sang et nos tissus, donc nous savons qu'ils sont là. Mais comme nous ne connaissons pas leurs structures chimiques, nous ne connaissons pas leur rôle ni leur utilisation.

L'identification de nouveaux métabolites est coûteuse et prend beaucoup de temps, explique Wang. Pour ce faire, il faut connaître deux choses : les atomes qui composent le métabolite et la façon dont ces atomes s'assemblent, c'est-à-dire la structure de la molécule. 

Les chercheurs peuvent prélever un échantillon de sang humain et isoler les différentes molécules qu'il contient. Ils utilisent ensuite des méthodes telles que la spectrométrie de masse, qui décompose les molécules en fragments plus petits (puis encore plus petits), produisant un spectre indiquant la masse de ces fragments. Ils peuvent ensuite comparer le spectre obtenu à une base de données contenant les spectres correspondant à chacun d'un large ensemble de métabolites déjà connus. 

Malheureusement, cela ne fonctionne que pour les molécules connues dont le spectre est connu. C'est pourquoi nous disposons d'outils informatiques qui fonctionnent dans l'autre sens : plutôt que de prédire la molécule à partir du spectre, ces outils prédisent le spectre d'une molécule donnée. Nous pouvons ensuite ajouter cette association à la base de données des paires [molécule, spectre] connues. 

Mais le défi consiste à déterminer quelles molécules étudier. L'espace chimique inexploré est vaste : on estime qu'il existe cent quinvigintillions (soit 10^80, ou 1 suivi de 80 zéros) de petites molécules possibles. Seule une infime fraction d'entre elles sont des métabolites présents chez les mammifères. Comment savoir lesquelles nous devons prendre en considération ?

Découverte avec un SMILES

Dans l'article publié dans Nature, l'équipe de recherche présente un nouvel outil, appelé DeepMet, qui permet de suggérer des candidats potentiels.

DeepMet présente un modèle linguistique chimique spécialement conçu à cet effet. La plupart des gens connaissent les grands modèles linguistiques tels que ChatGPT, qui sont entraînés à partir d'immenses ensembles de données de textes en langage naturel. Lorsque vous demandez à ChatGPT de générer un paragraphe, il utilise ce qu'il a appris sur la structure des phrases, la grammaire et la signification des mots pour construire des phrases pièce par pièce, en prédisant les mots les plus susceptibles de suivre d'autres mots.

DeepMet fonctionne de manière similaire. Au lieu de mots, les chercheurs ont utilisé une base de données de métabolites connus et ont représenté leurs structures chimiques à l'aide de courtes séquences de lettres, appelées chaînes SMILES (simplified molecular-input line-entry system). DeepMet a ensuite été entraîné sur les chaînes SMILES d'environ 2 000 métabolites mammifères connus, ce qui lui a permis d'acquérir des connaissances sur la logique de la structure chimique d'un métabolite.

Grâce à ces connaissances, DeepMet est capable d'inverser le processus : générer de nouveaux métabolites potentiels en ajoutant des caractères, les uns après les autres, pour former une chaîne SMILES, de la même manière qu'une phrase est construite avec des mots. Le modèle a produit une séquence de lettres, correspondant à des structures chimiques susceptibles de former de nouveaux métabolites chez les mammifères. « Le modèle attribue également à chaque structure prédite un score indiquant la probabilité qu'elle corresponde à un métabolite présent chez les mammifères. »

L'équipe de recherche a ensuite utilisé une version modifiée de certains outils existants de prédiction des spectres, entraînés sur des métabolites connus, afin de créer le spectre de chacun de ces métabolites proposés.  Cela a permis d'obtenir un nouvel ensemble de millions de paires [molécule, spectre], qui peuvent être utilisées pour identifier une nouvelle molécule métabolique en comparant le spectre de cette molécule à cette base de données. Bien que ce nombre soit important, il est bien inférieur à cent quinvigintillions ! Cet ensemble plus restreint d'options signifie que les chercheurs en métabolisme disposent d'une liste beaucoup plus courte de candidats potentiels, ce qui réduit considérablement le temps et les ressources consacrés à l'étude de pistes sans issue.

 Il reste encore beaucoup de travail à accomplir pour synthétiser et tester ces prédictions DeepMet, afin de vérifier si ces molécules sont viables, et encore plus pour confirmer leur présence dans un échantillon biologique.  

Pour tester la précision de leur modèle, l'équipe a retiré de nombreux métabolites mammifères connus de l'ensemble d'apprentissage de DeepMet afin de voir si le modèle appris pouvait alors prédire avec précision leur existence. Ils ont constaté que les prédictions les plus fréquentes du modèle correspondaient à environ 29 % des métabolites retirés. 

DeepMet a permis la découverte de 36 métabolites mammifères jusqu'alors inconnus dans les tissus de souris et les fluides biologiques humains. Pour replacer cela dans son contexte, Wang explique que l'identification d'un seul nouveau métabolite inconnu, sans DeepMet, est une tâche ardue qui pourrait prendre plusieurs mois, voire plusieurs années, à un chercheur spécialisé.

« Avant cela, vous étiez une personne seule avec une canne à pêche, assise là pour toujours, dans l'espoir qu'un jour vous attraperiez quelque chose dans la mer de molécules », explique Wang. «Maintenant, c'est comme si nous construisions un chariot de pêche équipé d'un sonar, qui parcourt de manière autonome les océans de produits chimiques, n'est-ce pas ? À un moment donné, cela nécessitera une intervention humaine, mais c'est tout simplement beaucoup plus efficace. »

Jeter les bases de la découverte de métabolites assistée par l'IA

Greiner affirme que DeepMet en est encore à ses balbutiements et que nous ne faisons que poser les bases de la découverte de métabolites assistée par l'IA. Mais il pense que le potentiel de cette technologie pourrait être énorme. Une meilleure compréhension des métabolites présents dans le corps humain et de leur rôle pourrait apporter des réponses à des questions sur notre santé que nous n'avons même pas encore songé à poser. M. Greiner affirme que cela pourrait déboucher sur de nouveaux biomarqueurs qui faciliteraient le diagnostic de certaines maladies ou aideraient à vérifier l'efficacité d'un traitement.

Il ajoute que cela pourrait contribuer à la découverte de nouveaux médicaments, ainsi qu'à une meilleure compréhension de leur circulation dans l'organisme. Cela pourrait déboucher sur des traitements plus sûrs et plus efficaces, tout en réduisant considérablement le temps nécessaire à la recherche de nouveaux traitements pharmaceutiques.

À terme, Greiner estime que ce type de recherche nous permettra d'atteindre un objectif ambitieux : une compréhension complète de tous les métabolites présents dans le corps humain, avec le même potentiel et le même impact que le projet Génome humain lorsqu'il a été achevé il y a deux décennies.

« Avant d'obtenir ces résultats, il faut poser les bases. Et cet outil fournit certaines de ces idées essentielles », explique-t-il.

Russ Greiner

Fei Wang

Partager