Poste de recherche

Prédiction de la survie des patients atteints de cancer basée sur l'expression génétique - une approche de modélisation thématique

Le cancer est l'une des principales causes de décès dans le monde. Nombreux sont ceux qui pensent que les données génomiques nous permettront de mieux prédire la durée de survie de ces patients, ce qui débouchera sur des options de traitement et des soins plus personnalisés. Comme les modèles standard de prédiction de survie ont du mal à faire face à la haute dimensionnalité de ces données d'expression génique, de nombreux projets utilisent des techniques de réduction de la dimensionnalité pour surmonter cet obstacle. Nous présentons une nouvelle méthodologie, inspirée de la modélisation des sujets dans le domaine du langage naturel, pour dériver des caractéristiques expressives à partir des données d'expression génétique de haute dimension. Dans ce cas, un document est représenté comme un mélange sur un nombre relativement faible de sujets, où chaque sujet correspond à une distribution sur les mots ; ici, pour tenir compte de l'hétérogénéité du cancer d'un patient, nous représentons chaque patient (≈ document) comme un mélange sur des sujets de cancer, où chaque sujet de cancer est un mélange sur des valeurs d'expression génique (≈ mots). Cela a nécessité quelques extensions du modèle LDA standard -par exemple, pour prendre en compte les valeurs d'expression à valeur réelle - ce qui a conduit à notre nouvelle procédure d'allocation de Dirichlet latente discrétisée (dLDA). Après avoir utilisé cette dLDA pour apprendre ces thèmes de cancer, nous pouvons alors exprimer chaque patient comme une distribution sur un petit nombre de thèmes de cancer, puis utiliser ce "vecteur de distribution" de faible dimension comme entrée pour un algorithme d'apprentissage - ici, nous avons exécuté le récent algorithme de prédiction de survie, MTLR, sur cette représentation de l'ensemble de données sur le cancer. Nous nous concentrons d'abord sur l'ensemble de données METABRIC, qui décrit chacune des n = 1 981 patientes atteintes d'un cancer du sein à l'aide des valeurs d'expression génique r = 49 576, provenant de microréseaux. Nos résultats montrent que notre approche (dLDA suivie de MTLR) fournit des estimations de survie plus précises que les modèles standard, en termes de mesure de concordance standard. Nous validons ensuite cette approche "dLDA+MTLR" en l'appliquant à l'ensemble de données Pan-Kidney (KIPAN) n = 883, sur r = 15 529 valeurs d'expression génique - ici en utilisant la modalité mRNAseq - et nous constatons qu'elle obtient à nouveau d'excellents résultats. Dans les deux cas, nous montrons également que le modèle résultant est calibré, en utilisant la récente mesure "D-calibrated". Ces succès, dans deux types de cancer et modalités d'expression différents, démontrent la généralité et l'efficacité de cette approche. Le code source de dLDA+MTLR est disponible sur https://github.com/nitsanluke/GE-LDA-Survival.

Remerciements

Nous remercions vivement Calcul Canada de nous avoir fourni des ressources informatiques. Nous remercions également Dream Challenges et le Broad Institute pour avoir mis à la disposition du public les ensembles de données METABRIC et KIPAN sur le cancer.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !