Poste de recherche
Le cancer est l'une des principales causes de décès dans le monde. Nombreux sont ceux qui pensent que les données génomiques nous permettront de mieux prédire la durée de survie de ces patients, ce qui débouchera sur des options de traitement et des soins plus personnalisés. Comme les modèles standard de prédiction de survie ont du mal à faire face à la haute dimensionnalité de ces données d'expression génique, de nombreux projets utilisent des techniques de réduction de la dimensionnalité pour surmonter cet obstacle. Nous présentons une nouvelle méthodologie, inspirée de la modélisation des sujets dans le domaine du langage naturel, pour dériver des caractéristiques expressives à partir des données d'expression génétique de haute dimension. Dans ce cas, un document est représenté comme un mélange sur un nombre relativement faible de sujets, où chaque sujet correspond à une distribution sur les mots ; ici, pour tenir compte de l'hétérogénéité du cancer d'un patient, nous représentons chaque patient (≈ document) comme un mélange sur des sujets de cancer, où chaque sujet de cancer est un mélange sur des valeurs d'expression génique (≈ mots). Cela a nécessité quelques extensions du modèle LDA standard -par exemple, pour prendre en compte les valeurs d'expression à valeur réelle - ce qui a conduit à notre nouvelle procédure d'allocation de Dirichlet latente discrétisée (dLDA). Après avoir utilisé cette dLDA pour apprendre ces thèmes de cancer, nous pouvons alors exprimer chaque patient comme une distribution sur un petit nombre de thèmes de cancer, puis utiliser ce "vecteur de distribution" de faible dimension comme entrée pour un algorithme d'apprentissage - ici, nous avons exécuté le récent algorithme de prédiction de survie, MTLR, sur cette représentation de l'ensemble de données sur le cancer. Nous nous concentrons d'abord sur l'ensemble de données METABRIC, qui décrit chacune des n = 1 981 patientes atteintes d'un cancer du sein à l'aide des valeurs d'expression génique r = 49 576, provenant de microréseaux. Nos résultats montrent que notre approche (dLDA suivie de MTLR) fournit des estimations de survie plus précises que les modèles standard, en termes de mesure de concordance standard. Nous validons ensuite cette approche "dLDA+MTLR" en l'appliquant à l'ensemble de données Pan-Kidney (KIPAN) n = 883, sur r = 15 529 valeurs d'expression génique - ici en utilisant la modalité mRNAseq - et nous constatons qu'elle obtient à nouveau d'excellents résultats. Dans les deux cas, nous montrons également que le modèle résultant est calibré, en utilisant la récente mesure "D-calibrated". Ces succès, dans deux types de cancer et modalités d'expression différents, démontrent la généralité et l'efficacité de cette approche. Le code source de dLDA+MTLR est disponible sur https://github.com/nitsanluke/GE-LDA-Survival.
Remerciements
Nous remercions vivement Calcul Canada de nous avoir fourni des ressources informatiques. Nous remercions également Dream Challenges et le Broad Institute pour avoir mis à la disposition du public les ensembles de données METABRIC et KIPAN sur le cancer.
9 février 2023
Poste de recherche
6 février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
7 juillet 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Prédiction du trouble obsessionnel-compulsif : Importance de la conception de caractéristiques assistée par la neurobiologie et de l'apprentissage par transfert de diagnostics croisés.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.