Thèse en cours

ARAPPEX - Apprentissage de Représentation Auto-supervisée pour la Prédiction de Phénotype à partir de données d'EXpression de gènes

FR  |  
EN
Auteur / Autrice : Kévin Dradjat
Direction : Blaise Hanczar
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 08/01/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique
Référent : Université d'Évry Val d'Essonne

Résumé

FR  |  
EN

Ce projet s'intéresse à l'analyse de données d'expression de gènes l'aide de méthodes d'intelligence artificielle pour le diagnostic, le prognostique, le choix thérapeutique et la stratification de patients. L'objectif est de construire un nouvel espace de représentation des données qui capturera l'essentiel de l'information contenue dans l'expression des gènes et qui pourra être appliqué par tout jeux de données RNA-seq et pour tout problème d'analyse supervisée ou non supervisée. Pour cela, nous apprendrons par apprentissage auto-supervisée un modèle « encoder », c-a-d un réseau de neurone qui projette les patients de l'espace des données d'expression dans l'espace de représentation. Nous adapterons les récents développement dans le domaine de l'image autour du « constrastive learning » au problème des données génomiques. De plus nous introduirons dans le modèle la connaissance biologique sous forme d'ontologie en utilisant des GNN (Graph Neural Network). La solution proposée sera mise à disposition de la communauté scientifique et sera testée sur des données de cancer du portail TCGA .