ARAPPEX - Apprentissage de Représentation Auto-supervisée pour la Prédiction de Phénotype à partir de données d'EXpression de gènes
Auteur / Autrice : | Kévin Dradjat |
Direction : | Blaise Hanczar |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 08/01/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
Référent : Université d'Évry Val d'Essonne |
Mots clés
Résumé
Ce projet s'intéresse à l'analyse de données d'expression de gènes l'aide de méthodes d'intelligence artificielle pour le diagnostic, le prognostique, le choix thérapeutique et la stratification de patients. L'objectif est de construire un nouvel espace de représentation des données qui capturera l'essentiel de l'information contenue dans l'expression des gènes et qui pourra être appliqué par tout jeux de données RNA-seq et pour tout problème d'analyse supervisée ou non supervisée. Pour cela, nous apprendrons par apprentissage auto-supervisée un modèle « encoder », c-a-d un réseau de neurone qui projette les patients de l'espace des données d'expression dans l'espace de représentation. Nous adapterons les récents développement dans le domaine de l'image autour du « constrastive learning » au problème des données génomiques. De plus nous introduirons dans le modèle la connaissance biologique sous forme d'ontologie en utilisant des GNN (Graph Neural Network). La solution proposée sera mise à disposition de la communauté scientifique et sera testée sur des données de cancer du portail TCGA .