Génération de données transcriptomiques à l'aide de modèles génératifs profonds
Auteur / Autrice : | Alice Lacan |
Direction : | Blaise Hanczar, Michèle Sebag |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/02/2025 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Informatique, BioInformatique, Systèmes Complexes (Evry, Essonne) |
Référent : Université d'Évry-Val-d'Essonne (1991-....) | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….) | |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
Jury : | Président / Présidente : Marc Sebban |
Examinateurs / Examinatrices : Yann Chevaleyre, Nataliya Sokolovska, Magali Berland, Alexander F. Palazzo | |
Rapporteurs / Rapporteuses : Yann Chevaleyre, Nataliya Sokolovska |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse explore l'utilisation de modèles génératifs profonds pour améliorer la génération de données transcriptomiques, répondant aux défis de rareté des données dans la classification de phénotypes de cancers. Nous évaluons la capacité des Autoencodeurs Variationnels (VAEs), des Réseaux Antagonistes Génératifs (GANs) et des modèles de diffusion (DDPM/DDIM) à équilibrer réalisme et diversité sur des données tabulaires de haute dimension. Nous avons d'abord adapté des métriques d'évaluation, supervisées et non supervisées. Nous avons ensuite intégré un moduled'auto-attention basé sur les connaissances du domaine dans notre GAN (AttGAN), améliorantle compromis fidélité-diversité. Une contribution notable est l'augmentation de la performance de classification avec un nombre minimal de vraies données augmenté de données générées. Nous proposons également une première adaptation des modèles de diffusion pour l'expression des gènes, ainsi qu'une méthodologie d'analyse d'interpolation offrant des perspectives sur la diversité des données et l'identification de biomarqueurs. Enfin, nous présentons GMDA (Modélisation Générativeavec Alignement de Densités), un modèle génératif alternatif aux GANs, permettant une exploration contrôlée de l'espace des données, une stabilité et une architecture frugale. Cette thèse offre ainsi des perspectives pour la génération de données transcriptomiques et tabulaires au sens large.