Thèse soutenue

Génération de données transcriptomiques à l'aide de modèles génératifs profonds

FR  |  
EN
Auteur / Autrice : Alice Lacan
Direction : Blaise HanczarMichèle Sebag
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/02/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Informatique, BioInformatique, Systèmes Complexes (Evry, Essonne)
Référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique
Jury : Président / Présidente : Marc Sebban
Examinateurs / Examinatrices : Yann Chevaleyre, Nataliya Sokolovska, Magali Berland, Alexander F. Palazzo
Rapporteurs / Rapporteuses : Yann Chevaleyre, Nataliya Sokolovska

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse explore l'utilisation de modèles génératifs profonds pour améliorer la génération de données transcriptomiques, répondant aux défis de rareté des données dans la classification de phénotypes de cancers. Nous évaluons la capacité des Autoencodeurs Variationnels (VAEs), des Réseaux Antagonistes Génératifs (GANs) et des modèles de diffusion (DDPM/DDIM) à équilibrer réalisme et diversité sur des données tabulaires de haute dimension. Nous avons d'abord adapté des métriques d'évaluation, supervisées et non supervisées. Nous avons ensuite intégré un moduled'auto-attention basé sur les connaissances du domaine dans notre GAN (AttGAN), améliorantle compromis fidélité-diversité. Une contribution notable est l'augmentation de la performance de classification avec un nombre minimal de vraies données augmenté de données générées. Nous proposons également une première adaptation des modèles de diffusion pour l'expression des gènes, ainsi qu'une méthodologie d'analyse d'interpolation offrant des perspectives sur la diversité des données et l'identification de biomarqueurs. Enfin, nous présentons GMDA (Modélisation Générativeavec Alignement de Densités), un modèle génératif alternatif aux GANs, permettant une exploration contrôlée de l'espace des données, une stabilité et une architecture frugale. Cette thèse offre ainsi des perspectives pour la génération de données transcriptomiques et tabulaires au sens large.