KADAT : Augmentation de données basée sur les connaissances pour les données transcriptomiques
Auteur / Autrice : | Alice Lacan |
Direction : | Blaise Hanczar |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
Référent : Université d'Évry-Val-d'Essonne (1991-....) |
Mots clés
Résumé
Ce projet vise à concevoir une méthodologie pour augmenter les ensembles de données de petite taille en exploitant les connaissances de domaine disponibles. Plus précisément, nous considérons l'analyse des données transcriptomiques, qui joue un rôle crucial dans le développement de la médecine personnalisée. Ces analyses, utilisant des méthodes d'apprentissage automatique, sont actuellement limitées par la petite taille des ensembles de données disponibles. D'autre part, une riche base de connaissances du domaine est disponible sous forme ontologie, en particulier « Gene Ontology » (GO) qui recense les processus biologiques, les fonctions moléculaires et les composants cellulaires. Nous proposons d'apprendre un score d'admissibilité d'un profil d'expression, en exploitant des jeux de données publiques et des réseaux de neurones de graphe dont l'architecture reproduit la structure de graphe acyclique dirigé de GO. Un auto-encodeur variationnel sera formé et biaisé pour générer des échantillons avec un bon score d'admissibilité. L'ensemble de données initial, complété par les échantillons générés «suffisamment pertinents», soutiendra l'apprentissage des classeurs dans un cadre semi-supervisé, améliorant de manière significative la robustesse et la stabilité des modèles appris.