Thèse en cours

KADAT : Augmentation de données basée sur les connaissances pour les données transcriptomiques

FR  |  
EN
Auteur / Autrice : Alice Lacan
Direction : Blaise Hanczar
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique
Référent : Université d'Évry-Val-d'Essonne (1991-....)

Résumé

FR  |  
EN

Ce projet vise à concevoir une méthodologie pour augmenter les ensembles de données de petite taille en exploitant les connaissances de domaine disponibles. Plus précisément, nous considérons l'analyse des données transcriptomiques, qui joue un rôle crucial dans le développement de la médecine personnalisée. Ces analyses, utilisant des méthodes d'apprentissage automatique, sont actuellement limitées par la petite taille des ensembles de données disponibles. D'autre part, une riche base de connaissances du domaine est disponible sous forme ontologie, en particulier « Gene Ontology » (GO) qui recense les processus biologiques, les fonctions moléculaires et les composants cellulaires. Nous proposons d'apprendre un score d'admissibilité d'un profil d'expression, en exploitant des jeux de données publiques et des réseaux de neurones de graphe dont l'architecture reproduit la structure de graphe acyclique dirigé de GO. Un auto-encodeur variationnel sera formé et biaisé pour générer des échantillons avec un bon score d'admissibilité. L'ensemble de données initial, complété par les échantillons générés «suffisamment pertinents», soutiendra l'apprentissage des classeurs dans un cadre semi-supervisé, améliorant de manière significative la robustesse et la stabilité des modèles appris.