Réduction de la dimensionnalité des profils tumoraux biomédicaux : une approche d'apprentissage automatique
Auteur / Autrice : | Martin Palazzo |
Direction : | Pierre Beauseroy, Patricio Yankilevich |
Type : | Thèse de doctorat |
Discipline(s) : | Optimisation et Sureté des Systèmes |
Date : | Soutenance le 05/10/2021 |
Etablissement(s) : | Troyes en cotutelle avec Universidad Tecnológica Nacional. Facultad Regional Buenos Aires (Buenos Aires, Argentine) |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'Ingénieur (Troyes, Aube) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique et Société Numérique / LIST3N |
Jury : | Président / Présidente : Frédéric Bertrand |
Examinateurs / Examinatrices : Frédéric Bertrand, Ariel Chernomoretz, Florence D’Alche Buc, Emmanuel Iarussi, Morten Nielsen | |
Rapporteur / Rapporteuse : Ariel Chernomoretz, Florence D’Alche Buc |
Mots clés
Résumé
Le rythme croissant de génération de données à partir de profils tumoraux au cours de la dernière décennie a permis le développement d'algorithmes d'apprentissage statistique pour explorer et analyser le paysage des types et sous-types de tumeurs et la survie des patients d'un point de vue biomoléculaire. Les données tumorales sont principalement décrites par des caractéristiques transcriptomiques et le niveau d'expression d'un transcrit génique donné dans la cellule tumorale. Par conséquent, ces caractéristiques peuvent être utilisées pour apprendre des règles statistiques qui améliorent la compréhension de l'état et du type d'une cellule cancéreuse. Néanmoins, les données tumorales transcriptomiques sont de grande dimension et chaque tumeur peut être décrite par des milliers de caractéristiques génétiques, ce qui rend difficile la réalisation d'une tâche d'apprentissage automatique et la compréhension des mécanismes biologiques sous-jacents. Cette thèse étudie comment réduire la dimensionnalité et gagner en interprétabilité pour savoir quels gènes codent le signal de la distribution des données en proposant des méthodes de réduction de dimension basées sur un modèle qui envisage la structure globale des données à l'aide d'un espace de représentation latente. Les méthodes proposées ont montré des améliorations dans les tâches de sélection de caractéristiques supervisées et non supervisées par rapport aux méthodes de référence pour classer et apprendre des sous-groupes de tumeurs respectivement.