Thèse soutenue

Réduction de la dimensionnalité des profils tumoraux biomédicaux : une approche d'apprentissage automatique

FR  |  
EN
Auteur / Autrice : Martin Palazzo
Direction : Pierre BeauseroyPatricio Yankilevich
Type : Thèse de doctorat
Discipline(s) : Optimisation et Sureté des Systèmes
Date : Soutenance le 05/10/2021
Etablissement(s) : Troyes en cotutelle avec Universidad Tecnológica Nacional. Facultad Regional Buenos Aires (Buenos Aires, Argentine)
Ecole(s) doctorale(s) : Ecole doctorale Sciences pour l'Ingénieur (Troyes, Aube)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique et Société Numérique / LIST3N
Jury : Président / Présidente : Frédéric Bertrand
Examinateurs / Examinatrices : Frédéric Bertrand, Ariel Chernomoretz, Florence D’Alche Buc, Emmanuel Iarussi, Morten Nielsen
Rapporteurs / Rapporteuses : Ariel Chernomoretz, Florence D’Alche Buc

Résumé

FR  |  
EN

Le rythme croissant de génération de données à partir de profils tumoraux au cours de la dernière décennie a permis le développement d'algorithmes d'apprentissage statistique pour explorer et analyser le paysage des types et sous-types de tumeurs et la survie des patients d'un point de vue biomoléculaire. Les données tumorales sont principalement décrites par des caractéristiques transcriptomiques et le niveau d'expression d'un transcrit génique donné dans la cellule tumorale. Par conséquent, ces caractéristiques peuvent être utilisées pour apprendre des règles statistiques qui améliorent la compréhension de l'état et du type d'une cellule cancéreuse. Néanmoins, les données tumorales transcriptomiques sont de grande dimension et chaque tumeur peut être décrite par des milliers de caractéristiques génétiques, ce qui rend difficile la réalisation d'une tâche d'apprentissage automatique et la compréhension des mécanismes biologiques sous-jacents. Cette thèse étudie comment réduire la dimensionnalité et gagner en interprétabilité pour savoir quels gènes codent le signal de la distribution des données en proposant des méthodes de réduction de dimension basées sur un modèle qui envisage la structure globale des données à l'aide d'un espace de représentation latente. Les méthodes proposées ont montré des améliorations dans les tâches de sélection de caractéristiques supervisées et non supervisées par rapport aux méthodes de référence pour classer et apprendre des sous-groupes de tumeurs respectivement.