Thèse soutenue

Méthodes multilevel pour l’apprentissage bayésien et applications aux données biologiques

FR  |  
EN
Auteur / Autrice : Maxime Egéa
Direction : Fabien Panloup
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leurs intéractions
Date : Soutenance le 29/03/2023
Etablissement(s) : Angers
Ecole(s) doctorale(s) : École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire angevin de recherche en mathématiques (Angers)
Jury : Président / Présidente : Gilles Pagès
Examinateurs / Examinatrices : Arnak S. Dalalyan, Gersende Fort
Rapporteurs / Rapporteuses : Andreas Eberle, Ahmed Kebaier

Résumé

FR  |  
EN

Cette thèse est issue d’un partenariat entre le laboratoire de Mathématiques d’Angers (LAREMA) et le SIRIC-ILIAD (Site de Recherche Intégrée sur le Cancer) Nantes-Angers. L’objectif est le développement de méthodes numériques efficaces pour l’apprentissage bayésien des données inhérentes aux cancers. Outre la difficulté statistique liée au faible nombre d’individus comparé au nombre de données acquises par patient, la grande dimension impact fortement l’efficacité des méthodes numériques et nécessite le développement de nouvelles méthodes capables d’appréhender cette même dimension. Après une introduction visant à présenter les outils et résultats existant, le premier travail de cette thèse introduit un nouvel algorithme multilevel. D’abord décrite dans un cadre général, la complexité de cet algorithme est calculée plus précisément pour des diffusions de Langevin satisfaisant des hypothèses d’uni-forme convexité. En plus de décrire explicitement les dépendances en la dimension, ces résultats améliorent ceux existant dans la littérature. Dans un deuxième temps,on cherche à affaiblir l’hypothèse d’uniforme convexité afin de mieux répondre à certains objectifs statistiques. Dans ce cadre difficile, deux techniques sont étudiées.Dans la première, l’idée est d’ajouter une composante fortement convexe au potentiel faiblement convexe afin de pouvoir utiliser les résultats de la première partie. Dans la seconde partie, on se place dans un cadre intermédiaire entre l’uniforme et la faible convexité. Après avoir montré des résultats concernant les moments exponentiels ou encore la distance en temps long à la diffusion, on montre que l’algorithme multilevel s’adapte à ce cadre et permet d’approcher l’estimateur avec une complexité explicite en les paramètres. Le dernier travail consiste à illustrer l’application des méthodes précédemment évoquées aux données réelles. Ainsi, on étudie un jeu de données contenant des données génomiques de patient atteint de cancer du sein. Après une réduction de la dimension, on calcule la moyenne a posteriori associée à une régression logistique visant à prévoir la réponse aux traitements.