Méthodes multilevel pour l’apprentissage bayésien et applications aux données biologiques

Maxime Egéa

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes multilevel pour l’apprentissage bayésien et applications aux données biologiques

FR |

EN

Auteur / Autrice :	Maxime Egéa
Direction :	Fabien Panloup
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et leurs intéractions
Date :	Soutenance le 29/03/2023
Etablissement(s) :	Angers
Ecole(s) doctorale(s) :	École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire angevin de recherche en mathématiques (Angers)
Jury :	Président / Présidente : Gilles Pagès
	Examinateurs / Examinatrices : Arnak S. Dalalyan, Gersende Fort
	Rapporteurs / Rapporteuses : Andreas Eberle, Ahmed Kebaier

Mots clés

FR |

EN

Mots clés contrôlés

Statistique médicale

Méthode d'Euler

Modèles à effets mixtes

Théorie ergodique

Langevin, Équation de

Markov, Processus de

Gibbs, Mesures de

Statistique bayésienne

Mots clés libres

Inférence bayésienne

Grande dimension

Ergodicité

Algorithme stochastique

Schéma d’Euler

Multilevel

Résumé

FR |

EN

Cette thèse est issue d’un partenariat entre le laboratoire de Mathématiques d’Angers (LAREMA) et le SIRIC-ILIAD (Site de Recherche Intégrée sur le Cancer) Nantes-Angers. L’objectif est le développement de méthodes numériques efficaces pour l’apprentissage bayésien des données inhérentes aux cancers. Outre la difficulté statistique liée au faible nombre d’individus comparé au nombre de données acquises par patient, la grande dimension impact fortement l’efficacité des méthodes numériques et nécessite le développement de nouvelles méthodes capables d’appréhender cette même dimension. Après une introduction visant à présenter les outils et résultats existant, le premier travail de cette thèse introduit un nouvel algorithme multilevel. D’abord décrite dans un cadre général, la complexité de cet algorithme est calculée plus précisément pour des diffusions de Langevin satisfaisant des hypothèses d’uni-forme convexité. En plus de décrire explicitement les dépendances en la dimension, ces résultats améliorent ceux existant dans la littérature. Dans un deuxième temps,on cherche à affaiblir l’hypothèse d’uniforme convexité afin de mieux répondre à certains objectifs statistiques. Dans ce cadre difficile, deux techniques sont étudiées.Dans la première, l’idée est d’ajouter une composante fortement convexe au potentiel faiblement convexe afin de pouvoir utiliser les résultats de la première partie. Dans la seconde partie, on se place dans un cadre intermédiaire entre l’uniforme et la faible convexité. Après avoir montré des résultats concernant les moments exponentiels ou encore la distance en temps long à la diffusion, on montre que l’algorithme multilevel s’adapte à ce cadre et permet d’approcher l’estimateur avec une complexité explicite en les paramètres. Le dernier travail consiste à illustrer l’application des méthodes précédemment évoquées aux données réelles. Ainsi, on étudie un jeu de données contenant des données génomiques de patient atteint de cancer du sein. Après une réduction de la dimension, on calcule la moyenne a posteriori associée à une régression logistique visant à prévoir la réponse aux traitements.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes multilevel pour l’apprentissage bayésien et applications aux données biologiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes multilevel pour l’apprentissage bayésien et applications aux données biologiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses