De la stratification à la prédiction : apprentissage automatique multimodal par modèles à blocs latents et mélanges d'experts
Auteur / Autrice : | Kylliann De santiago |
Direction : | Christophe Ambroise, Marie Szafranski, Guillaume Andeol |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 28/01/2025 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) |
Référent : Université d'Évry Val d'Essonne | |
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....) | |
Jury : | Président / Présidente : Christine Keribin |
Examinateurs / Examinatrices : Pierre Latouche, Mohamed Nadif, Tabea Rebafka | |
Rapporteurs / Rapporteuses : Pierre Latouche, Mohamed Nadif |
Mots clés
Résumé
Cette thèse explore l'application de méthodes d'apprentissage automatique multimodales pour l'analyse de données médicales, en mettant l'accent sur la stratification des patients et la prédiction de la récupération auditive après un traumatisme sonore aigu. L'étude repose sur des données hétérogènes (audiologiques, génomiques et protéomiques) collectées à différents moments après le traumatisme. L'objectif principal est d'extraire des caractéristiques pertinentes en combinant ces données multimodales, afin de permettre une analyse plus précise du comportement individuel des patients et des tendances globales. Dans un premier temps, les problématiques de l'apprentissage multimodal et les particularités de la fusion des données sont abordées. Ensuite, un modèle de fusion tardive basé sur les modèles à blocs stochastiques est développé. Ce modèle permet de caractériser la redondance et la complémentarité de l'information disponible : (i) en regroupant les différentes sources en composantes, (ii) en maintenant une stratification globale des individus, permettant ainsi la définition de communautés. Par ailleurs, l'utilisation de l'approche bayésienne permet de mettre en œuvre une méthode de sélection de modèle. Enfin, un modèle de fusion intermédiaire est proposé, étendant le cadre des Mixture of Experts en intégrant une modélisation par modèle à blocs latents conditionnels des entrées. L'objectif est de réduire la complexité algorithmique en résumant les variables par composantes, tout en préservant l'interprétabilité et en assurant de bonnes performances de prédiction.