Statistical learning on heterogeneous medical data with bayesian latent variable models : application to neuroimaging dementia studies - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Statistical learning on heterogeneous medical data with bayesian latent variable models : application to neuroimaging dementia studies

Apprentissage statistique sur des données médicales hétérogènes avec des modèles Bayésiens à variables latentes : application aux études de neuroimagerie pour les maladies neurodégénératives

Résumé

This thesis presents new computational tools for the joint modeling of multi-modal biomedical data,robust to missing data, with application to neuroimaging studies in dementia. The theoretical base for this work is the Variational Autoencoder (VAE), a latent variable generative model well suited for working with complex data as it forces them into a simpler low-dimensional space, able to model data non-linearities. The core of this Thesis consists in the Multi-Channel Variational Autoencoder (MCVAE), an extension of the VAE to jointly model latent relationships across multi-modal observations. This is achieved by: 1) constraining the latent distribution of each data modality to a common target prior, 2) forcing these latent distribution to generate all the data modalities through their associated generative functions. Moreover, we adapt the MCVAE to a Multi-Task setting, where the problem of dealing with missing data is addressed with a specific optimization scheme following these steps: 1) defining tasks across datasets based on the identification of data subsets presenting compatible modalities, 2) stacking multiple instances of the MCVAE, where each instance models a specific task, 3) sharing the models parameters of common modalities between modeling tasks.Thanks to these actions, the Multi-Task MCVAE allows to learn a joint model for all the data points leveraging on all the available information. Overall, this thesis provides a novel investigation of flexible approaches to account for data heterogeneity in the analysis of biomedical information.This work enables new research directions in which medical information can be consistently modeled within a joint probabilistic framework accounting for multiple data modalities, missing information, and biases across different datasets. Lastly, thanks to their general formulation, the methodologies here proposed can find applications beyond the neuroimaging research field.
Cette thèse présente de nouveaux outils informatiques pour la modélisation conjointe de données biomédicales multimodales, robustes aux données manquantes, avec une application aux études de neuro-imagerie dans les maladies neurodégénératives. La base théorique de notre travail est l'auto-encodeur variationnel (VAE), un modèle de variables latentes bien adapté pour travailler avec des données complexes car il les projette dans un espace plus simple et de faible dimension, capable de modéliser les non-linéarités des données. Le cœur de cette thèse consiste en l'autoencodeur variationnel multicanal (MCVAE), une extension du VAE pour modéliser conjointement les relations latentes entre les observations multimodales. Ceci est réalisé 1) en contraignant la distribution latente de chaque modalité de données à une distribution a priori commune, 2) en forçant chaque distribution latente à générer toutes les modalités de données à travers leurs fonctions génératives associées. De plus, nous adaptons le MCVAE à un contexte multi-tâches, où le problème du traitement des données manquantes est traité avec un schéma d'optimisation spécifique qui suit les étapes suivantes : 1) définition des tâches à travers les ensembles de données basée sur l'identification des sous-ensemble présentant des modalités compatibles, 2) empilement de plusieurs instances du MCVAE, où chaque instance modélise une tâche spécifique, 3) partage des paramètres communes entre les tâches de modélisation. Grâce à ces actions, le MCVAE multi-tâches permet d'apprendre un modèle conjoint pour tous les points de données en s'appuyant sur toutes les informations disponibles. Dans son ensemble, cette thèse fournit un nouvel ensemble d’approches flexibles pour tenir compte de l'hétérogénéité des données dans l'analyse des informations biomédicales. Ce travail permet de nouvelles directions de recherche dans lesquelles l'information médicale peut être modélisée de manière cohérente dans un cadre probabiliste conjoint tenant compte des canaux de données multiples, des informations manquantes et des biais dans différents ensembles de données. Enfin, grâce à leur formulation générale, les méthodologies proposées ici peuvent trouver des applications au-delà du domaine de la recherche en neuro-imagerie.
Fichier principal
Vignette du fichier
2021COAZ4050.pdf (21.21 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03474169 , version 1 (18-07-2021)
tel-03474169 , version 2 (10-12-2021)

Identifiants

  • HAL Id : tel-03474169 , version 2

Citer

Luigi Antelmi. Statistical learning on heterogeneous medical data with bayesian latent variable models : application to neuroimaging dementia studies. Statistics [math.ST]. Université Côte d'Azur, 2021. English. ⟨NNT : 2021COAZ4050⟩. ⟨tel-03474169v2⟩
275 Consultations
68 Téléchargements

Partager

Gmail Facebook X LinkedIn More