Thèse soutenue

Apprentissage statistique et adaptation de domaine pour l'amélioration de la mesure de la santé cérébrale à partir de signaux MEG et EEG

FR  |  
EN
Auteur / Autrice : Apolline Mellot
Direction : Alexandre GramfortSylvain Chevallier
Type : Thèse de doctorat
Discipline(s) : Sciences du traitement du signal et des images
Date : Soutenance le 08/11/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Equipe de recherche : TAckling the Underspecified (TAU) - Modèles et inférence pour les données de Neuroimagerie (MIND)
Jury : Président / Présidente : Valérie Ego-Stengel
Examinateurs / Examinatrices : Mario Châvez, Michaël Tangermann, Mark Woolrich
Rapporteurs / Rapporteuses : Mario Châvez, Michaël Tangermann

Résumé

FR  |  
EN

Les études en neurosciences rencontrent des défis dans la collecte de grandes bases de données, limitant ainsi l'utilisation de l'apprentissage statistique. L'intégration de données publiques peut être une solution, mais les données recueillies dans différents contextes présentent souvent des différences systématiques, appelées décalages de données (dataset shifts). Ces décalages, causés par des variations dans les sites d'enregistrement, le dispositif d'enregistrement ou les protocoles expérimentaux, compliquent l'application des méthodes d'apprentissage, qui exigent généralement des données d'entraînement et de test similaires. Cette thèse examine ces décalages dans les données M/EEG pour en comprendre les causes, leurs effets sur les modèles d'apprentissage, et propose des solutions adaptées au type de décalage pour améliorer la généralisation des modèles prédictifs. Dans un premier temps, nous avons analysé les décalages survenant dans les enregistrements M/EEG en lien avec l'activité cérébrale, l'anatomie ou la configuration des capteurs. Pour harmoniser la distribution des données, nous avons utilisé une approche riemannienne d'alignement des données et l'avons adaptée à la régression non supervisée. Pour évaluer l'efficacité de l'alignement, nous avons réalisé des expériences sur des données simulées et réelles. Nous avons montré que la performance des modèles d'apprentissage peut être affectée par ces décalages et qu'elle peut être améliorée en alignant les distributions de données. Dans la deuxième partie, nous nous sommes concentrés sur les décalages survenant à la fois dans les données M/EEG et la distribution de la variable à prédire y. Cette situation est courante dans les études cliniques où les données sont recueillies dans différents sites et auprès de différentes populations. Dans ce contexte, l'alignement proposé précédemment n'est pas suffisant pour traiter les décalages. Nous avons proposé une nouvelle méthode pour aborder l'adaptation de domaine dans des situations où les domaines sources ont des distributions de y distinctes. Cette méthode exploite la structure géométrique de la variété riemannienne pour apprendre conjointement un opérateur de recentrage spécifique au domaine et le modèle de régression. Nous avons réalisé des comparaisons empiriques sur la généralisation inter-sites des modèles de prédiction de l'âge avec des données EEG provenant d'un grand ensemble de données multinationales. L'approche proposée a significativement amélioré la généralisation des modèles à travers les sites par rapport aux méthodes de référence. Finalement, nous avons abordé le problème des différents dispositifs d'enregistrement EEG. Le nombre et les positions variables des capteurs rendent difficile la comparaison des données provenant de différents dispositifs, et rendent même impossible l'utilisation directe des méthodes d'apprentissage. Pour remédier à cela, nous avons proposé une approche non supervisée exploitant la physique des signaux EEG : nous avons interpolé les canaux EEG de diverses configurations sur des positions fixes avec l'interpolation basée sur la physique de la propagation électromagnétique. Une évaluation comparative avec d'autres méthodes a été effectuée sur six bases de données publiques pour la classification d'imagerie motrice main droite/gauche. L'interpolation s'est montrée similaire ou meilleure que les autres méthodes. Les contributions de cette thèse visent à améliorer la généralisation des modèles d'apprentissage appliqués aux données M/EEG sous différents aspects et situations. Le but était de mieux comprendre les décalages de données M/EEG et de proposer des approches pour atténuer leurs effets dans des scénarios réalistes.