Thèse soutenue

Analyse non-supervisée en composante de données d'imageries neuronales

FR  |  
EN
Auteur / Autrice : Hugo Richard
Direction : Bertrand Thirion
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 20/12/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury : Président / Présidente : Tülay Adali
Examinateurs / Examinatrices : Moritz Grosse-Wentrup, Aapo Hyvärinen, Christian Jutten, Matthieu Kowalski
Rapporteur / Rapporteuse : Tülay Adali, Moritz Grosse-Wentrup

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse d'informatique et de mathématiques s'applique au domaine des neurosciences, et plus particulièrement aux recherches sur la modélisation de l'activité cérébrale humaine par électrophysiologie et imagerie. Dans ce champ, la tendance est actuellement d’expérimenter avec des stimuli naturels, comme le visionnage d’un film ou l’écoute d’une piste audio, et non plus avec des stimuli étroitement contrôlés mais outrageusement simples. L’analyse de ces stimuli « naturels » et de leurs effets demande toutefois de disposer d’une immense quantité d’images, par ailleurs très coûteuses. Sans outils mathématique, identifier l'activité neuronale à partir des données est quasi impossible. Toutefois, ces stimuli sont compliqués à modéliser et à analyser, car l'utilisation de méthodes fondées sur des régressions est limitée par la difficulté de modéliser les stimuli. C'est ce qui motive l'utilisation de méthodes non-supervisées qui ne font pas d'hypothèses sur ce qui déclenche les activations neuronales. Dans cette thèse, nous considérons d'abord le cas du modèle de réponse partagée (MRP), dans lequel les sujets sont supposés partager une réponse commune. Ce modèle est utile pour réduire la dimension des données, mais son entraînement est coûteux pour les données d'imagerie fonctionnelle (IRMf) dont la dimension peut être immense. Nous présentons une version bien plus rapide et beaucoup plus économe en mémoire. Mais le MRP fait des hypothèses irréalistes sur les données d'imagerie. Des hypothèses plus réalistes sont utilisées dans l'analyse en composantes indépendantes (ACI) mais cette méthode est difficile à généraliser aux jeux de données qui contiennent plusieurs sujets. Nous proposons alors une extension de l'ACI appelée ACI multi-vue, fondée sur le principe de maximum de vraisemblance et qui convient à des jeux de données multi-sujets. L’ACI multi-vue a une vraisemblance en forme fermée qui peut être maximisée efficacement. Toutefois, cette méthode suppose la même quantité de bruit pour tous les sujets. Nous présentons donc l’ACI partagée, une généralisation de l’ACI multi-vue qui s'accompagne d'un modèle de bruit plus général. Contrairement à presque tous les modèles fondés sur l'ACI, l’ACI partagée peut séparer des sources gaussiennes et non gaussiennes et propose une estimation optimale des sources communes, qui pondère chaque sujet en fonction de son niveau de bruit estimé. En pratique, l’ACI partagée et l’ACI multi-vue permettent d'obtenir, en magnéto-encéphalographie et en IRMf, une estimation plus fiable de la réponse commune que leurs concurrents. Enfin, nous utilisons l'ACI comme base pour faire de l'augmentation de données. Plus précisément, nous présentons l’ACI conditionnelle, une méthode d'augmentation de données qui exploite la grande quantité de données d'IRMf non étiquetées pour construire un modèle génératif en utilisant seulement un petit nombre de données étiquetées. L’ACI conditionnelle permet d'augmenter de façon appréciable la précision du décodage sur huit grands jeux de données d'IRMf. Nos principaux apports nous semblent consister dans l’accélération de l’entraînement du MRP ainsi que dans l’introduction de deux modèles plus réalistes pour l’analyse de l’activité cérébrale de sujets exposés à des stimuli naturels : l’ACI multi-vue et l’ACI partagée. Enfin, nos résultats sont prometteurs concernant l’utilisation de l’ACI pour faire de l’augmentation de données. Nous présentons pour finir quelques pistes qui pourraient guider des travaux ultérieurs. D’un point de vue pratique, des modifications mineures de nos méthodes pourraient permettre l’analyse des données d’imagerie obtenues sur des sujets au repos en faisant l’hypothèse d’une organisation spatiale partagée. D’un point de vue théorique, les travaux futurs pourraient se concentrer sur la compréhension de la façon dont la réduction de dimensions et l'identification de la réponse partagée peuvent être réalisées conjointement.