Deep learning et neurosciences : une alliance faite au paradis ?
Auteur / Autrice : | Bhavin yogesh Choksi |
Direction : | Leila Reddy, Rufin VanRullen |
Type : | Thèse de doctorat |
Discipline(s) : | Neurosciences |
Date : | Soutenance le 20/10/2022 |
Etablissement(s) : | Toulouse 3 |
Ecole(s) doctorale(s) : | École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche Cerveau et Cognition (Toulouse ; 1993-....) |
Jury : | Président / Présidente : Laurent Perrinet |
Examinateurs / Examinatrices : Gemma Roig | |
Rapporteurs / Rapporteuses : Umut Güçlü |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Deep Learning, en tant que domaine, a essayé de construire des réseaux capables d'effectuer des tâches intelligentes que seuls les humains pouvaient auparavant effectuer. Ce faisant, l'objectif fixé est ambitieux puisqu'il s'agit de créer une machine consciente, communément appelée intelligence artificielle (IA). Jusqu'à présent, le Deep Learning est efficace pour une série de tâches telles que la classification, le sous-titrage, la traduction, etc. Mais il reste encore beaucoup plus à souhaiter de ces réseaux. Leur sensibilité à de très petites perturbations dans les inputs --- appelées perturbations adversaires --- a déconcerté le domaine depuis près d'une décennie. De même, la capacité de généralisation des réseaux à d'autres tâches et catégories est une limite activement étudiée. En parallèle, les neurosciences ont cherché à comprendre le réseau le plus complexe que nous connaissions : le cerveau humain. Dans cette quête, les neurosciences se sont souvent appuyées sur l'utilisation de modèles de substitution, mathématiques ou biologiques, plus faciles à expérimenter et à comprendre. Mais jusqu'ici, les neurosciences manquaient d'un modèle apte à poser des questions allant au-delà des cytoarchitectures neuronales et des synapses ; en particulier ceux concernant la structure des représentations abstraites dans le cerveau. Enquêter sur une question comme - Comment un humain apprend ou même représente un concept tel que la mort et le relie à la peur et à la tristesse ?} est resté difficile même en utilisant d'autres primates tels que le singe macaque. Ce travail de thèse soutient que ces deux domaines- le Deep Learning et les neurosciences- qui ont historiquement toujours été pertinents l'un pour l'autre, peuvent même maintenant s'entraider. Pour illustrer cela, cette thèse propose d'abord d'utiliser les dynamiques récurrentes, un concept issu des neurosciences, au profit des modèles de machine learning. En particulier, le predictive coding, une théorie neuro-computationnelle populaire, est implémentée dans des deep neural networks. Il démontre que les réseaux récurrents résultants sont plus robustes à divers types de bruit, naturels et adversaires, par rapport à leurs homologues à anticipation. Il est important de noter que cette robustesse est obtenue grâce à la capacité de la dynamique de predictive coding à aider les réseaux à projeter les représentations bruitées vers leurs versions propres qui sont apprises pendant l'entraînement - une propriété appelée ''projection vers la courbe'' . Deuxièmement, en sens inverse, nous utilisons les réseaux de neurones au profit des neurosciences. Tout d'abord, nous comparons divers réseaux formés avec différents objectifs --- uni ou multimodalité, robustesse ou tailles d'ensembles de données --- dans leur capacité à expliquer l'activité cérébrale mesurée à l'aide de l'imagerie par résonance magnétique fonctionnelle, ou IRMf. La thèse rapporte ensuite l'étrange capacité des réseaux multimodaux, c'est-à-dire des réseaux entraînés avec des ensembles de données couvrant diverses modalités, à expliquer l'activité de l'hippocampe --- une région connue pour posséder des concept cells invariantes de modalité. Plus tard, nous utilisons une approche indépendante de la région consistant à examiner systématiquement de plus petites portions de voxels dans le cerveau. En utilisant une telle approche basée sur un ''searchlight'', nous rapportons que par rapport à d'autres modèles, les réseaux multimodaux expliquaient mieux l'activité IRMf dans tout le cortex visuel, tout en expliquant également les régions entourant le sillon temporal supérieur. Ainsi, dans l'ensemble, dans cette ambition globale de combler le fossé entre les deux domaines, une aspiration également nourrie par une communauté émergente de l'équipe NeuroAI, cette thèse tente de fournir des raisons supplémentaires pour lesquelles les deux domaines pourraient être un couple complémentaire parfait.