Dynamique intracérébrale de l'apprentissage par renforcement chez l'humain
Auteur / Autrice : | Maëlle Gueguen |
Direction : | Julien Bastin, Jean-Philippe Lachaux |
Type : | Thèse de doctorat |
Discipline(s) : | PCN - Sciences cognitives, psychologie et neurocognition |
Date : | Soutenance le 01/12/2017 |
Etablissement(s) : | Université Grenoble Alpes (ComUE) |
Ecole(s) doctorale(s) : | École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Institut des neurosciences de Grenoble |
Jury : | Président / Présidente : Martial Mermillod |
Examinateurs / Examinatrices : Alexandre Eusebio | |
Rapporteur / Rapporteuse : Emmanuel Procyk, Franck Vidal |
Mots clés
Résumé
Chaque jour, nous prenons des décisions impliquant de choisir les options qui nous semblent les plus avantageuses, en nous basant sur nos expériences passées. Toutefois, les mécanismes et les bases neurales de l’apprentissage par renforcement restent débattus. D’une part, certains travaux suggèrent l’existence de deux systèmes opposés impliquant des aires cérébrales corticales et sous-corticales distinctes lorsque l’on apprend par la carotte ou par le bâton. D’autres part, des études ont montré une ségrégation au sein même de ces régions cérébrales ou entre des neurones traitant l’apprentissage par récompenses et celui par évitement des punitions. Le but de cette thèse était d’étudier la dynamique cérébrale de l’apprentissage par renforcement chez l’homme. Pour ce faire, nous avons utilisé des enregistrements intracérébraux réalisés chez des patients épileptiques pharmaco-résistants pendant qu’ils réalisaient une tâche d’apprentissage probabiliste. Dans les deux premières études, nous avons d’investigué la dynamique de l’encodage des signaux de renforcement, et en particulier à celui des erreurs de prédiction des récompenses et des punitions. L’enregistrement de potentiels de champs locaux dans le cortex a mis en évidence le rôle central de l’activité à haute-fréquence gamma (50-150Hz). Les résultats suggèrent que le cortex préfrontal ventro-médian est impliqué dans l’encodage des erreurs de prédiction des récompenses alors que pour l’insula antérieure, le cortex préfrontal dorsolatéral sont impliqués dans l’encodage des erreurs de prédiction des punitions. De plus, l’activité neurale de l’insula antérieure permet de prédire la performance des patients lors de l’apprentissage. Ces résultats sont cohérents avec l’existence d’une dissociation au niveau cortical pour le traitement des renforcements appétitifs et aversifs lors de la prise de décision. La seconde étude a permis d’étudier l’implication de deux noyaux limbiques du thalamus au cours du même protocole cognitif. L’enregistrement de potentiels de champs locaux a mis en évidence le rôle des activités basse fréquence thêta dans la détection des renforcements, en particulier dans leur dimension aversive. Dans une troisième étude, nous avons testé l’influence du risque sur l’apprentissage par renforcement. Nous rapportons une aversion spécifique au risque lors de l’apprentissage par évitement des punitions ainsi qu’une diminution du temps de réaction lors de choix risqués permettant l’obtention de récompenses. Cela laisse supposer un comportement global tendant vers une aversion au risque lors de l’apprentissage par évitement des punitions et au contraire une attirance pour le risque lors de l’apprentissage par récompenses, suggérant que les mécanismes d’encodage du risque et de la valence pourraient être indépendants. L’amélioration de la compréhension des mécanismes cérébraux sous-tendant la prise de décision est importante, à la fois pour mieux comprendre les déficits motivationnels caractérisant plusieurs pathologies neuropsychiatriques, mais aussi pour mieux comprendre les biais décisionnels que nous pouvons exhiber.