Thèse soutenue

Dynamiques dopaminergiques dans la prise de décision : rôle dans la variabilité et l’exploration

FR  |  
EN
Auteur / Autrice : Maxime Côme
Direction : Philippe Faure
Type : Thèse de doctorat
Discipline(s) : Neurosciences
Date : Soutenance le 02/10/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Plasticité du cerveau (Paris ; 2014-....)
Jury : Président / Présidente : Daniela Popa
Examinateurs / Examinatrices : Brice Bathellier, Paul Apicella
Rapporteur / Rapporteuse : Shauna Parkes, Arthur Leblois

Résumé

FR  |  
EN

Variabilités intra et inter-individuelles s’observent autant dans la nature que dans des expériences de prise de décision. Elles sont favorisées lorsque l’environnement ou la tâche sont complexes, dynamiques ou changeants, mais apparaissent même lorsque les animaux font face à la même situation de façon répétée. Pourtant les bases neurales de la variabilité et de l’exploration demeurent peu comprises. Le circuit dopaminergique (DA) méso-limbique (Aire Tegmentale Ventrale, Noyau Accumbens) est impliqué dans i) l’encodage de valeur, ii) la représentation de contingences en signalant des prédictions et erreurs, iii) la motivation d’actions dirigées vers un but, et iv) la mise en place de stratégies de choix adaptatives et flexibles. Ce système biaise nos choix futurs vers la répétition d’actions associées à des hautes valeurs, mais est aussi impliqué dans la modulation de paramètres de stratégie comme la balance entre exploitation et exploration. Au cours de ma thèse, j’ai questionné les dynamiques DA dans les décisions dirigées vers un but exploratoires, et comment elles affectent les variabilités intra et inter-individuelles.Pour cela, j’ai utilisé une tâche de conditionnement où des souris apprennent à produire des séquences de choix binaires pour collecter des récompenses (ICSS) en alternant des visites entre trois cibles dans une arène circulaire et suivant différentes règles de distribution. Une première règle déterministe récompense chaque cible (p=100%). Dans une autre, chaque cible est associée à une probabilité (p=100%, 50% ou 25%) que les souris peuvent apprendre, construisant et stabilisant ainsi une représentation de contingences, et appliquent ensuite une stratégie. Dans un troisième cadre, complexe, les souris sont récompensées quand elles génèrent des séquences non-répétitives (choisissant la cible qui augmente la complexité de la séquence). L’analyse du comportement locomoteur et de choix dans la tâche est couplée à des enregistrements d’activité de neurones DA de la VTA en tétrodes, et de libération de DA dans le NAc en fiber photometry.Dans une première étude, nous identifions trois archétypes stratégiques dans la tâche probabiliste, chaque animal étant décrit comme une combinaison de chaque et étant plus proche de l’un d’eux (définissant un profil). Une exposition chronique à la nicotine i) augmente l’activité DA de repos et ii) affecte ces profils différemment, les poussant globalement vers plus d’exploitation. En augmentant ou diminuant l’activité DA en ligne par optogénétique, nous récapitulons les effets de la nicotine et modulons la balance exploitation / exploration en ligne pour chaque souris. Dans une deuxième étude, des analyses comportementales et computationnelles en cadre complexe montrent que les souris augmentent progressivement la variabilité dans leurs séquences de choix, et renforcent une stratégie pseudo-aléatoire sans utiliser de mémoire de leurs choix précédents. Dans une troisième étude, nous montrons que la libération phasique de DA dans le NAc encode valeur obtenue, prédiction et erreur, d’une façon suggérant des représentations neurales différentes selon les contingences de la tâche et la règle de distribution des récompenses. En déterministe, la DA encode des pics aux récompenses, qui sont réduits par rapport à des ICSS inattendus. En complexité, la DA signale, au coup par coup, des pics (récompenses) et creux (omissions) dont l’amplitude varie selon l’historique local de résultats, suggérant un calcul en ligne de valeur attendue, mise à jour à chaque essai, mais sans effet sur le choix. En probabiliste, où les contingences peuvent être apprises, pics et creux sont modulés par la probabilité seulement après apprentissage, supportant l’idée de construction de valeur attendue pour chaque cible. De plus, les souris montrant un écart important dans ce corrélat DA de valeurs attendues en chaque cible sont aussi plus exploitantes (visitant les cibles 100% et 50% plus fréquemment).