Thèse en cours

Biais d'apprentissage par renforcement dans la population générale et clinique

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 21/06/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Henri Vandendriessche
Direction : Stefano Palminteri
Type : Projet de thèse
Discipline(s) : Sciences cognitives
Date : Inscription en doctorat le
Soutenance le 21/06/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Neurosciences Cognitives et Computationnelles
Equipe de recherche : Human Reinforcement Learning
établissement opérateur d'inscription : Ecole normale supérieure
Jury : Président / Présidente : Fabien Vinckier
Examinateurs / Examinatrices : Stefano Palminteri, Camilla Nord, David Sander, Julien Bastin, Charlotte Jacquemot
Rapporteur / Rapporteuse : Camilla Nord, David Sander

Résumé

FR  |  
EN

L'apprentissage par renforcement (AR) est un terme polysémique qui varit selon les domaines. Il tire son origine de la combinaison de théories de l'apprentissage animal, comme le conditionnement ou le behaviorisme, et de la formalisation mathématique d’algorithmes de machine learning. En psychologie, l'AR est un type d'apprentissage omniprésent tout au long de la vie. Via une succession d’essais et erreurs, les humains tirent des enseignements de leurs expériences passées pour améliorer leurs choix futurs afin de maximiser les récompenses et de minimiser les punitions. En neurosciences, l'AR fait référence à un réseau cérébral spécifique, le circuits cortico-basal ganglia qui est censés encoder les valeurs de AR. En machine learning, le AR fait référence à une famille de modèles et d'algorithmes qui optimisent les actions d’un agent dans un environnement donné. L'interaction de ces trois domaines a permis d’étudier la manière dont l'homme intègre les informations et les biais systématiques qui en résultent. La modélisation de tâches d’AR (problème du bandit à plusieurs bras) permet une caractérisation fine des stratégies humaines d'apprentissage. Les paramètres computationnels obtenus sont utilisés pour inférer l’implémentation de tels mécanismes au niveau neuronal. Le cadre global de l’AR est un outil puissant pour étudier la prise de décision chez l'homme, mais c'est aussi un excellent outil pour investiguer les différences inter groupes et/ou populations. À cet égard, la psychiatrie computationnelle vise à faire correspondre les paramètres des modèles aux dimensions psychiatriques afin d'améliorer la compréhension, la prédiction et le traitement des troubles mentaux. Le présent travail vise à comprendre pourquoi et comment la prise de décision humaine s'écarte souvent des modèles normatifs, entraînant des comportements sous-optimaux dans les populations générale et clinique. Dans une première expérience, nous avons étudié le biais de négativité chez des patients souffrant de troubles dépressifs majeurs. La population clinique a été comparée à un groupe de contrôle apparié dans une tâche d'AR. Les résultats comportementaux et computationnels ont révélé une dépendance au contexte dans la population clinique, montrant une tendance générale au biais de négativité. Nous avons ensuite cherché à valider et à étendre ces résultats dans une étude de modélisation sur une réplication en ligne du premier projet. Cette approche nous a permis une meilleure caractérisation du biais de dépendance au contexte présent dans notre tâche. Nos résultats montrent que plusieurs modèles sont capables de capturer les spécificités des performance des participants, à savoir les modèles de reference point centering et de range adaptation. Par la suite, nous avons voulu sonder l'intégration de l'information sur les résultats dans l'attention visuelle pour voir son impact sur la prise de décision à l'aide de l'oculométrie. Avec une nouvelle tâche de bandit à deux bras avec récompenses multiples, nous avons cherché à étudier comment les individus traitent plusieurs récompenses pour un seul choix. Nous avons étudié la manière dont ils apprennent malgré le processus de sélection aléatoire. Nos résultats ont montré au niveau comportemental, computationnel et oculométrique que les participants ont tendance à sur-pondérer les feedback positifs dans les situations présentant des récompenses contradictoires. Dans l'ensemble, ces études tentent de mieux comprendre et d'expliquer les mécanismes cognitifs complexes dans la prise de décision. En utilisant des tâches cognitives en laboratoire et en ligne, des modèles computationnels d'AR et l'oculométrie, ce travail représente un effort vers une compréhension mécanistique des biais de prise de décision et a donc l'ambition de contribuer au débat sur la question de la rationalité limitée humaine et son implication dans les maladies neuropsychiatriques.