Biais d'apprentissage par renforcement dans la population générale et clinique
Auteur / Autrice : | Henri Vandendriessche |
Direction : | Stefano Palminteri |
Type : | Projet de thèse |
Discipline(s) : | Sciences cognitives |
Date : | Inscription en doctorat le Soutenance le 21/06/2024 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Cerveau, cognition, comportement (Paris ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Neurosciences Cognitives et Computationnelles |
Equipe de recherche : Human Reinforcement Learning | |
établissement opérateur d'inscription : Ecole normale supérieure | |
Jury : | Président / Présidente : Fabien Vinckier |
Examinateurs / Examinatrices : Stefano Palminteri, Camilla Nord, David Sander, Julien Bastin, Charlotte Jacquemot | |
Rapporteur / Rapporteuse : Camilla Nord, David Sander |
Mots clés
Résumé
L'apprentissage par renforcement (AR) est un terme polysémique qui varit selon les domaines. Il tire son origine de la combinaison de théories de l'apprentissage animal, comme le conditionnement ou le behaviorisme, et de la formalisation mathématique dalgorithmes de machine learning. En psychologie, l'AR est un type d'apprentissage omniprésent tout au long de la vie. Via une succession dessais et erreurs, les humains tirent des enseignements de leurs expériences passées pour améliorer leurs choix futurs afin de maximiser les récompenses et de minimiser les punitions. En neurosciences, l'AR fait référence à un réseau cérébral spécifique, le circuits cortico-basal ganglia qui est censés encoder les valeurs de AR. En machine learning, le AR fait référence à une famille de modèles et d'algorithmes qui optimisent les actions dun agent dans un environnement donné. L'interaction de ces trois domaines a permis détudier la manière dont l'homme intègre les informations et les biais systématiques qui en résultent. La modélisation de tâches dAR (problème du bandit à plusieurs bras) permet une caractérisation fine des stratégies humaines d'apprentissage. Les paramètres computationnels obtenus sont utilisés pour inférer limplémentation de tels mécanismes au niveau neuronal. Le cadre global de lAR est un outil puissant pour étudier la prise de décision chez l'homme, mais c'est aussi un excellent outil pour investiguer les différences inter groupes et/ou populations. À cet égard, la psychiatrie computationnelle vise à faire correspondre les paramètres des modèles aux dimensions psychiatriques afin d'améliorer la compréhension, la prédiction et le traitement des troubles mentaux. Le présent travail vise à comprendre pourquoi et comment la prise de décision humaine s'écarte souvent des modèles normatifs, entraînant des comportements sous-optimaux dans les populations générale et clinique. Dans une première expérience, nous avons étudié le biais de négativité chez des patients souffrant de troubles dépressifs majeurs. La population clinique a été comparée à un groupe de contrôle apparié dans une tâche d'AR. Les résultats comportementaux et computationnels ont révélé une dépendance au contexte dans la population clinique, montrant une tendance générale au biais de négativité. Nous avons ensuite cherché à valider et à étendre ces résultats dans une étude de modélisation sur une réplication en ligne du premier projet. Cette approche nous a permis une meilleure caractérisation du biais de dépendance au contexte présent dans notre tâche. Nos résultats montrent que plusieurs modèles sont capables de capturer les spécificités des performance des participants, à savoir les modèles de reference point centering et de range adaptation. Par la suite, nous avons voulu sonder l'intégration de l'information sur les résultats dans l'attention visuelle pour voir son impact sur la prise de décision à l'aide de l'oculométrie. Avec une nouvelle tâche de bandit à deux bras avec récompenses multiples, nous avons cherché à étudier comment les individus traitent plusieurs récompenses pour un seul choix. Nous avons étudié la manière dont ils apprennent malgré le processus de sélection aléatoire. Nos résultats ont montré au niveau comportemental, computationnel et oculométrique que les participants ont tendance à sur-pondérer les feedback positifs dans les situations présentant des récompenses contradictoires. Dans l'ensemble, ces études tentent de mieux comprendre et d'expliquer les mécanismes cognitifs complexes dans la prise de décision. En utilisant des tâches cognitives en laboratoire et en ligne, des modèles computationnels d'AR et l'oculométrie, ce travail représente un effort vers une compréhension mécanistique des biais de prise de décision et a donc l'ambition de contribuer au débat sur la question de la rationalité limitée humaine et son implication dans les maladies neuropsychiatriques.