Biais d'apprentissage par renforcement dans la population générale et clinique

Henri Vandendriessche

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Biais d'apprentissage par renforcement dans la population générale et clinique

FR |

EN

Accès à la thèse

La soutenance a eu lieu le 21/06/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.

Auteur / Autrice :	Henri Vandendriessche
Direction :	Stefano Palminteri
Type :	Projet de thèse
Discipline(s) :	Sciences cognitives
Date :	Inscription en doctorat le Soutenance le 21/06/2024
Etablissement(s) :	Université Paris sciences et lettres
Ecole(s) doctorale(s) :	École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de neurosciences cognitives & computationnelles (Paris)
	Equipe de recherche : Human Reinforcement Learning
	établissement opérateur d'inscription : Ecole normale supérieure
Jury :	Président / Présidente : Fabien Vinckier
	Examinateurs / Examinatrices : Stefano Palminteri, Camilla Nord, David Sander, Julien Bastin, Charlotte Jacquemot
	Rapporteurs / Rapporteuses : Camilla Nord, David Sander

Mots clés

FR |

EN

Mots clés libres

Apprentissage par renforcement

Récompense

Punition

Marqueurs comportementaux

Biais

Modélisation computationalle

Résumé

FR |

EN

L'apprentissage par renforcement (AR) est un terme polysémique qui varit selon les domaines. Il tire son origine de la combinaison de théories de l'apprentissage animal, comme le conditionnement ou le behaviorisme, et de la formalisation mathématique dalgorithmes de machine learning. En psychologie, l'AR est un type d'apprentissage omniprésent tout au long de la vie. Via une succession dessais et erreurs, les humains tirent des enseignements de leurs expériences passées pour améliorer leurs choix futurs afin de maximiser les récompenses et de minimiser les punitions. En neurosciences, l'AR fait référence à un réseau cérébral spécifique, le circuits cortico-basal ganglia qui est censés encoder les valeurs de AR. En machine learning, le AR fait référence à une famille de modèles et d'algorithmes qui optimisent les actions dun agent dans un environnement donné. L'interaction de ces trois domaines a permis détudier la manière dont l'homme intègre les informations et les biais systématiques qui en résultent. La modélisation de tâches dAR (problème du bandit à plusieurs bras) permet une caractérisation fine des stratégies humaines d'apprentissage. Les paramètres computationnels obtenus sont utilisés pour inférer limplémentation de tels mécanismes au niveau neuronal. Le cadre global de lAR est un outil puissant pour étudier la prise de décision chez l'homme, mais c'est aussi un excellent outil pour investiguer les différences inter groupes et/ou populations. À cet égard, la psychiatrie computationnelle vise à faire correspondre les paramètres des modèles aux dimensions psychiatriques afin d'améliorer la compréhension, la prédiction et le traitement des troubles mentaux. Le présent travail vise à comprendre pourquoi et comment la prise de décision humaine s'écarte souvent des modèles normatifs, entraînant des comportements sous-optimaux dans les populations générale et clinique. Dans une première expérience, nous avons étudié le biais de négativité chez des patients souffrant de troubles dépressifs majeurs. La population clinique a été comparée à un groupe de contrôle apparié dans une tâche d'AR. Les résultats comportementaux et computationnels ont révélé une dépendance au contexte dans la population clinique, montrant une tendance générale au biais de négativité. Nous avons ensuite cherché à valider et à étendre ces résultats dans une étude de modélisation sur une réplication en ligne du premier projet. Cette approche nous a permis une meilleure caractérisation du biais de dépendance au contexte présent dans notre tâche. Nos résultats montrent que plusieurs modèles sont capables de capturer les spécificités des performance des participants, à savoir les modèles de reference point centering et de range adaptation. Par la suite, nous avons voulu sonder l'intégration de l'information sur les résultats dans l'attention visuelle pour voir son impact sur la prise de décision à l'aide de l'oculométrie. Avec une nouvelle tâche de bandit à deux bras avec récompenses multiples, nous avons cherché à étudier comment les individus traitent plusieurs récompenses pour un seul choix. Nous avons étudié la manière dont ils apprennent malgré le processus de sélection aléatoire. Nos résultats ont montré au niveau comportemental, computationnel et oculométrique que les participants ont tendance à sur-pondérer les feedback positifs dans les situations présentant des récompenses contradictoires. Dans l'ensemble, ces études tentent de mieux comprendre et d'expliquer les mécanismes cognitifs complexes dans la prise de décision. En utilisant des tâches cognitives en laboratoire et en ligne, des modèles computationnels d'AR et l'oculométrie, ce travail représente un effort vers une compréhension mécanistique des biais de prise de décision et a donc l'ambition de contribuer au débat sur la question de la rationalité limitée humaine et son implication dans les maladies neuropsychiatriques.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Biais d'apprentissage par renforcement dans la population générale et clinique

Accès à la thèse

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Biais d'apprentissage par renforcement dans la population générale et clinique

Accès à la thèse

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses