Thèse soutenue

Modélisation de la prise de décision humaine dans le cas général d'environnements attribuant des récompenses non-binaires, par un algorithme ordinal d'inférence Bayésienne

FR  |  
EN
Auteur / Autrice : Gabriel Sulem
Direction : Étienne Koechlin
Type : Thèse de doctorat
Discipline(s) : Neurosciences Cognitives
Date : Soutenance le 14/09/2017
Etablissement(s) : Paris 6
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire de neurosciences cognitives & computationnelles (Paris)
Jury : Président / Présidente : Mathias Pessiglione
Rapporteurs / Rapporteuses : Peter Dayan, Pierre-Yves Oudeyer

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Notre travail porte sur l'adaptation du comportement humain dans un environnement où les récompenses obtenues sont distribuées sur une échelle continue. Les travaux précédents se sont principalement intéressés aux cas de récompenses binaires (de type gagné/perdu) et ont montré qu'un algorithme d'apprentissage Bayésien pouvait rendre compte du comportement. Les algorithmes Bayésiens ne marchent pas dans un environnement continu à moins d'utiliser un modèle génératif (une série d'axiomes permettant de cadrer l'interprétation des observations). A l'inverse les algorithmes de renforcement s'y comportent bien car ils peuvent efficacement s'ajuster aux moyennes de distributions de récompense. Que fait donc l'humain ? Un modèle génératif usuel considère que les distributions de récompense associées à chaque action sont Gaussiennes. Un petit nombre d'observations permet de les caractériser en inférant leur moyenne et écart type. Nous proposons un modèle plus général postulant l'existence d'un classement stable de la valeur des différentes actions, ce qui permet d'imaginer la récompense fictive qui aurait été attribuée par les actions non choisies. Pour séparer ces deux modèles ainsi que le renforcement, nous avons construit 3 expériences comportementales dans lesquelles les distributions de récompenses sont bimodales et continues. Notre modèle rend compte du comportement des sujets à l’inverse du modèle Gaussien ou du renforcement. Notre modèle répond à des contraintes évolutionnistes car il s’adapte rapidement dans un grand nombre de contextes, y compris ceux ou les axiomes du modèle génératif ne sont pas respectés, pour déterminer à chaque fois quelles récompenses sont désirables.