HUCAI : Collaboration humaine augmentée par IA - Comment assurer l'alignement de l'IA avec les objectifs, préférences et valeurs des humains ?
Auteur / Autrice : | Marceau Nahon |
Direction : | Mehdi Khamassi, Cédric Paternotte |
Type : | Projet de thèse |
Discipline(s) : | Neurosciences |
Date : | Inscription en doctorat le 01/12/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Cerveau, cognition, comportement |
Partenaire(s) de recherche : | Laboratoire : Institut des Systèmes Intelligents et de Robotique |
Equipe de recherche : Action Cognition Decision & Interaction Encorporées (ACIDE) |
Mots clés
Résumé
La problématique générale abordée dans cette thèse est celle de l'évaluation et l'amélioration par apprentissage de l'alignement entre un système d'IA et des humains en situation de collaboration. L'alignement doit se faire avec les objectifs (l'objectif du système est-il le même que celui des humains ? L'objectif de la tâche collaborative et les intentions des humains qui collaborent sont-ils bien identifiés par le système d'IA pour qu'il les aide plutôt que les entraver ?), les préférences, les valeurs (le système respecte-t-il les préférences et valeurs des humains dans le contexte de la tâche ?). L'objectif est de mettre au point une méthode permettant d'évaluer et d'améliorer cet alignement. Le travail de thèse a pour but de : - développer des modèles et métriques permettant de mesurer : - l'alignement entre les décisions prises par un système à base d'IA et les objectifs définis par les humains dans des contextes collaboratifs. - le respect des préférences et valeurs individuelles et collectives (e.g., conventions, valeurs morales) des humains impliqués dans la collaboration. - Développer des modèles à base d'apprentissage par renforcement visant à améliorer l'alignement des systèmes d'IA intégrés dans la collaboration. - Faire une analyse philosophique du problème pour vérifier que les termes employés (collaboration, alignement, valeurs humaines, etc.) sont bien définis et formalisés dans le système de manière cohérente avec les théories philosophiques. - Définir des recommandations pour l'intégration responsable et éthique de l'IA en contexte collaboratif. Le travail de thèse proposé s'ancre dans les méthodes d'alignement forward (par apprentissage pendant la tâche), par opposition à l'alignement backward, i.e., a posteriori (Ji et al., 2023, arxiv). L'approche consiste à élaborer un modèle computationnel à base d'IA ancré dans la théorie de l'apprentissage par renforcement (RL) fondé sur un modèle (Sutton et Barto, 2018) pour estimer de manière probabiliste les impacts de séquences d'actions effectuées lors de tâches collaboratives. De plus, nous adopterons les méthodes d'inverse RL (Ng & Russell, 2020) permettant d'estimer la fonction de récompense latente qui explique le mieux une séquence d'actions effectuée par un agent (ici par les humains pendant la tâche collaborative, afin de vérifier que cette fonction correspond à l'objectif prédéfini de la tâche). Enfin, nous utiliserons les extensions récentes du formalisme RL pour que les impacts des actions puissent être également évalués au regard du respect de normes, principes, conventions (Baldassarre et al. 2024 arxiv 2403.02514). Appliquées à l'inverse RL, nous évaluerons leur capacité à détecter les objectifs, préférences et valeurs sous-jacentes aux comportements des humains qui collaborent. Pour le travail philosophique de la thèse, l'approche consiste à partir des théories de la collaboration comme cas particulier de la coopération impliquant des actions conjointes orientées vers un but conjoint (e.g., Paternotte et al., 2014). Du côté de l'alignement, nous partirons des théorisations classiques des valeurs humaines (Schwartz, 1994) et comparerons les situations collaboratives aux catégorisations philosophiques entre différents types de valeurs personnelles et sociales, les dernières incluant les conventions et les normes morales (Habermas, 1984; Turiel, 1991).