Interprétabilité pour les systèmes multi-agents profond
Auteur / Autrice : | Yoann Poupart |
Direction : | Nicolas Maudet, Aurélie Beynier |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : LIP6 |
Mots clés
Mots clés libres
Résumé
Les systèmes multi-agents (SMA) se sont démocratisés ces dernières années notamment grâce à l'interfaçage en langage naturel rendu possible par les grands modèles de langage. Même si leur capacité à résoudre des tâches complexes est indéniable, la dynamique qui émerge de ces systèmes peut être difficile à prévoir et des garanties sont nécessaires. Le jailbreak, l'adversarialité ou la recherche de pouvoir sont des modes de défaillances préoccupantes des SMA, et l'évaluation de ces capacités reste un problème difficile. À cet égard, l'interprétabilité pourrait être l'un des meilleurs outils pour surveiller et contrôler plusieurs agents simultanément et automatiquement. En effet, les éléments internes du modèle transmettent les informations utilisées pour sa prédiction et peuvent être utilisés symboliquement pour gagner en compréhension ou en contrôle.