Thèse soutenue

Apprentissage supervisé pour la distribution de stratégies de patrouille multi-agents centralisées

FR  |  
EN
Auteur / Autrice : Mehdi Othmani-Guibourg
Direction : Amal El Fallah SeghrouchniJean-Loup Farges
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/12/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Philippe Bidaud
Examinateurs / Examinatrices : Magali Barbier, Vincent Corruble, Vanda Luengo
Rapporteurs / Rapporteuses : François Charpillet, Damien Pellier

Résumé

FR  |  
EN

Depuis presque deux décennies, la tâche de la patrouille a fait l'objet d'une attention toute particulière de la part de la communauté multi-agent. La patrouille multi-agent consiste à modéliser comme un système multi-agent une tâche de patrouille à optimiser. Cette optimisation revient à répartir dans l'espace et le temps les agents patrouilleurs sur la zone à surveiller, cela le plus efficacement possible; un tel problème constitue par là même un problème de décision. Un large éventail d'algorithmes basés sur des stratégies d’agent réactives, cognitives, d’apprentissage par renforcement, centralisées et décentralisées, entre autres, ont été développés pour rendre les stratégies de patrouille toujours plus performantes. Cependant, les approches existantes basées sur de l'apprentissage supervisé avaient peu été étudiées jusqu’à présent, bien que quelques travaux aient abordé cette question. L’idée principale et sous-jacente à l'apprentissage supervisé, qui n’est rien de plus qu’un ensemble de méthodes et d'outils permettant d’inférer de nouvelles connaissances, est d’apprendre une fonction associant à tout élément en entrée un élément en sortie, à partir d'un ensemble de données composé de paires d'éléments entrées-sorties; l'apprentissage, dans ce cas, permet au système de faire de la généralisation à de nouvelles données jamais observées auparavant. Jusqu'à présent, la meilleure stratégie de patrouille multi-agent en ligne, à savoir sans calcul préalable, s'est avérée être une stratégie centralisée à coordinateur. Cependant, comme pour tout processus de décision centralisé généralement, une telle stratégie est difficilement échelonnable. L'objectif de ce travail est alors de développer et de mettre en œuvre une nouvelle méthodologie visant à transformer toute stratégie centralisée performante en stratégie distribuée, c'est-à-dire par nature résiliente, plus adaptative aux changements de l'environnement et échelonnable. Ce faisant, le processus de décision centralisé, généralement représenté par un coordinateur dans la patrouille multi-agent, est distribué sur les agents patrouilleurs au moyen de méthodes d’apprentissage supervisé, de sorte que les agents de la stratégie distribuée résultante tendent chacun à capturer ou cristalliser une partie de l’algorithme exécuté par le processus de décision centralisé. Le résultat est alors un nouveau algorithme de prise de décision distribué, qui repose sur de l’apprentissage automatique. Dans cette thèse, une telle procédure de distribution de stratégie centralisée est établie, puis concrètement mise en œuvre en utilisant certaines architectures de réseaux de neurones. Ainsi, après avoir exposé le contexte et les motivations, nous posons la problématique étudiée. Les principales stratégies multi-agent élaborées jusqu'à présent dans le cadre de la patrouille multi-agent sont ensuite décrites, en particulier une stratégie centralisée à haute performance qui est la stratégie centralisée à distribuer ici étudiée, ainsi qu’une stratégie décentralisée assez simple qui est utilisée comme référence pour les stratégies décentralisées. Entre autres, quelques stratégies basées sur de l’apprentissage supervisé sont aussi décrites. Ensuite, le modèle ainsi que certains concept fondamentaux du problème de la patrouille multi-agent sont définis.