Thèse en cours

Apprentissage continu pour l'acquisition en ligne de capacités d'interprétation sémantique d'un système perceptif

FR  |  
EN
Auteur / Autrice : Myriam Marchesseau
Direction : Stéphane Herbin
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : ONERA - Département Traitement de l'information et systèmes
Référent : CentraleSupélec

Résumé

FR  |  
EN

On s'intéresse dans cette thèse à la conception de systèmes perceptifs visuels ayant la capacité d'interagir avec leur environnement pour acquérir de l'information ou des données et réaliser des tâches d'interprétation, c'est-à-dire produire une description textuelle pertinente et utile de la scène observée. De telles tâches peuvent être utilisées typiquement pendant une exploration de l'environnement par un robot à la recherche d'un objet ou d'une direction de déplacement sans obstacle et potentiellement aidé par un agent distant avec lequel échanger des informations ou des connaissances. Pour construire un tel système perceptif on se propose de développer une approche par apprentissage automatique incrémental [1]–[5] pour acquérir progressivement de nouvelles capacités sémantiques ou étendre le domaine d'utilisation. La difficulté d'une telle approche est d'intégrer au système ces nouvelles compétences sans oublier celles qui avaient été acquises précédemment [6]. Les systèmes perceptifs que l'on envisage interagissent avec leur environnement, soit pour acquérir de nouvelles données perceptives, soit pour demander à un agent externe des informations ou des précisions sur le contenu utile de la scène observée: ils combinent potentiellement exploration active et prise d'information sémantique pour s'adapter à un nouveau contexte, ou apprendre de nouvelles capacités d'interprétation. L'un des objectifs de la thèse sera de réaliser cette adaptation par un apprentissage incrémental en ligne [7]–[10] en pilotant activement les sources de données [11]–[13] ou d'information (« active learning » [14]–[19], apprentissage en monde ouvert [20]–[24] ). Les stratégies de contrôles de sources de données et d'information pourront être réalisées par des approches d'apprentissage par renforcement [25], [26]. Une évolution récente des techniques d'intelligence artificielle est le développement de modèles neuronaux multi-modaux généralistes tels que CLIP [27]–[29] qui permettent d'associer vision et langage dans un espace de représentation commun pour y produire des inférences d'interprétation sémantique. Cette gamme de modèles possède des capacités de généralisation et d'association remarquables mais des domaines de compétence et d'utilisation mal cernés : ils demandent une étape d'adaptation pour être utilisés dans un contexte applicatif plus spécialisé [30]. Les modèles multi-modaux ont également la capacité d'introduire un contexte sous la forme de « prompt » [31]–[33] conditionnant globalement les traitements pour les adapter à différentes situations. Un autre objectif de la thèse sera d'utiliser ces modèles multi-modaux pour les systèmes perceptifs. Les approches seront principalement développées et validées à partir d'environnements de simulation récents produisant des données réalistes pour diverses conditions d'acquisition contrôlables [34]–[37]. En résumé, l'ambition de la thèse est de concevoir une démarche d'apprentissage incrémental permettant à un système perceptif de piloter activement les sources de données et d'information utiles pour acquérir de nouvelles capacité d'interprétation en exploitant des modèles neuronaux multi-modaux.