Thèse en cours

Modèles d'apprentissage profond à partir de représentations structurelles d'images

FR  |  
EN
Auteur / Autrice : Julien Walther
Direction : Rémi GiraudMichael Clement
Type : Projet de thèse
Discipline(s) : Automatique, Productique, Signal et Image, Ingénierie cognitique
Date : Inscription en doctorat le 01/10/2024
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale des sciences physiques et de l'ingénieur
Partenaire(s) de recherche : Laboratoire : Laboratoire de l'Intégration du Matériau au Système
Equipe de recherche : MOTIVE

Résumé

FR  |  
EN

Contexte scientifique Les méthodes de l'état de l'art en apprentissage automatique reposent généralement sur des procédures d'entraînement de grands réseaux de neurones et bases de données annotées. Les modèles résultant sont souvent volumineux et complexes, et peuvent être difficiles à évaluer ou interpréter. En particulier, les réseaux populaires en vision par ordinateur utilisent pour beaucoup les blocs de convolution, qui sont des opérations à l'échelle pixellique appliquées sur des grilles régulières. Ces architectures présentent encore certaines limitations, notamment sur la taille des images qui doit souvent être limitée lors de la phase d'apprentissage, pour des contraintes de temps de calcul et de représentation mémoire. Dans ce contexte, il existe un vrai challenge pour intégrer des représentations structurelles ou symboliques de données afin de synthétiser efficacement l'information et aussi permettre de guider le processus d'apprentissage Une première piste de recherche consiste à utiliser une sous-représentation de l'image type segmentation en superpixels [1], réduisant le nombre d'éléments à traiter tout en respectant la structure et les contours des objets de l'image. Cependant, l'absence de structure régulière (forme/taille/voisinage) pose problème pour les utiliser dans un réseau de neurones convolutionnel. Des premiers travaux ont été initiés dans [3] pour considérer une seg- mentation hiérarchique en superpixels et dans [4] sur la définition d'opérateurs de convolution et de blocs d'attention adaptés aux superpixels. Dans cette thèse, nous proposons d'approfondir et de consolider ces travaux pour différentes applications d'analyse et de traitement d'images. Une deuxième piste de recherche vise à intégrer des connaissances sémantiques sur les re- lations spatiales entre objets dans les réseaux de neurones. En effet, la structure spatiale des objets dans une image constitue une information pertinente à exploiter pour interpréter leur contenu [2]. Objectifs de la thèse L'objectif principal de cette thèse est donc de réussir à lever les verrous méthodologiques qui empêchent à l'heure actuelle l'utilisation explicite et naturelle de représentations structurelles d'images au sein des modèles d'apprentissage profond. Le travail de recherche sera articulé autour des deux axes méthodologiques mentionnés ci-avant : 1. Conception de nouvelles architectures de réseaux de neurones permettant d'intégrer des représentations structurelles (graphes, hiérarchies de régions) ; 2. Intégration aux modèles de l'information de relations spatiales entre les structures afin de guider l'apprentissage sémantiquement. Cette thèse pourra se dérouler suivant plusieurs étapes et objectifs intermédiaires : — Réalisation d'un état de l'art complet sur les représentations structurelles en appren- tissage profond : méthodes de segmentation hiérarchiques, de description des relations spatiales, réseaux de neurones sur graphes, modèles génératifs avec espaces latents, etc. ; — Conception et prototypage de nouvelles méthodes intégrant directement des représenta- tions structurelles dans des architectures de réseaux de neurones ; — Validations expérimentales de ces méthodes sur différents contextes applicatifs : clas- sification et segmentation d'images, colorisation d'images avec interaction utilisateur, super-résolution, etc. ; Selon les résultats obtenus, et les motivations du doctorant ou de la doctorante, d'autres applications reposant sur les contributions théoriques proposées pourront être considérées (gé- nération d'images, segmentation de séquences d'images, etc.) Des collaborations avec des partenaires académiques (Bordeaux Sciences Agro, Université Paris Cité, University of the Basque Country, University of Valencia) et industriels (Thales Mérignac) travaillant sur les mêmes thématiques pourront aussi être envisagées.