Amélioration des modèles de détection d'objets rares au sein d'images sonar par l'utilisation de modèles génératifs
Auteur / Autrice : | Hugo Ruiz |
Direction : | Marc Chaumont |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2020 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier |
Equipe de recherche : Département Informatique |
Mots clés
Résumé
Contexte La chasse aux engins explosifs immergés est une problématique qui se pose en permanence, que ce soit en temps de paix ou en cas de crise. Outre les mines sous-marines, une menace redoutable en temps de conflits, les bombes larguées par les bombardiers de la deuxième guerre mondiale tout autour de l'Europe, constituent également des menaces qui perdurent en tout temps, car leurs matières explosives peuvent encore être actives après plusieurs décennies passées sous l'eau. Les progrès technologiques de ces dix dernières années ont vu émerger à la fois, des sonars de plus en plus performants capables d'imager les fonds marins avec une très haute résolution et des véhicules sous-marins autonomes à même de balayer rapidement de vastes étendues de fonds marins. Avec l'apparition de ces technologies, la quantité d'information est devenue de plus en plus importante, nécessitant une automatisation performante du traitement des images pour aider les opérateurs dans l'analyse des images afin de détecter et classifier les objets potentiellement dangereux dans le but d'intervenir pour les neutraliser. Sujet Depuis l'émergence des techniques d'apprentissage profond lors de la compétition ILSVR en 2012, elles n'ont cessé de se développer et de s'améliorer. Elles s'imposent désormais comme les méthodes à la pointe de l'état de l'art dans les domaines de la détection, la classification et la segmentation d'images. Ainsi différentes architectures phares comme Alexnet, GoogLeNet ou ResNet ont vu le jour. Ces architectures toujours plus gourmandes en puissance de calcul et en mémoires mettent en avant des réseaux de neurones toujours plus profonds permettant d'avoir un niveau d'abstraction particulièrement élevé. Les réseaux atteignent une profondeur si élevée que l'erreur propagée au niveau des premières couches est quasi nulle. Ce phénomène, appelé le vanishing gradient, contraint la mise en place de mécanismes (par exemple les blocs résiduels) visant à propager l'erreur malgré une taille de réseau importante. En parallèle à ces évolutions d'architectures, de nombreuses contributions, focalisées sur des mécanismes internes aux réseaux de neurones, proposent des améliorations au niveau des normalisations, des fonctions d'activations ou des structures des blocs résiduels. Dans son papier David William a réalisé une première batterie de tests sur différentes architectures de CNN mettant en avant la pertinence de ces approches pour la classification d'image SAS. Cette preuve de fonctionnement est d'autant plus intéressante que les réseaux proposés n'utilisent pas les modules des architectures modernes et ne comprennent pas adaptation spécifique à la donnée. Ce qui ouvre la voie pour de nombreuses perspectives d'améliorations. Adapter ces structures à un autre type de données peut constituer une tâche complexe. Dans le contexte de l'imagerie sonar cette transition n'est pas triviale et trois problèmes majeurs surviennent. Le premier est intimement lié à la nature des données. En effet, l'image acquise par le capteur est hautement non-linéaire avec des propriétés qui varient en fonction de la distances au capteur. Le second problème survient en raison du très haut niveau de bruit, inhérent au capteur et à l'environnement particulièrement hostile. La difficulté d'accéder à la vérité terrain d'un grand nombre d'images constitue le troisième point bloquant, dont la conséquence est une base d'entraînement de taille restreinte pouvant être biaisée par rapport à la base de test. Le sujet de thèse proposé propose des solutions aux trois problèmes cités en suivant deux axes principaux. La première amélioration sera focalisée sur le développement d'une structure permettant une meilleure considération de la donnée et de ses problèmes. La deuxième contribution permettra l'utilisation et l'amélioration du réalisme d'images simulées afin de mieux peupler la base d'entraînement et donc augmenter l'efficacité du modèle produit.