Thèse soutenue

Apprentissage Profond Équivariant Basé sur les Espaces d’Échelle et les Repères Mobiles

FR  |  
EN
Auteur / Autrice : Mateus Sangalli
Direction : Jesús Angulo López
Type : Thèse de doctorat
Discipline(s) : Morphologie mathématique
Date : Soutenance le 16/12/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de morphologie mathématique (Fontainebleau, Seine et Marne)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Marcos Valle
Examinateurs / Examinatrices : Jesús Angulo López, Samy Blusseau, Santiago Velasco-Forero, Nina Miolane
Rapporteurs / Rapporteuses : Tony Lindeberg, Petros Maragos

Résumé

FR  |  
EN

Dans le contexte des réseaux de neurones, l'équivariance et l'invariance par des transformations peuvent induire une meilleure généralisation à de nouvelles données si ces dernières contiennent les symétries correspondantes. En particulier, dans le champs de la vision par ordinateur, la plupart des tâches doivent tenir compte des symétries géométriques. Ainsi, par exemple, la translation d'un objet dans une tâche de segmentation ne doit pas changer la classe de l'objet.L'objectif principal de cette thèse est d'explorer et développer des réseaux de neurones qui sont équivariants par rapport à certaines transformations. Les deux principales méthodes qui ont été utilisées sont les réseaux équivariants par changement d'échelle basés sur la correlation-croisée sur le groupe des homothéties, et les réseaux équivariants par l'action d'un groupe de Lie basés sur la méthode des repères mobiles.La première méthode est basée sur la généralisation des réseaux équivariants par un semi-groupe d'échelles qui ont été proposés récemment, où les auteurs utilisent l'espace-échelle Gaussien pour transformer les images en des signaux sur un domaine des échelles et translations.La généralisation proposée dans cette thèse permet d'utiliser un espace-échelle beaucoup plus général. En particulier, les espaces-échelle morphologiques présentent un avantage quand la seule information disponible sur l'objet d'intérêt est sa géométrie.L'équivariance des opérateurs de sous-échantillonnage et sur-échantillonnage est étudiée et ceux-ci sont appliqués avec les corrélations-croisées d'échelle pour obtenir le SEU-Net, une version de U-Net équivariante par changement d'échelle qui améliore sa généralisation à des échelles non vues lors de l'entraînement.La méthode du repère mobile est une approche classique pour obtenir des invariants différentiels par l'action d'un groupe de Lie sur une variété. Dans ce travail de thèse, l'approche a été appliquée à la construction d'un réseau de neurones équivariant par rotation et par translation.Le réseau proposé a été testé sur une tâche de classification de chiffres manuscrits tournés, et en dépit des certains problèmes numériques, le réseau a obtenu de bons résultats par rapport à des réseaux équivariants par rotation de taille similaire. Puis, pour éviter les problèmes numériques, un réseau qui utilise un seul repère mobile pour calculer des invariants a été proposé et appliqué pour créer des réseaux équivariants par rotations et translations pour les volumes en 3D. Le réseau a été testé sur un ensemble de bases de données pour la classification de volumes médicaux en faible résolution, et il a obtenu une performance à l'état-d'art dans la plupart des bases de données testées.