Ondelettes Complexes pour des Réseaux de Neurones Convolutifs Invariants par Translation
Auteur / Autrice : | Hubert Leterme |
Direction : | Valérie Perrier, Karteek Alahari, Kévin Polisano |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et informatique |
Date : | Soutenance le 14/06/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble) |
Jury : | Président / Présidente : Massih-Reza Amini |
Examinateurs / Examinatrices : Joan Bruna, Gabriel Peyré | |
Rapporteurs / Rapporteuses : Nelly Pustelnik, François Malgouyres |
Mots clés
Résumé
Malgré des progrès spectaculaires en vision par ordinateur au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) souffrent toujours d'un faible niveau de compréhension mathématique. En particulier, les propriétés de stabilité vis-à-vis de petites transformations (translations, rotations, mises à l'échelle, déformations) ne sont que partiellement comprises. Bien qu'il existe une vaste littérature sur ce sujet, certaines lacunes subsistent, notamment concernant l'effet combiné des couches de convolution et de max pooling dans la génération de représentations quasi-invariantes. Cette propriété est primordiale pour la classification, puisqu'il est attendu que deux versions translatées d'une même image soient classifiées de manière identique.Les convolutions sous-échantillonnées avec des filtres passe-bande sont connues pour produire des représentations instables lorsque les images en entrée sont translatées de quelques pixels. La première contribution de cette thèse consiste à prouver qu'un opérateur non linéaire de max pooling est susceptible de partiellement restaurer l'invariance par translation. En appliquant des résultats issus de la théorie des ondelettes, et en adoptant un point de vue probabiliste, nous révélons une similitude entre le max pooling de convolutions à valeurs réelles, tel qu'implémenté dans les architectures conventionnelles, et le module de convolutions à valeurs complexes, pour lequel une mesure d'invariance par translation est établie.Cependant, pour certaines fréquences de filtre, une telle similitude ne se vérifie pas et les CNN deviennent instables face aux petites translations. Ce phénomène, connu sous le nom d'aliasing, peut être évité en appliquant des filtres passe-bas supplémentaires à des endroits stratégiques du réseau, comme plusieurs auteurs l'ont proposé au cours des dernières années. Ces méthodes, bien qu'elles améliorent sensiblement l'invariance par translation et la qualité des prédictions, impliquent une perte importante d'informations de haute fréquence. Comme seconde contribution, nous présentons une nouvelle méthode d'antialiasing qui, contrairement aux précédentes, préserve cette information. En s'appuyant sur notre étude théorique, l'idée clé est d'exploiter les propriétés des convolutions complexes pour garantir une quasi-invariance par translation quelle que soit la fréquence du filtre. En ajoutant une partie imaginaire aux filtres de haute fréquence et en remplaçant l'opérateur de max pooling par un simple module, nous mettons empiriquement en évidence une augmentation de la stabilité du réseau et un taux d'erreur plus faible par rapport aux approches précédentes basées sur des filtres passe-bas.En conclusion, l'objectif de cette thèse est double: améliorer la compréhension mathématique des CNN en termes d'invariance par translation, et améliorer le compromis entre stabilité et préservation de l'information, sur la base de notre contribution théorique fondée sur la théorie des ondelettes. Ces travaux ont donc le potentiel d'impacter positivement diverses applications de la vision par ordinateur, en particulier dans les domaines nécessitant des garanties théoriques.