La dynamique de transport des réseaux de neurones : un principe de moindre action pour l'apprentissage en profondeur
Auteur / Autrice : | Ahmed Skander Karkar |
Direction : | Patrick Gallinari, Alain Rakotomamonjy |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 13/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Président / Présidente : David Picard |
Examinateurs / Examinatrices : Alasdair Newson | |
Rapporteurs / Rapporteuses : Laetitia Chapel, Ievgen Redko |
Mots clés
Résumé
Le point de vue dynamique des réseaux résiduels les considère comme étant analogues à un schéma d'Euler pour une équation différentielle ordinaire. Nous pouvons donc dire que les réseaux résiduels transportent les points d'entrée dans l'espace, le temps étant représenté par la profondeur du réseau. Ce point de vue a par exemple conduit à de nouvelles architectures inspirées d'autres schémas numériques pour les équations différentielles. D'autre part, un biais des réseaux résiduels en faveur de petites perturbations de l'entrée a été observé. Dans le contexte de la vue dynamique des réseaux résiduels mentionnée ci-dessus, ce biais signifie un penchant pour un faible coût de transport. Dans un premier article, nous vérifions expérimentalement que ce biais est bénéfique et devrait être encouragé, et nous montrons que contraindre le réseau à approximer une carte de transport optimale en régularisant son coût de transport améliore sa capacité de généralisation. Dans un deuxième article, nous montrons que l'application de cette régularisation de transport à des modules neuronaux successifs sans rétropropagation entre eux revient à suivre un flux de gradient pour minimiser la perte dans l'espace des distributions, améliorant ainsi les performances de l'entraînement par module. Dans un troisième article, nous proposons un détecteur d'attaques adverses basé sur la vue des réseaux résiduels en tant que systèmes dynamiques discrets, et montrons que la régularisation du transport facilite la détection des attaques adverses.