Thèse en cours

Méthodes à base de réseaux de neurones pour les problèmes inverses: algorithmes et garanties

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 12/11/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Nathan Buskulic
Direction : Mohamed Jalal Fadili
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 19/09/2021
Soutenance le 12/11/2024
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École Doctorale Mathématiques, Information, Ingénierie des Systèmes
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image et instrumentation de Caen
Établissement co-accrédité : Université de Caen Normandie (1971-....)
Jury : Examinateurs / Examinatrices : Carola-bibiane Schonlieb, Emilie Chouzenoux, Mohamed Jalal Fadili, Jean-francois Aujol, Silvia Villa, Julie Delon, Yvain Queau
Rapporteurs / Rapporteuses : Jean-francois Aujol, Julie Delon

Résumé

FR  |  
EN

Ce manuscrit est dédié à l'analyse des réseaux de neurones lorsqu'ils sont entraînés de manière non-supervisée pour résoudre des problèmes inverses. Ces méthodes sont devenues très populaires et développées empiriquement ces dernières années, avec des résultats qualitatifs impressionnants, mais leur compréhension théorique reste encore limitée, en particulier leurs garanties de reconstruction. Dans cette thèse, nous nous attelons à ce problème. A cette fin, la clé de voûte sera d'exploiter la régularisation implicite induite par la dynamique de la méthode d'optimisation. Ainsi, nous étudions les trajectoires des paramètres de ces réseaux de neurones lorsqu'ils sont entraînés avec différentes méthodes d'optimisation, et nous montrons comment cela amène diverses garanties liées aux problèmes inverses. Nous commençons par étudier l'optimisation par flot de gradient et son équivalent discret la descente de gradient, pour des fonctions de coûts suffisamment régulières et qui vérifient l'inégalité de Kurdyka-\L{}ojasiewicz. Nous montrons que sous une condition d'initialisation non-dégénérée, le réseau va converger vers une solution de risque empirique nul à un taux qui dépend explicitement de la fonction désingularisante de la fonction coût. Nous donnons aussi une borne d'arrêt anticipé qui empêche le sur-apprentissage du bruit. Nous montrons ensuite que sous une condition d'injectivité restreinte, une borne de reconstruction de l'objet original (e.g. signal/image, etc.) peut être obtenue. Dans un second temps, nous étendons les résultats précédents lorsque le réseau de neurones est optimisé avec un risque quadratique en utilisant une dynamique inertielle combinant un amortissement visqueux et un amortissement géométrique guidé par le Hessien. Nous démontrons que des vitesses de convergence accélérées et des garanties de reconstruction peuvent être obtenues avec un choix judicieux des paramètres de la dynamique inertielle mais au prix d'une condition d'initialisation plus subtile. Un algorithme inertiel est proposé par discrétisation de la dynamique continue en temps est ses garanties sont établies. Pour toutes ces méthodes d'optimisation, nous exhibons l'architecture nécessaire avec notamment une borne de sur-paramétrisation qui assure qu'un réseau deep inverse prior à deux couches va pouvoir bénéficier de toutes ces garanties avec grande probabilité. Nous vérifions numériquement tous nos résultats sur plusieurs instances, et décrivons des applications, notamment en shape-from-shading multivues.