Efficacité des méthodes locales pour la classification d'images et la regression d'énergie en physique
Auteur / Autrice : | Louis Thiry |
Direction : | Stéphane Mallat |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 09/07/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
Jury : | Président / Présidente : Gabriel Stoltz |
Examinateurs / Examinatrices : Mihai-Cosmin Marinica, Pierre Monmarché | |
Rapporteur / Rapporteuse : Matthew B. Blaschko, Tony Lelièvre |
Mots clés
Mots clés contrôlés
Résumé
Les réseaux de neurones profonds ont permis récemment d'importants progrès dans les problèmes d’apprentissage en grande dimension, notamment en classification d'images et en régression d'énergie en physique. Ces deux problèmes sont de nature multi-échelle. En effet, l'énergie des molécules et des solides résulte d'interactions à différentes échelles, avec par exemple les liaisons ioniques et covalentes à petite échelle, les interactions de Van-der-Waals aux échelles moyennes et les interactions de Coulomb à grande échelle. De même, on peut classifier une image en utilisant des informations de texture à petite échelle, des informations de motif à moyenne échelle ou des informations de forme à l'échelle de l’objet. De plus, il existe une analogie naturelle entre les techniques de classification d'images dites locales, basées sur des petits patch d'image, et les techniques de régression énergétique dites locales, basées sur la description de petits voisinages atomiques dans les molécules ou les solides. Dans ce manuscrit, nous étudions l'efficacité des méthodes locales pour la classification d'images et la régression d'énergie en physique. On observe que les méthodes locales sont étonnamment performantes pour ces deux problèmes, et ce malgré la nature multi-échelle de ces problèmes.Tout d'abord, nous étudions comparativement des techniques multi-échelles et locales pour la régression d'énergie de molécules et solides. Nous constatons que les méthodes locales sont très performantes, même pour les solides avec des composantes énergétiques à longue portée.Nous présentons une nouvelle méthode pour la régression d'entropie vibrationnelle dans les solides. Là encore, nous observons qu'une méthode utilisant des descripteurs locaux donne de bien meilleurs résultats que la stratégie multi-échelle étudiée. Pour la classification d'images, nous présentons un réseau de neurones convolutif structuré basé sur l'encodage de patch. Cette architecture donne des performances comparables à des réseaux convolutifs standards sur la base de données ImageNet. Enfin nous présentons un classificateur d'images basé sur des calculs de K-plus-proches-voisins de patch d’images, et dont les performances surprenantes suggèrent une forme de basse dimension des patch d’images. Nous terminons cette dissertation par une ouverture sur les dispositifs interactifs humain-machine pour la création artistique.