Thèse soutenue

Stratégies de combinaison de contenus pour la classification d’images

FR  |  
EN
Auteur / Autrice : Rémy Sun
Direction : Matthieu CordNicolas Thome
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/10/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Catherine Achard
Examinateurs / Examinatrices : Hervé Jégou, Élisa Fromont
Rapporteurs / Rapporteuses : Frédéric Precioso, Céline Hudelot

Résumé

FR  |  
EN

Dans cette thèse, nous nous attaquons au problème de la classification d'images, un problème fondamental pour la vision par ordinateur et le raisonnement visuel en général. Nous nous intéressons aux différentes façons d'augmenter artificiellement la taille du jeu de données. Plus précisément, nous mettons cette technique à profit pour apprendre au algorithmes neuronaux à réconcilier l'information mixée à partir de différents exemples par le biais des augmentation de données mixantes afin de mieux comprendre le problème sous-jacent. Nous proposons d'abord un nouveau type d'augmentation qui aide le modèle à généraliser en incrustant le contenu sémantique d'un exemples dans le contexte non-sémantique d'un autre pour générer des exemples mixtes appartenant à une unique classe. Pour ce faire, nous proposons de nouvelles architectures permettant de générer de tels exemples, et entrainons de meilleures classificateurs dans un contexte semi-supervisé. Dans un second temps, nous montrons que le mixage d'image peut être utilisé comme un schéma de compression d'entrées permettant d'entraîner de multiples sous-réseaux au sein d'un réseau de base. En effet, en formalisant la méthode séminal ``multi-input multi-output'' (MIMO) comme un schéma d'augmentation de données par mixage d'images. Finalement, nous adaptons ces derniers modèles MIMO aux récents modèles Vision Transformer. Nos travaux montrent que ces nouvelles architectures présentent leurs propres uniques incompatibilités avec l'entraînement MIMO, mais qu'elles y sont aussi extrêmement adaptées à d'autres égards.