Thèse soutenue

De l'évaluation et la généralisation des représentations visuelles

FR  |  
EN
Auteur / Autrice : Mert Bülent Sariyildiz
Direction : Karteek AlahariDiane LarlusYannis Kalantidis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/06/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
CIFRE : Naver Labs Europe
Jury : Président / Présidente : Jocelyn Chanussot
Examinateurs / Examinatrices : Cordelia Schmid, Thomas Mensink
Rapporteurs / Rapporteuses : Matthieu Cord, Yannis Avrithis

Résumé

FR  |  
EN

Un des objectifs principaux de la vision par ordinateur est de doter les machines de la capacité d’extraire des informations à partir de données visuelles, telles que les images ou les vidéos, leur permettant ainsi d’effectuer des tâches définies sur ces données. Bien que les informations à extraire de ces données dépendent fortement de la tâche à accomplir, la résolution simultanée de plusieurs tâches complexes nécessite un mécanisme capable d’extraire un ensemble complet d’informations à partir de ces données. Par conséquent, des efforts substantiels ont été consacrés au développement de modèles d’apprentissage profond capables d’encoder ces informations dans des représentations visuelles robustes.Une stratégie de premier plan dans ce contexte consiste à entrainer un modèle initial sur un ensemble de données à grande échelle, tel que la base d’images ImageNet-1K, puis à utiliser ce modèle pour la tâche à accomplir. Afin de s’assurer de la capacité du modèle à gérer une variété de tâches cibles avec un minimum d’effort, l’accent est mis dans cette phase de pré-entrainement sur l’apprentissage de représentations d’images qui généralisent entre les tâches.Cette thèse se penche sur l’apprentissage de représentations d’images transférables par des réseaux de neurones profonds, et considère trois aspects. Dans une première partie, nousnous intéressons à l’évaluation de la transférabilité des représentations sous l’angle de la généralisation à de nouveaux concepts. L’objectif est de reconnaître des concepts non rencontrés lors de la phase d’apprentissage du modèle. Pour ce faire, nous proposons ImageNet-CoG,un ‘benchmark’ comprenant des tâches cibles spécifiquement conçues pour mesurer la généralisation d’un modèle à de nouveaux concepts. Nous procédons à une évaluation minutieuse de différentes méthodes d’apprentissage de représentations visuelle sur ce benchmark. Nos résultats révèlent que les méthodes auto-supervisées sont plus résiliantes à la généralisation à de nouveaux concepts. A l’inverse, les méthodes supervisées ont tendance à davantage sur-apprendre les concepts vus pendant l’entrainement, obtenant de meilleures résultats sur ceux-ci.Partant de ce constat, dans une deuxième partie, nous combinons les atouts des apprentissages supervisé et auto-supervisé afin d’obtenir de bonnes performances à la fois sur les concepts de la tâche d’apprentissage mais aussi sur les tâches de transfert. En adaptant les méthodes supervisées afin qu’elles utilisent des techniques empruntées aux méthodes auto-supervisées récentes, nous proposons une amélioration de l’apprentissage supervisé sur ImageNet-1K. Les modèles entrainés avec cette configuration améliorée apprennent des représentations plus transférables que les méthodes auto-supervisées les plus récentes, lorsqu’ils sont évalués sur une large collection de tâches cibles de classification d’images. En améliorant encore cette configuration avec un modèle de classification basé sur des prototypes, nous obtenons des performances état de l’art sur ImageNet-1K (concepts observés pendant l’apprentissage) ainsi que sur les tâches cibles.Enfin, dans la troisième partie, inspirés par l’essor récent des modèles génératifs texte-image produisant des images réalistes de grande qualité, nous étudions si de telles images de synthèse permettent d’entraîner des modèles supervisés pouvant être utilisés à la place de modèles entraînés sur des images réelles. Pour étudier cela, nous générons des clones synthétiques d’ImageNet-1K à l’aide de l’outil Stable Diffusion, puis entrainons des modèles supervisés sur ces clones synthétiques. Lors de l’évaluation des modèles obtenus de cette façon sur des ensembles de données composés d’images réelles, nous observons que l’apprentissage de modèles à partir de données synthétiques produit des représentations plus transférables.