Thèse soutenue

Apprentissage auto-supervisé de représentations visuelles avec des réseaux de neurones profonds

FR  |  
EN
Auteur / Autrice : Mathilde Caron
Direction : Julien Mairal
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 09/12/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....)
Jury : Président / Présidente : Cordelia Schmid
Examinateurs / Examinatrices : Diane Larlus, Alexey Dosovitskiy
Rapporteur / Rapporteuse : Andrew Zisserman, Alexei A. Efros

Résumé

FR  |  
EN

Les humains et de nombreux animaux peuvent voir le monde et le comprendre sans effort, ce qui laisse espérer que la perception visuelle pourrait être réalisée par les ordinateurs et l'intelligence artificielle. Plus important encore, les êtres vivants acquièrent une telle compréhension du monde visuel de manière autonome, sans l'intervention d'un superviseur externe leur disant explicitement quoi, où ou qui est à voir. Cela suggère que la perception visuelle peut être obtenue dans une certaine mesure sans supervision humaine explicite mais simplement en laissant les systèmes observer de grandes quantités de données visuelles.En particulier, ce manuscrit aborde le problème de l'apprentissage auto-supervisé qui consiste à entraîner des systèmes de réseaux de neurones profonds sans utiliser d'annotations humaines. En règle générale, les réseaux de neurones nécessitent de grandes quantités de données annotées, ce qui a limité leurs applications dans des domaines où l'accès à ces annotations est coûteux ou difficile. De plus, les annotations manuelles sont biaisées vers une tâche spécifique et vers les propres biais de l'annotateur, ce qui peut entraîner des signaux bruités et peu fiables. Entrainer des réseaux profonds sans annotations pourraient conduire à de meilleures représentations, plus génériques et plus robustes. Dans ce manuscrit, nous présentons différentes contributions au domaine en pleine croissance de l'apprentissage auto-supervisé de représentations visuelles.En particulier, nous commencerons par étendre une catégorie prometteuse d'approches auto-supervisées, à savoir le clustering profond, qui entraine des réseaux profonds tout en découvrant simultanément des groupes d'images visuellement cohérentes dans une base de données. Nous identifions ensuite les limites des méthodes de clustering profond telles que leur difficulté à s'adapter à de très grands ensembles de données ou le fait qu'elles sont sujettes à des solutions triviales. En conséquence, nous proposons des méthodes auto-supervisées améliorées qui surpassent leurs homologues supervisées sur plusieurs benchmarks et présentent des propriétés intéressantes. Par exemple, nos réseaux auto-supervisés ainsi obtenus contiennent des représentations génériques qui transfèrent bien vers différents ensembles de données et tâches. Ils contiennent également des informations explicites sur la segmentation sémantique d'une image. Surtout, nous évaluons également nos modèles auto-supervisés sur des données brutes en les entraînant sur des centaines de millions d'images non étiquetées sélectionnées aléatoirement sur Internet.