Thèse en cours

Apprentissage auto-supervisé utilisant des architectures à représentations jointes

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 30/04/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Adrien Bardes
Direction : Jean Ponce
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 30/04/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : Jean Ponce, Mathieu Aubry, Tinne Tuytelaars, Roberto Cipolla, Patrick Perez, Yann Lecun
Rapporteurs / Rapporteuses : Mathieu Aubry, Tinne Tuytelaars

Résumé

FR  |  
EN

Les animaux et les humains font preuve d’une intelligence et de capacités avancées telles que la planification, la prise de décision, la mémorisation, le raisonnement abstrait et le bon sens, qui surpassent de loin celles des machines les plus sophistiquées à l’heure actuelle. Des études développementales illustrent la rapidité avec laquelle les nourrissons apprennent les propriétés du monde physique par simple observation visuelle, en déduisant des concepts tels que les objets, les visages, le mouvement, la gravité, etc. à partir d’un nombre minimal d’exemples. Cela soulève une question fondamentale : quels sont les mécanismes clés qui permettent un apprentissage visuel aussi efficace et généralisable, et comment pouvons-nous recréer des processus similaires dans des systèmes artificiels ? L’objectif de cette thèse est de proposer une première réponse à cette question en s’attaquant au problème de l’apprentissage auto-supervisé de représentations visuelles, inspiré par l’intelligence naturelle. Nous explorons en particulier des implémentations pratiques de l’architecture prédictive à représentations jointes (JEPA) récemment proposée pour l’apprentissage visuel auto-supervisé. À travers quatre chapitres détaillant de nouvelles contributions techniques, nous introduisons de nouveaux algorithmes ciblant l’apprentissage non supervisé à la fois sur des images et des vidéos par prédiction dans un espace d’embedding partagé. Le chapitre 3 présente VICReg, une JEPA non contrastive qui empêche explicitement l’effondrement des représentations, démontrant des performances supérieures aux méthodes auto-supervisées concurrentes avec moins de complexités architecturales. Le chapitre 4 étend cette approche pour également incorporer l’apprentissage de caractéristiques locales, améliorant les capacités de segmentation tout en maintenant une forte précision de classification. Le chapitre 5 explore l’apprentissage conjoint du mouvement et du contenu via un cadre multi-tâches combinant l’estimation de flot optique et l’apprentissage de représentations, profitant à la segmentation d’images et de vidéos. Enfin, le chapitre 6 présente V-JEPA, qui apprend des représentations spatio-temporelles en entraînant un JEPA masqué sur un vaste corpus de vidéos web narrées, établissant un nouvel état de l’art sur plusieurs benchmarks de compréhension temporelle tout en réduisant l’écart avec les modèles axés sur les images pour les tâches statiques. Dans leur ensemble, ces contributions techniques représentent des progrès vers un apprentissage visuel robuste et généralisable sans intervention humaine, tout en soulignant les nombreuses opportunités de travaux futurs approfondissant l’auto-supervision à travers les modalités, les architectures de modèles, les tâches substitut, les biais inductifs, les applications et plus encore. Les techniques proposées constituent des premières étapes vers des systèmes artificiels acquérant activement des connaissances visuelles sur le monde à l’instar des animaux et des humains.