Apprentissage auto-supervisé utilisant des architectures à représentations jointes
Auteur / Autrice : | Adrien Bardes |
Direction : | Jean Ponce |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 30/04/2024 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Matthieu Cord |
Examinateurs / Examinatrices : Jean Ponce, Mathieu Aubry, Tinne Tuytelaars, Roberto Cipolla, Patrick Perez, Yann Lecun | |
Rapporteurs / Rapporteuses : Mathieu Aubry, Tinne Tuytelaars |
Mots clés
Résumé
Les animaux et les humains font preuve dune intelligence et de capacités avancées telles que la planification, la prise de décision, la mémorisation, le raisonnement abstrait et le bon sens, qui surpassent de loin celles des machines les plus sophistiquées à lheure actuelle. Des études développementales illustrent la rapidité avec laquelle les nourrissons apprennent les propriétés du monde physique par simple observation visuelle, en déduisant des concepts tels que les objets, les visages, le mouvement, la gravité, etc. à partir dun nombre minimal dexemples. Cela soulève une question fondamentale : quels sont les mécanismes clés qui permettent un apprentissage visuel aussi efficace et généralisable, et comment pouvons-nous recréer des processus similaires dans des systèmes artificiels ? Lobjectif de cette thèse est de proposer une première réponse à cette question en sattaquant au problème de lapprentissage auto-supervisé de représentations visuelles, inspiré par lintelligence naturelle. Nous explorons en particulier des implémentations pratiques de larchitecture prédictive à représentations jointes (JEPA) récemment proposée pour lapprentissage visuel auto-supervisé. À travers quatre chapitres détaillant de nouvelles contributions techniques, nous introduisons de nouveaux algorithmes ciblant lapprentissage non supervisé à la fois sur des images et des vidéos par prédiction dans un espace dembedding partagé. Le chapitre 3 présente VICReg, une JEPA non contrastive qui empêche explicitement leffondrement des représentations, démontrant des performances supérieures aux méthodes auto-supervisées concurrentes avec moins de complexités architecturales. Le chapitre 4 étend cette approche pour également incorporer lapprentissage de caractéristiques locales, améliorant les capacités de segmentation tout en maintenant une forte précision de classification. Le chapitre 5 explore lapprentissage conjoint du mouvement et du contenu via un cadre multi-tâches combinant lestimation de flot optique et lapprentissage de représentations, profitant à la segmentation dimages et de vidéos. Enfin, le chapitre 6 présente V-JEPA, qui apprend des représentations spatio-temporelles en entraînant un JEPA masqué sur un vaste corpus de vidéos web narrées, établissant un nouvel état de lart sur plusieurs benchmarks de compréhension temporelle tout en réduisant lécart avec les modèles axés sur les images pour les tâches statiques. Dans leur ensemble, ces contributions techniques représentent des progrès vers un apprentissage visuel robuste et généralisable sans intervention humaine, tout en soulignant les nombreuses opportunités de travaux futurs approfondissant lauto-supervision à travers les modalités, les architectures de modèles, les tâches substitut, les biais inductifs, les applications et plus encore. Les techniques proposées constituent des premières étapes vers des systèmes artificiels acquérant activement des connaissances visuelles sur le monde à linstar des animaux et des humains.