Apprentissage auto-supervisé de représentation et applications à l'analyse d'images et de vidéos
| Auteur / Autrice : | Julien Denize |
| Direction : | Romain Hérault |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 18/12/2023 |
| Etablissement(s) : | Normandie |
| Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
| Partenaire(s) de recherche : | Établissement co-accrédité : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....) |
| Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) | |
| Jury : | Président / Présidente : Catherine Achard |
| Examinateurs / Examinatrices : Romain Hérault, Laurent Najman, Massih-Reza Amini, Adrien Chan-Hon-Tong, Jaonary Rabarisoa, Astrid Orcesi | |
| Rapporteurs / Rapporteuses : Catherine Achard, Laurent Najman |
Résumé
Dans cette thèse, nous développons des approches d'apprentissage auto-supervisé pour l'analyse d'images et de vidéos. L'apprentissage de représentation auto-supervisé permet de pré-entraîner les réseaux neuronaux à apprendre des concepts généraux sans annotations avant de les spécialiser plus rapidement à effectuer des tâches, et avec peu d'annotations. Nous présentons trois contributions à l'apprentissage auto-supervisé de représentations d'images et de vidéos. Premièrement, nous introduisons le paradigme théorique de l'apprentissage contrastif doux et sa mise en œuvre pratique appelée Estimation Contrastive de Similarité (SCE) qui relie l'apprentissage contrastif et relationnel pour la représentation d'images. Ensuite, SCE est étendue à l'apprentissage de représentation vidéo temporelle globale. Enfin, nous proposons COMEDIAN, un pipeline pour l'apprentissage de représentation vidéo locale-temporelle pour l'architecture transformer. Ces contributions ont conduit à des résultats de pointe sur de nombreux benchmarks et ont donné lieu à de multiples contributions académiques et techniques publiées.