Apprentissage génératif efficace en matière d'annotation pour les tâches d'étiquetage visuel dense
Auteur / Autrice : | Tariq Berrada ifriqi |
Direction : | Karteek Alahari, Jakob Verbeek |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques et Informatique |
Date : | Inscription en doctorat le 01/02/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann |
Equipe de recherche : LEAR : Learning and Recognition in Vision |
Mots clés
Résumé
Les problèmes de reconnaissance visuelle sont formulés à différents niveaux de granularité. De la classification d'images à la localisation d'objets, en passant par la segmentation sémantique et la segmentation d'instances. Parmi les exemples de tâches d'étiquetage dense, on peut citer la segmentation d'images ou de vidéos, la prédiction de la profondeur et la détection de changements, entre autres. Ces tâches nécessitent des prédictions pour chaque pixel de l'image d'entrée. Ces tâches sont intrinsèquement plus complexes que la classification d'images, où nous attribuons une seule étiquette à l'image entière. Pour toutes ces tâches, les performances sont dans une large mesure limitées par la quantité de données d'apprentissage étiquetées disponibles. L'acquisition de données d'entraînement pour les tâches de prédiction à forte densité spatiale est cependant beaucoup plus coûteuse et fastidieuse que l'obtention de données d'entraînement pour les tâches de classification, en raison de leur nature spatialement détaillée, et il est difficile d'extrapoler à partir de quantités limitées d'annotations d'entraînement. Cela s'ajoute aux difficultés habituelles auxquelles sont confrontés les modèles de prédiction dense, comme la tentative de prédire des distributions fortement déséquilibrées, le traitement des occlusions et le fait de ne pas toujours avoir la possibilité de relier les entrées et les cibles d'une manière directe et différentiable. Par conséquent, de telles tâches nécessitent des représentations spatialement détaillées qui diffèrent fondamentalement de celles requises pour les problèmes de classification standard. Pour compenser le manque de données étiquetées, nous considérerons des paramètres d'apprentissage semi-supervisé qui combinent une quantité limitée de données d'entraînement étiquetées avec une grande quantité de données d'entraînement non étiquetées. Nous explorerons plusieurs directions prometteuses : des modèles d'image génératifs pour apprendre des représentations sémantiquement significatives, des stratégies d'apprentissage auto-supervisé spécialisées pour mieux exploiter l'apparence locale. De plus, nous considérerons également une approche faiblement supervisée, par exemple en utilisant des étiquettes au niveau de l'image, des étiquettes au niveau de la boîte, ou des vidéos étiquetées de manière éparse dans le temps.