Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé
Auteur / Autrice : | Mathieu Riand |
Direction : | Patrick Le Callet, Laurent Dollé |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du signal et des images |
Date : | Soutenance le 23/06/2023 |
Etablissement(s) : | Nantes Université |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des Sciences du Numérique de Nantes |
Jury : | Président / Présidente : Alexandre Benoît |
Examinateurs / Examinatrices : Benoît Furet, Alice Caplier, Kevin Bailly | |
Rapporteurs / Rapporteuses : Alexandre Benoît |
Mots clés
Résumé
L’apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d’apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d’extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque noeud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu’il est possible d’améliorer la qualité de la reconnaissance d’actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d’apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l’attention humaine sur une partie de ces vidéos afin de la comparer à l’attention de notre GNN.