Thèse soutenue

Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mathieu Riand
Direction : Patrick Le CalletLaurent Dollé
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 23/06/2023
Etablissement(s) : Nantes Université
Ecole(s) doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Alexandre Benoît
Examinateurs / Examinatrices : Benoît Furet, Alice Caplier, Kevin Bailly
Rapporteurs / Rapporteuses : Alexandre Benoît

Résumé

FR  |  
EN

L’apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d’apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d’extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque noeud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu’il est possible d’améliorer la qualité de la reconnaissance d’actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d’apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l’attention humaine sur une partie de ces vidéos afin de la comparer à l’attention de notre GNN.