Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

Mathieu Riand

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

FR |

EN

Auteur / Autrice :	Mathieu Riand
Direction :	Patrick Le Callet, Laurent Dollé
Type :	Thèse de doctorat
Discipline(s) :	Traitement du signal et des images
Date :	Soutenance le 23/06/2023
Etablissement(s) :	Nantes Université
Ecole(s) doctorale(s) :	École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury :	Président / Présidente : Alexandre Benoît
	Examinateurs / Examinatrices : Benoît Furet, Alice Caplier, Kevin Bailly
	Rapporteurs / Rapporteuses : Alexandre Benoît

Mots clés

FR |

EN

Mots clés contrôlés

Traitement d'images -- Techniques numériques

Robotique

Mots clés libres

Reconnaissance d’actions

Graphes de scène

Apprentissage auto-supervisé

GNN ((Graph Neural Network)

Résumé

FR |

EN

L’apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d’apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d’extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque noeud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu’il est possible d’améliorer la qualité de la reconnaissance d’actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d’apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l’attention humaine sur une partie de ces vidéos afin de la comparer à l’attention de notre GNN.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses