Reconnaissance d'actions humaines dans des vidéos, en particulier lors d'interaction avec des objets

Camille Maurice

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Reconnaissance d'actions humaines dans des vidéos, en particulier lors d'interaction avec des objets

FR |

EN

Auteur / Autrice :	Camille Maurice
Direction :	Frédéric Lerasle
Type :	Thèse de doctorat
Discipline(s) :	Robotique
Date :	Soutenance le 10/12/2020
Etablissement(s) :	Toulouse 3
Ecole(s) doctorale(s) :	École doctorale Systèmes (Toulouse ; 1999-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'Analyse et d'Architecture des Systèmes (Toulouse ; 1968-....)

Mots clés

FR |

EN

Mots clés contrôlés

Robotique

Reconnaissance gestuelle

Vision par ordinateur

Mots clés libres

Vision par ordinateur

Reconnaissance d'actions

Interactions homme objet

Résumé

FR |

EN

Dans cette thèse nous étudions la reconnaissance d'actions humaines. Typiquement, différentes actions se déroulent dans un même lieu et font intervenir divers objets. Ce problème est difficile en raison de la variété et la ressemblance de certaines actions, de l'encombrement du fond de la scène. De nombreuses approches de vision par ordinateur étudient cette problématique et leur performance est souvent dépendante du paramétrage de certains hyper-paramètres. Par exemple pour les approches d'apprentissage profond nous retrouvons l'initialisation du learning-rate, la taille des mini-lots... Partant de ce constat, nous commençons par une étude comparative des outils d'optimisation des hyper-paramètres de la littérature appliquée à une problématique de vision par ordinateur. Puis nous proposons une première approche bayésienne originale pour la reconnaissance d'actions en ligne qui repose sur des primitives de haut-niveau en 3D : l'observation du squelette humain et les objets environnants. Les nombreux paramètres à régler sont optimisés grâce à l'outil d'optimisation qui émerge de notre étude comparative. Les performances de cette première approche sont comparées à un réseau d'apprentissage profond de l'état de l'art, il en ressort une certaine complémentarité que nous proposons d'exploiter à travers un mécanisme de fusion. Enfin, suite aux récentes avancées dans les réseaux de convolutions à graphes, nous proposons une approche compacte originale et modulaire qui repose sur la construction de graphes spatio-temporels du squelette et des objets. Ces différentes approches sont évaluées et comparées, en performance brute et vis-à-vis des actions sous-représentées sur différents jeux de données publiques qui proposent des séquences d'actions de la vie quotidienne. Nos approches montrent des gains de performance intéressants eu égard à la littérature, notamment vis-à-vis des classes sous représentées dans le jeu de données.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Reconnaissance d'actions humaines dans des vidéos, en particulier lors d'interaction avec des objets

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Reconnaissance d'actions humaines dans des vidéos, en particulier lors d'interaction avec des objets

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses