Lightweight architectures for spatiotemporal action detection in real-time

Yu Liu

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Lightweight architectures for spatiotemporal action detection in real-time

FR |

EN

Auteur / Autrice :	Yu Liu
Direction :	Dominique Ginhac, Fan Yang Song
Type :	Thèse de doctorat
Discipline(s) :	Instrumentation et informatique de l'image
Date :	Soutenance le 25/05/2022
Etablissement(s) :	Bourgogne Franche-Comté
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche :	Laboratoire : Imagerie et Vision Artificielle (ImVia) (Dijon)
	Etablissement de préparation : Université de Bourgogne (1970-....)
Jury :	Président / Présidente : Catherine Achard
	Examinateurs / Examinatrices : Fabrice Mériaudeau, Fan Yang
	Rapporteurs / Rapporteuses : Olivier Sentieys, Stéphane Canu

Mots clés

FR |

EN

Mots clés contrôlés

Infographie

Réseaux neuronaux (informatique)

Intelligence artificielle

Apprentissage profond

Mots clés libres

Apprentissage profond

Détection d'actions

Intelligence artificielle

Résumé

FR |

EN

Depuis la dernière décennie, la croissance explosive de vidéos fait naître un large éventail d’applications nécessitant l’analyse et la compréhension des actions humaines. Les recherches connexes actuelles se concentrent principalement sur l’amélioration des performances de détection de reconnaissance d’actions. Cependant, certains scénarios du monde réel exigent des réponses spontanées réalisées sur des systèmes embarqués avec des ressources limitées. Les méthodes existantes sont difficilement déployables dans ce contexte, puisqu’elles utilisent des architectures lourdes comme coréseaux de neuronesnvolutifs 3D pour extraire les caractéristiques spatiotemporelles d’un vidéo ou calculent explicitement le flux optique des mouvement. Dans cette thèse, nous explorons la faisabilité de réaliser la détection spatiotemporelle d’action humaine satisfaisant simultanément plusieurs contraintes d’applications grand publique : robustesse, temps réel, bas coût, ergonomie, bonne portabilité et longue autonomie énergétique.Pour ce faire, nous proposons trois architectures de détection d'action couplant différents schémas de modélisation spatiotemporelle avec des CNN 2D compacts. La première réalise la détection au niveau d’une image statique en approximant les caractéristiques de la plupart des frames d’une séquence vidéo pour accélérer le traitement. Nous explorons ensuite un paradigme de détection multi-images pour traiter simultanément la détection temporelle et la prédiction des boîtes englobantes des actions spécifiques pour former des tubelets. Enfin, nous concevons une représentation de mouvement de type flux calculé à la volée à partir d'images vidéo brutes, et étendons l'approche de détection de tubelet à deux CNN pour extraire conjointement les caractéristiques spatiales et temporelles des actions. Les résultats expérimentaux obtenus sur des bases de données publiques montrent les améliorations progressives de nos approches en termes de précision, d’efficacité, et de vitesse de traitement.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Lightweight architectures for spatiotemporal action detection in real-time

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Lightweight architectures for spatiotemporal action detection in real-time

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses