Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles : Application au tennis de table.

Pierre-Etienne Martin

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles : Application au tennis de table.

FR |

EN

Auteur / Autrice :	Pierre-Etienne Martin
Direction :	Jenny Benois Pineau, Renaud Péteri
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/12/2020
Etablissement(s) :	Bordeaux
Ecole(s) doctorale(s) :	École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire bordelais de recherche en informatique - Laboratoire Mathématiques, Image et Applications (La Rochelle)
Jury :	Président / Présidente : Pascal Desbarats
	Examinateurs / Examinatrices : Jenny Benois Pineau, Renaud Péteri, Petia Radeva, Klaus Schöffmann, Nicolas Thome, Martha Larson
	Rapporteurs / Rapporteuses : Petia Radeva, Klaus Schöffmann, Nicolas Thome

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Apprentissage profond

Traitement d'images -- Techniques numériques

Vision par ordinateur

Mots clés libres

Classification d'actions

Indexation vidéo

Convolutions Spatio-Temporelles

Apprentissage profond

Vision par ordinateur

Tennis de table

Flot optique

Résumé

FR |

EN

La reconnaissance des actions à partir de vidéos est l'un des principaux problèmes de vision par ordinateur. Malgré des recherches intensives, la différenciation et la reconnaissance d'actions similaires restent un défi. Cette thèse porte sur la classification des gestes sportifs à partir de vidéos, avec comme cadre applicatif le tennis de table.Nous proposons une méthode d’apprentissage profond pour segmenter et classifier automatiquement les différents coup de Tennis de Table. Notre objectif est de concevoir un système intelligent permettant d'analyser les performances des élèves pongistes, et de donner la possibilité à l’entraîneur d'adapter ses séances d'entraînement pour améliorer leurs performances.Dans ce but, nous avons élaboré la base de données “TTStroke-21”, constituée de clips vidéo d'exercices de tennis de table, enregistrés par les étudiants de la faculté de sport de l'Université de Bordeaux – STAPS. Cette base de données a ensuite été annotée par des professionnels du domaine à l'aide d'une plateforme crowdsourcing. Les annotations consistent en une description des coups effectués (début, fin et type de coup). Au total, 20 différents coups de tennis de table sont considérés plus une classe de rejet.La reconnaissance des actions similaires présente des différences avec la reconnaissance d’actions classique. En effet, dans les bases de données classiques, le contexte de l’arrière plan fournit souvent des informations discriminantes que les méthodes peuvent utiliser pour classer l'action plutôt que de se concentrer sur l'action elle-même. Dans notre cas, la similarité entre classes est élevée, les caractéristiques visuelles discriminantes sont donc plus difficiles à extraire et le mouvement joue un rôle clef dans la caractérisation de l’action.Dans cette thèse, nous introduisons un réseau de neurones spatio-temporel convolutif avec une architecture Jumelle. Ce réseau d'apprentissage profond prend comme entrées une séquence d'images RVB et son flot optique estimé. Les données RVB permettent à notre modèle de capturer les caractéristiques d'apparence tandis que le flot optique capture les caractéristiques de mouvement. Ces deux flux sont traités en parallèle à l'aide de convolutions 3D, et sont fusionnés à la dernière étape du réseau. Les caractéristiques spatio-temporelles extraites dans le réseau permettent une classification efficace des clips vidéo de TTStroke-21. Notre méthode obtient une performance de classification de 93.2% sur l'ensemble des données tests. Appliquée à la tâche jointe de détection et de classification, notre méthode atteint une précision de 82.6%.Nous étudions les performances en fonction des types de données utilisés en entrée et la manière de les fusionner. Différents estimateurs de flot optique ainsi que leur normalisation sont testés afin d’améliorer la précision. Les caractéristiques de chaque branche de notre architecture sont également analysées afin de comprendre le chemin de décision de notre modèle. Enfin, nous introduisons un mécanisme d'attention pour aider le modèle à se concentrer sur des caractéristiques discriminantes et aussi pour accélérer le processus d’entraînement. Nous comparons notre modèle avec d'autres méthodes sur TTStroke-21 et le testons sur d'autres ensembles de données. Nous constatons que les modèles fonctionnant bien sur des bases de données d’actions classiques ne fonctionnent pas toujours aussi bien sur notre base de données d'actions similaires.Les travaux présentés dans cette thèse ont été validés par des publications dans une revue internationale, cinq papiers de conférences internationales, deux papiers d’un workshop international et une tâche reconductible dans le workshop MediaEval où les participants peuvent appliquer leurs méthodes de reconnaissance d'actions à notre base de données TTStroke-21. Deux autres papiers de workshop internationaux sont en cours de préparation, ainsi qu'un chapitre de livre.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles : Application au tennis de table.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles : Application au tennis de table.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses