Thèse en cours

Reconnaissande d'action dans les vidéos de sport amateur

FR  |  
EN
Auteur / Autrice : Saad Allah El jazouli
Direction : Jean-François Aujol
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées et calcul scientifique
Date : Inscription en doctorat le 17/11/2024
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique
Partenaire(s) de recherche : Laboratoire : IMB - Institut de Mathématiques de Bordeaux
Equipe de recherche : Image Optimisation et Probabilités

Résumé

FR  |  
EN

Problématique générale : L'objectif principal de cette thèse est de développer des méthodes de reconnaissance d'actions adaptées aux différents sports de la plateforme et application Rematch. Cette problématique englobe la localisation spatiale, temporelle ainsi que la classification des actions dans les vidéos. De manière plus générale, on cherchera à améliorer les pipelines de traitement et d'analyse des vidéos de la plateforme. La thèse s'effectuera en partenariat entre la société Rematch (www.rematch.tv) et l'Institut de Mathématiques de Bordeaux (IMB). Contexte de l'application : Rematch est une application qui permet à ses utilisateurs de filmer des actions de sports amateurs via leur téléphone et de les mettre en ligne instantanément afin qu'elles puissent être visionnées par tout le monde. Cette application est destinée à être utilisée par des personnes sans connaissance spécifique du logiciel : il s'agit typiquement de personnes qui vont passer une après-midi au bord d'un terrain et qui n'ont pas forcément le matériel adéquat ou de réelle aptitude à la capture de vidéos. Par exemple, il est possible de filmer avec des téléphones munis de caméras médiocres. Par conséquent, les vidéos qui composeront cette étude présentent de grandes variations (de qualité, de prise de vue, d'environnement...) qui devront être prises en compte afin de concevoir des méthodes adaptées et robustes à ces conditions. Les vidéos considérées sont de basses résolutions (typiquement 720p) et d'une durée d'au plus une quinzaine de secondes. De par tous ces éléments, il est très fréquent que les vidéos de la plateforme présentent des caractéristiques qui mettent en échec les méthodes de la littérature. Le but de cette thèse est donc de concevoir des méthodes permettant de répondre aux problématiques complexes de la reconnaissance d'action dans les vidéos sportives (occlusions, mouvements rapides et difficiles à prédire...), tout en étant robustes aux conditions amenées par les vidéos non-triées de la plateforme. Développements actuels : Une précédente thèse CIFRE réalisée par Axel Baldenza et encadrée par Jean-Francois Aujol a eu lieu entre Rematch et l'IMB de 2020 à 2023. Le sujet portait sur la localisation temporelle et le suivi d'actions dans les vidéos de sport amateur [1]. Les travaux précédents ont permis de mettre en avant l'intérêt scientifique de développer des méthodes robustes aux conditions des vidéos de sport amateur. Notamment, cette thèse a donné lieu à deux publications dont une dans une conférence internationale [2, 3]. De plus, un stage de fin d'études est actuellement en cours avec l'étudiant sur le problème de localisation spatiale de l'action basé sur la conception d'un détecteur de petits objets mobiles. Dans la première partie du stage, des réseaux de neurones à la pointe de l'état de l'art ont été ré-entrainés et testés sur les données. Dans un second temps, une architecture originale de détecteur a été conçue et entraînée pour améliorer les performances dans nos conditions. Ces travaux serviront de point de départ pour pouvoir répondre aux différentes problématiques de la reconnaissance d'action. Le traitement de vidéos en 2024 passe par l'utilisation de méthodes d'apprentissage profond basées sur des réseaux de neurones [9, 4, 7, 8, 10, 12, 14]. Ces approches constituent en effet maintenant l'état de l'art. Néanmoins, comme expliqué plus haut, dans le contexte de l'application visée par Rematch, se pose la question de développer des approches robustes. En effet, les vidéos étudiées sont de qualités très variables (contexte, résolution, précision, . . .), et cette très grande variabilité constitue un véritable obstacle pour les méthodes d'apprentissage profond. Un aspect essentiel de ce travail de thèse consistera à dépasser ce verrou, et à proposer des approches robustes à toutes ces variabilités.