Thèse soutenue

Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

FR  |  
EN
Auteur / Autrice : Joseph Gesnouin
Direction : Fabien Moutarde
Type : Thèse de doctorat
Discipline(s) : Informatique temps réel, robotique et automatique
Date : Soutenance le 27/09/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Laboratoire : Centre de robotique (Paris)
Jury : Président / Présidente : Catherine Achard
Examinateurs / Examinatrices : Fabien Moutarde, Miguel Angel Sotelo, Bogdan Stanciulescu, Steve Pechberti
Rapporteurs / Rapporteuses : Catherine Achard, Alexandre Alahi

Résumé

FR  |  
EN

Le véhicule autonome est un défi majeur pour la mobilité de demain. Des progrès sont réalisés chaque jour pour y parvenir ; cependant, de nombreux problèmes restent à résoudre pour obtenir un résultat sûr pour les usagers de la route les plus vulnérables. L'un des principaux défis auxquels sont confrontés les véhicules autonomes est la capacité à conduire efficacement en milieu urbain. Une telle tâche nécessite la gestion des interactions entre les véhicules et les usagers vulnérables de la route afin de résoudre les ambiguïtés du trafic. Afin d'interagir avec ces usagers, les véhicules doivent être capables de comprendre leurs intentions et de prédire leurs actions à venir. Dans cette thèse, notre travail s'articule autour de la technologie d'apprentissage automatique comme moyen de comprendre et de prédire le comportement humain à partir de signaux visuels et plus particulièrement de la cinématique de pose. Notre objectif est de proposer un système d'assistance au véhicule qui soit léger, agnostique à la scène et qui puisse être facilement implémenté dans n'importe quel dispositif embarqué avec des contraintes temps réel. Premièrement, dans le domaine de la reconnaissance de gestes et d'actions, nous étudions et introduisons différentes représentations de la cinématique de pose, basées sur des modèles d'apprentissage profond afin d'exploiter efficacement leurs composantes spatiales et temporelles tout en restant dans un espace euclidien. Deuxièmement, dans le domaine de la conduite autonome, nous montrons qu'il est possible de lier la posture, l'attitude de marche et les comportements futurs des protagonistes d'une scène sans utiliser les informations contextuelles de la scène. Cela nous permet de diviser par un facteur 20 le temps d'inférence des approches existantes pour la prédiction de l'intention des piétons tout en gardant la même robustesse de prédiction. Finalement, nous évaluons la capacité de généralisation des approches de prédiction d'intention de piétons et montrons que le mode d'évaluation classique des approches pour la prédiction de traversée de piétons, n'est pas suffisante pour comparer ni conclure efficacement sur leur applicabilité lors d'un scénario réel. Nous proposons de nouveaux protocoles et de nouvelles mesures basés sur l'estimation d'incertitude afin de rendre le domaine de recherche plus durable et plus représentatif des réelles avancées à venir.