Estimation de poses 3D multi-personnes à partir d'images RGB - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Multi-person 3D pose estimation from RGB images

Estimation de poses 3D multi-personnes à partir d'images RGB

Résumé

3D human pose estimation from RGB monocular images is the processus allowing to locate human joints from an image or of a sequence of images. It provides rich geometric and motion information about the human body. Most existing 3D pose estimation approaches assume that the image contains only one person, fully visible. Such a scenario is not realistic. In real life conditions several people interact. They then tend to hide each other, which makes 3D pose estimation even more ambiguous and complex. The work carried out during this thesis focused on single-shot estimation. of multi-person 3D poses from RGB monocular images. We first proposed a bottom-up approach for predicting multi-person 3D poses that first predicts the 3D coordinates of all the joints present in the image and then uses a grouping process to predict full 3D skeletons. In order to be robust in cases where the people in the image are numerous and far away from the camera, we developed PandaNet, which is based on an anchor representation and integrates a process that allows ignoring anchors ambiguously associated to ground truthes and an automatic weighting of losses. Finally, PandaNet is completed with an Absolute Distance Estimation Module (ADEM). The combination of these two models, called Absolute PandaNet, allows the prediction of absolute human 3D poses expressed in the camera frame.
L’estimation de poses 3D humaines à partir d’images RGB monoculaires est le processus permettant de localiser les articulations humaines à partir d’une image ou d’une séquence d’images. Elle fournit une information géométrique et de mouvement riche sur le corps humain. La plus part des approches d’estimation de poses 3D existantes supposent que l’image ne contient qu’une personne, entièrement visible. Un tel scénario n’est pas réaliste. Dans des conditions réelles plusieurs personnes interagissent. Elles ont alors tendance à s’occulter mutuellement, ce qui rend l’estimation de poses 3D encore plus ambiguë et complexe. Les travaux réalisés durant cette thèse se sont focalisés sur l’estimation single-shot de poses 3D multi-personnes à partir d’images monoculaires RGB. Nous avons d’abord proposé une approche bottom-up de prédiction de poses 3D multi-personnes qui prédit d’abord les coordonnées 3D de toutes les articulations présentes dans l’image puis fait appel à un processus de regroupement afin de prédire des squelettes 3D complets. Afin d’être robuste aux cas où les personnes dans l’image sont nombreuses et éloignées de la caméra, nous avons développé PandaNet qui repose sur une représentation par ancres et qui intègre un processus permettant d’ignorer les ancres associées de manière ambiguë aux vérités de terrain et une pondération automatique des fonctions de pertes. Enfin, PandaNet est complété avec un Module d’Estimation de Distances Absolues, Absolute Distances Estimation Module (ADEM). L’ensemble, appelé Absolute PandaNet, permet de prédire des poses 3D humaines absolues exprimées dans le repère la caméra.
Fichier principal
Vignette du fichier
BENZINE_Abdallah_2020.pdf (94.67 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03217242 , version 1 (04-05-2021)

Identifiants

  • HAL Id : tel-03217242 , version 1

Citer

Abdallah Benzine. Estimation de poses 3D multi-personnes à partir d'images RGB. Traitement du signal et de l'image [eess.SP]. Sorbonne Université, 2020. Français. ⟨NNT : 2020SORUS103⟩. ⟨tel-03217242⟩
264 Consultations
24 Téléchargements

Partager

Gmail Facebook X LinkedIn More