Estimation de poses 3D multi-personnes à partir d'images RGB
Auteur / Autrice : | Abdallah Benzine |
Direction : | Catherine Achard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 03/12/2020 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris (2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'intégration des systèmes et des technologies (Gif-sur-Yvette, Essonne ; 2001-....) |
Jury : | Président / Présidente : Michel Crucianu |
Examinateurs / Examinatrices : Quoc Cuong Pham, Bertrand Luvison, Hichem Sahbi, David Picard | |
Rapporteurs / Rapporteuses : Jean-Marc Odobez, Stéphane Canu |
Mots clés
Mots clés contrôlés
Résumé
L’estimation de poses 3D humaines à partir d’images RGB monoculaires est le processus permettant de localiser les articulations humaines à partir d’une image ou d’une séquence d’images. Elle fournit une information géométrique et de mouvement riche sur le corps humain. La plus part des approches d’estimation de poses 3D existantes supposent que l’image ne contient qu’une personne, entièrement visible. Un tel scénario n’est pas réaliste. Dans des conditions réelles plusieurs personnes interagissent. Elles ont alors tendance à s’occulter mutuellement, ce qui rend l’estimation de poses 3D encore plus ambiguë et complexe. Les travaux réalisés durant cette thèse se sont focalisés sur l’estimation single-shot de poses 3D multi-personnes à partir d’images monoculaires RGB. Nous avons d’abord proposé une approche bottom-up de prédiction de poses 3D multi-personnes qui prédit d’abord les coordonnées 3D de toutes les articulations présentes dans l’image puis fait appel à un processus de regroupement afin de prédire des squelettes 3D complets. Afin d’être robuste aux cas où les personnes dans l’image sont nombreuses et éloignées de la caméra, nous avons développé PandaNet qui repose sur une représentation par ancres et qui intègre un processus permettant d’ignorer les ancres associées de manière ambiguë aux vérités de terrain et une pondération automatique des fonctions de pertes. Enfin, PandaNet est complété avec un Module d’Estimation de Distances Absolues, Absolute Distances Estimation Module (ADEM). L’ensemble, appelé Absolute PandaNet, permet de prédire des poses 3D humaines absolues exprimées dans le repère la caméra.