Estimation 3D de la posture humaine en environnement de travail à l'aide de réseaux de neurones profonds
Auteur / Autrice : | Yue Zhu |
Direction : | David Picard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 19/04/2024 |
Etablissement(s) : | Marne-la-vallée, ENPC |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) |
Jury : | Président / Présidente : Hedi Tabia |
Examinateurs / Examinatrices : David Picard, Nicolas Thome, Catherine Achard, Hilde Kuehne | |
Rapporteurs / Rapporteuses : Nicolas Thome, Catherine Achard |
Mots clés
Résumé
Les objectifs de la thèse sont de développer des méthodes et des cadres d'analyse de la posture humaine 3D en environnement de travail pour l'ergonomie. L’ergonomie est une discipline qui consiste à comprendre le fonctionnement du corps lorsqu'il travaille pour l’objectif de préserver la santé des opérateurs tout en permettant l’atteinte de la qualité attendue. Les postures des opérateurs au poste de travail sont un des facteurs d'apparition des maladies professionnelles, et la caractérisation d’une posture est une étape du pré-diagnostic d’une situation de travail. Les méthodes d’intelligence artificielle autour de l’estimation 3D de la pose humaine pour détecter les postures inadaptées au travail peuvent ainsi aider l’ergonome à établir son diagnostic sur un grand nombre de données. Cette thèse propose trois travaux autour de l'estimation de pose humaine 3D pour s'attaquer aux difficultés de mise en œuvre en environnement non contraint tels que les postes de travail.La première contribution propose un algorithme synthétique de génération de poses humaines en 3D. Nous abordons le problème de l'écart de domaine selon lequel les scénarios de travail a plus de variété d'actions et d'environnement que les données de recherche publique. Ce travail présente un algorithme qui permet de générer des squelettes humains 3D synthétiques pendant l'entraînement de réseau des neurons, suivant une distribution de type arbre de Markov qui évolue au fil du temps pour créer des nouvelles postures. Ce travail propose également un processus d'entraînement multi-vues sans échelle basé sur des données purement synthétiques générées à partir de quelques postures initiales. Nous évaluons notre approche sur les deux ensembles de données de référence et obtenons des résultats prometteurs dans une configuration sans aucune donnée réelle. Le deuxième travail propose un cadre de création d'annotations 3D du corps entier à partir d'images multi-vues ainsi qu'un benchmark construit sur la base de ce cadre. Les données couramment utilisées ne comportent normalement qu'une vingtaine d'articulations, ce qui n'est pas suffisant pour qu'un ergonome puisse mesurer certains aspects comme les angles de supination-pronation, c'est pourquoi nous proposons un squelette du corps entier compte 133 articulations, capables de contenir les informations nécessaires. Le cadre de création d'annotations contient 3 étapes allant de la reconstruction géométrique 3D multi-vues à la complétion des squelettes incomplets, et enfin au raffinement main/visage par diffusion. Avec ce cadre, nous introduisons 3 ensembles de données en tant qu'extensions des ensembles de données Human3.6M, CMU-Panoptic et MPI-INF-3DHP existants avec des annotations de points clés 2D et 3D du corps entier pour le corps, le visage et les mains. Un benchmark de trois tâches est proposé sur la base de l'extension du corps entier de Human3.6M.Le troisième travail propose un algorithme qui permet une prédiction continue des poses humaines à travers le temps avec des images d'entrée très limitées pour aborder des séquences vidéo potentiellement corrompues dans un environnement sans contrainte où les travailleurs ne sont pas toujours observés ou même à l'écran en raison de leurs mouvements. Ce travail propose une nouvelle approche qui modélise le mouvement humain comme une fonction continue mise en œuvre par un réseau neuronal, semblable à des représentations neuronales implicites. Nous effectuons une comparaison complète de cette approche avec des méthodes de prédiction de mouvement de pointe sur trois ensembles de données populaires, démontrant des améliorations significatives par rapport aux lignes de base dans la plupart des cas. Enfin, nous avons réalisé un démonstrateur qui effectue une estimation de la pose humaine en 2D et 3D, ainsi qu'une détection des poses critiques pour une analyse ergonomique, capable d'analyse rapide même sur un ordinateur équipé uniquement d'un CPU.