Thèse soutenue

Reconnaissance des gestes humains basée sur la vision pour l’interaction homme-robot
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Osama Mazhar
Direction : Andrea CherubiniSofiane Ramdani
Type : Thèse de doctorat
Discipline(s) : SYAM - Systèmes Automatiques et Micro-Électroniques
Date : Soutenance le 24/10/2019
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes (Montpellier ; 2015)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Christine Azevedo
Examinateurs / Examinatrices : Andrea Cherubini, Sofiane Ramdani, Christine Azevedo, Frédéric Bouchara, Antonis A. Argyros, Atilla Baskurt
Rapporteurs / Rapporteuses : Frédéric Bouchara, Antonis A. Argyros

Résumé

FR  |  
EN

Dans la perspective des usines du futur, pour garantir une interaction productive, sure et efficace entre l’homme et le robot, il est impératif que le robot puisse interpréter l’information fournie par le collaborateur humain. Pour traiter cette problématique nous avons exploré des solutions basées sur l’apprentissage profond et avons développé un framework pour la détection de gestes humains. Le framework proposé permet une détection robuste des gestes statiques de la main et des gestes dynamiques de la partie supérieure du corps.Pour la détection des gestes statiques de la main, openpose est associé à la caméra Kinect V2 afin d’obtenir un pseudo-squelette humain en 3D. Avec la participation de 10 volontaires, nous avons constitué une base de données d’images, opensign, qui comprend les images RGB et de profondeur de la Kinect V2 correspondant à 10 gestes alphanumériques statiques de la main, issus de l’American Sign Language. Un réseau de neurones convolutifs de type « Inception V3 » est adapté et entrainé à détecter des gestes statiques de la main en temps réel.Ce framework de détection des gestes est ensuite étendu pour permettre la reconnaissance des gestes dynamiques. Nous avons proposé une stratégie de détection de gestes dynamiques basée sur un mécanisme d’attention spatiale. Celle-ci utilise un réseau profond de type « Convolutional Neural Network - Long Short-Term Memory » pour l’extraction des dépendances spatio-temporelles dans des séquences vidéo pur RGB. Les blocs de construction du réseau de neurones convolutifs sont pré-entrainés sur notre base de données opensign de gestes statiques de la main, ce qui permet une extraction efficace des caractéristiques de la main. Un module d’attention spatiale exploite la posture 2D de la partie supérieure du corps pour estimer, d’une part, la distance entre la personne et le capteur pour la normalisation de l’échelle et d’autre part, les paramètres des cadres délimitant les mains du sujet sans avoir recourt à un capteur de profondeur. Ainsi, le module d’attention spatiale se focalise sur les grands mouvements des membres supérieurs mais également sur les images des mains, afin de traiter les petits mouvements de la main et des doigts pour mieux distinguer les classes de gestes. Les informations extraites d’une caméra de profondeur sont acquises de la base de données opensign. Par conséquent, la stratégie proposée pour la reconnaissance des gestes peut être adoptée par tout système muni d’une caméra de profondeur.Ensuite, nous explorons brièvement les stratégies d’estimation de postures 3D à l’aide de caméras monoculaires. Nous proposons d’estimer les postures 3D chez l’homme par une approche hybride qui combine les avantages des estimateurs discriminants de postures 2D avec les approches utilisant des modèles génératifs. Notre stratégie optimise une fonction de coût en minimisant l’écart entre la position et l’échelle normalisée de la posture 2D obtenue à l’aide d’openpose, et la projection 2D virtuelle du modèle cinématique du sujet humain.Pour l’interaction homme-robot en temps réel, nous avons développé un système distribué asynchrone afin d’associer notre module de détection de gestes statiques à une librairie consacrée à l’interaction physique homme-robot OpenPHRI. Nous validons la performance de notre framework grâce à une expérimentation de type « apprentissage par démonstration » avec un bras robotique.