Thèse soutenue

Positionnement visuel dans un monde d'objets

FR  |  
EN
Auteur / Autrice : Vincent Gaudillière
Direction : Marie-Odile BergerGilles Simon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/06/2020
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Sylvain Contassot-Vivier
Examinateurs / Examinatrices : Marie-Odile Berger, Gilles Simon, Cédric Demonceaux, Michel Dhome, Gabriela Csurka
Rapporteurs / Rapporteuses : Cédric Demonceaux, Michel Dhome

Résumé

FR  |  
EN

La Réalité Augmentée peut être définie comme la superposition de la réalité et d'éléments (sons, images 2D, 3D, vidéos, etc.) calculés par un système informatique en temps réel. En pratique, ce terme désigne l'ajout d'éléments visuels, soit dans le champ de vision d'un observateur par l'intermédiaire de lunettes spécifiques (ex. : Microsoft Hololens, Magic Leap One), soit sur un écran à travers lequel l'observateur voit la réalité (généralement un smartphone ou une tablette). Au cours de ce travail de recherche, nous nous sommes intéressés au déploiement de la Réalité Augmentée dans un contexte industriel, et plus particulièrement aux défis que des environnements industriels de grande taille (usines, centrales, navires) représentent en termes d'analyse et de traitement des images. Nous avons notamment étudié le recours aux objets d'intérêt présents dans la scène pour reconnaître le lieu dans lequel se trouve l'observateur puis calculer sa position précise par rapport à l'environnement. Les applications visées sont, entre autres, l'aide à la fabrication, l'aide à la maintenance, la documentation et la formation. Après avoir proposé une définition fonctionnelle du concept de lieu en environnement industriel, comme zone d'interaction autour d'un objet d'intérêt, nous avons abordé la reconnaissance de lieux comme une tâche de récupération d'images dans laquelle la similarité entre l'image inconnue et les images de référence est mesurée en deux étapes. La validité des images présentant les plus grandes similarités avec l'image inconnue est ensuite évaluée par estimation de la géométrie épipolaire liant l'image inconnue et chacune des images récupérées. La mesure de similarité et l'estimation de la géométrie sont guidées par le calcul de correspondances de niveau objet entre régions d'intérêt des deux images. Pour calculer la pose de la caméra, nous avons ensuite tiré profit des objets d'intérêt présents dans la scène, en utilisant pour cela une modélisation de ces derniers sous forme d'ellipsoïdes, les projections des objets dans l'image étant modélisées sous forme d'ellipses. Nos contributions au problème d'estimation de pose de caméra à partir de correspondances ellipse - ellipsoïde sont d'ordre à la fois théorique et pratique. Nous avons notamment montré qu'il existe une paramétrisation des solutions du problème à un seul ellipsoïde, et, par ailleurs, que le problème d'estimation de pose de caméra peut être réduit à un problème d'estimation de son orientation seulement. Nous avons également proposé une manière robuste de traiter les multiples appariements possibles entre les objets détectés dans l'image et les objets présents dans le modèle 3D de la scène.