Thèse soutenue

Méthode combinée pour la cartographie et localisation simultanées monoculaire

FR  |  
EN
Auteur / Autrice : Liza Belos
Direction : Eva DokladalovaPascal Monasse
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/02/2023
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge
Jury : Examinateurs / Examinatrices : Cédric Demonceaux, Antoine Manzanera, Beatriz Marcotegui, Raouf Ben-Jemaa, Jean-Philippe Tarel, Guillaume Bourmaud
Rapporteurs / Rapporteuses : Cédric Demonceaux, Antoine Manzanera

Résumé

FR  |  
EN

Les algorithmes de localisation et cartographie visuelles simultanées (SLAM) estiment en temps réel la pose d'une caméra à partir de son flux vidéo continu, tout en faisant une reconstruction 3D de la scène. Nous nous intéressons aux méthodes de SLAM qui n'utilisent qu'une caméra monoculaire et aucun autre capteur. Ces méthodes de SLAM sont utiles à des applications de réalité augmentée, ou de drones autonomes. Les recherches récentes dans le domaine du SLAM monoculaires ont réussi à considérablement réduire l'erreur globale. Cependant, les méthodes SLAM actuelles ne sont pas assez robustes et assez précises pour des applications telles que celles citées plus haut. En effet, les méthodes actuelles échouent sur certains types de vidéos, et produisent une dérive de l’estimation de la pose. Il existe deux catégories principales de méthodes SLAM : directe et indirecte. Les méthodes directes utilisent le flux optique de la vidéo pour estimer la pose de la caméra et la reconstruction 3D. Elles produisent des nuages de points 3D précis, mais beaucoup de dérive quand le flux optique entre les images consécutives de la vidéo est élevé.Les méthodes indirectes font correspondre des points 2D sur les images de la vidéo pour estimer la pose de la caméra et effectuer la reconstruction 3D. Ainsi, les méthodes indirectes ne sont pas sensibles au flux optique élevé. Néanmoins, ils sont sensibles aux textures répétitives, qui peuvent faire échouer le SLAM. MOD SLAM est une nouvelle méthode de SLAM qui combine les méthodes indirectes et directes afin de bénéficier des avantages des deux. Elle s'appuie sur la carte généralisée, une structure de données munie d'un ensemble d'opérateurs. Ces opérateurs assurent la cohérence des informations indirectes et directes, et utilisent des algorithmes efficaces réduisant le coût d'implémentation du SLAM.À chaque étape, MOD SLAM exécute la méthode qu’il estime, produira le moins de dérive. Comme MOD SLAM n'exécute pas les deux méthodes à chaque étape, elle est compétitive en temps de calcul avec l'état de l'art, et peut fonctionner à 20 images par seconde sur les téléphones Android haute gamme. Ce manuscrit présente en détail les méthodes de SLAM monoculaire de la littérature. Nous développons la carte généralisée et expliquons MOD SLAM en détail. Une analyse fine de l'impact du système de décision de MOD SLAM est présentée, afin de démontrer l’impact de celui-ci. Nous concluions en montrant que nous avons créé une méthode SLAM combinant les principes des algorithmes directs et indirects, réussissant à finir 100% des séquences des bases de données populaires, tout en augmentant la précision des méthodes de pointe