Thèse soutenue

Détection 3D pour la réalité mixte en maintenance industrielle

FR  |  
EN
Auteur / Autrice : Philippe Pérez de san roman
Direction : Pascal DesbaratsJean-Philippe Domenger
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/12/2022
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Bertrand Kerautret
Rapporteurs / Rapporteuses : Bertrand Kerautret, Pascal Ballet

Résumé

FR  |  
EN

ITECA est développeur du logiciel WITTY3D qui est solution d'aide à la maintenance.Une IA aide au diagnostique et à la résolution des pannes, le tout accompagné de visuels 3D pour situer les informations et d'animations pour les expliquer.Ce logiciel est aujourd'hui déployer sur PC fixes, PC portables, tablettes et smart-phones.Comparé à des documents textes et des schémas 2D l'affichage 3D permet aux techniciens de plus facilement interpréter les informations affichés mais le problème ne disparaît pas complètement.Il à toujours besoin d'interpréter et transposer les informations virtuelles qui lui sont présentées à la réalité de terrain.Hors toute interprétation requière un effort cognitif et est sources d'erreurs.Pour outrepasser ces limitations ITECA souhaite faire évoluer WITTY3D en le portant sur des casques de réalités mixtes comme le Hololens de Microsoft.Ces casque utilisent des écrans transparents pour afficher des images directement devant les yeux de l'utilisateur.L'effet de perspective est alors parfait et permet de calquer les visuels virtuels sur l’environnement réel qui reste visible à travers la visière du casque.Ces casques fournissent le matériel d'affichage mais c'est au développeur de se doter des outils logiciels pour recaler correctement les visuels.Plus précisément le logiciel doit inférer la position et l'orientation des objets d’intérêts en 3D par rapport au casque.Ce problème est connue dans la littérature comme celui de l'estimation des six degrés de liberté d'un objet (estimation des 6DoF).La solutions à ce problème est des réseaux de neurones pour identifier, localiser dans l'image, et localiser en 3D, l'objet d’intérêt.Dans cette thèse nous avons considéré AlexNet, VGG-19 et GoogLeNet pour la classification d'images, YOLO pour la localisation dans l'image, et PoseNet et BB8 pour l'estimation des 6DoF.Nous les avons évalués sur trois jeux de données de l'état de l'art pour l'estimation des 6DoF: LINEMOD, T-LESS et YCB-VIDÉO.Pour PoseNet et BB8 nous souhaitions entraîner et tester les réseaux sur les mêmes images pour faire ressortir les différences dans le choix de l'architecture ou de la modélisation de la pose utilisée (3D/2D).Les résultats de classifications d'images d'AlexNet, VGG-19 et GoogLeNet sont très bon sur ces jeux de données qui proposent moins de catégories d'objets et moins de facteurs de difficultés, sauf sur T-LESS qui ne propose pas assez d'images d'entraînements et dont les étiquettes sont ambiguës à causes des sous-parties d'objets communes à plusieurs objets.Nous n'avons pas approfondis la localisation d'objets dans l'image.Bien que nous ayons obtenus de résultats intéressants sur LINEMOD, les résultats sont peu concluants sur YCB-VIDÉO, et nous ne l'avons pas testé sur T-LESS par manque d'images d'entraînements.Pour ce qui de l'estimation des 6DoF, les résultats sont prometteurs sur LINEMOD, surtout pour BB8 qui sans augmentation d'images avancés recalle correctement les objets en 2D dans 22.87% des images de tests.Mais pour PoseNet, ou sur les autres jeux de données, nous avons avons rencontrés des problèmes de sur-spécialisations.Ces problème sont dut au fait que ces trois jeux de données repose sur l'utilisation de plus d'augmentations d'images qu'il ne nous en ait permis avec PoseNet, ou sur l'utilisation de rendus 3D photoréalistiques comme images de substitutions.Les sur-spécialisation observé sont dut au fait que deux des jeux de données considérés ne sont pas conçut pour entraîner des réseaux de neurones, et le troisième est destiner à des applications de préhension robotiques ce qui n'est pas notre objectif.Plusieurs problèmes de qualités des étiquettes sont aussi apparus et de façon général ces jeux de données propose des points de vues distants ou mal distribués.Tout cela ne permet pas d'entraîner des réseaux de 6DoF, et encore moins avec une précision inférieur au centimètre en 3D ou au pixel en 2D....