Segmentation d'instance dans des images fisheye et détection de points clés de squelette dans des vidéos : application à la vidéoprotection à bord du futur train autonome
Auteur / Autrice : | Rémi Dufour |
Direction : | Marion Berbineau, Olivier Lézoray |
Type : | Thèse de doctorat |
Discipline(s) : | Micro-nanosystèmes et capteurs |
Date : | Soutenance le 22/11/2022 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École graduée Sciences de l’ingénierie et des systèmes (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Électronique Ondes et Signaux pour les Transports (1994-2017) |
Etablissement privé partenaire de recherche : Railenium, Institut de recherche technologique de la filière ferroviaire (Valenciennes, Nord) | |
Jury : | Président / Présidente : François Brémond |
Examinateurs / Examinatrices : Cyril Meurie, Ankur Mahtani | |
Rapporteurs / Rapporteuses : Catherine Achard, Samia Ainouz |
Mots clés
Résumé
Les projets de train autonomes se multiplient à travers le monde. En france un consortium dirigé par l'IRT Railenium a pour objectif de construire un prototype de train atteignant GoA4 (Grade of Automation 4) et qui serait capable de circuler sans pilote et sans personnel humain à bord. En l'absence de personnel, les besoins de services et de sécurité des passagers doivent être pris en charge par des systèmes automatisés. De tels systèmes doivent disposer d'informations variées et détaillées, en particulier sur l'état et les actions des passagers à bords. Les algorithmes de vision par ordinateur, en particulier ceux basés sur l'apprentissage automatique par réseaux de neurones profonds, aussi appelé Deep Learning, ont récemment atteint des niveaux de performances convenables pour analyser des flux vidéos de caméras de surveillance. Plusieurs défis spécifiques au contexte des trains autonomes doivent cependant être relevés. Certaines caméras chargées de surveiller les passagers à l'intérieur du train seront de type grand angle ou Fisheye. Ces caméras produisent des images présentant des distorsions en barillet importantes, qui ne sont pas présentes dans les principales bases de données d'entraînement, et qui permettent l'apprentissage des réseaux de neurones convolutifs modernes. Une méthode a été développée pour entraîner des algorithmes de segmentation sémantique sur des images fisheye artificielles. Nous appliquons pour la première fois cette méthode à la tâche de segmentation d'instance, et nous étudions ses performances sur deux nouvelles bases annotées d'images présentant des distorsions en barillet, ainsi que l'effet de l'initialisation et de certains paramètres. De plus, les nouveaux algorithmes de suivi de pose ont atteint une certaine maturité. Cependant, ils sont généralement top-down, et ne disposent pas d'une mémoire à long terme. Nous proposons une nouvelle méthode de détection de points clés de squelette, qui adapte un algorithme récent de Video Object Segmentation (VOS), qui dispose d'une mémoire à long terme, à la tâche de détection de points clés de squelette en vidéo. Ces algorithmes ont ensuite été testés sur des données réelles enregistrées dans le modèle de train utilisé pour le train autonome.