Thèse soutenue

Contribution à l’amélioration de la robustesse de systèmes de perception fondés sur des réseaux de neurones profonds multimodaux

FR  |  
EN
Auteur / Autrice : Robin Condat
Direction : Abdelaziz Bensrhair
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/07/2022
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....)
Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Jury : Président / Présidente : Fawzi Nashashibi
Examinateurs / Examinatrices : Abdelaziz Bensrhair, Fabien Moutarde, Olivier Orfila, Fabrice Mériaudeau, Samia Ainouz
Rapporteurs / Rapporteuses : Fabien Moutarde, Olivier Orfila

Résumé

FR  |  
EN

Afin de garantir une perception optimale pour le véhicule autonome, l'analyse de scènes routières a largement été explorée durant ces dernières années dans le domaine de l'ADAS. Plus récemment, l'apprentissage profond via des réseaux de neurones a permis de passer un cap significatif en termes de performances. Cependant, les méthodes développées sont rarement robustes en conditions dégradées, pouvant ainsi causer une mauvaise interprétation de la scène routière et engendrer des accidents sévères. Pour remédier cela, l'utilisation de la multimodalité, profitant de capteurs de sources diverses, permet une meilleure analyse de la situation. Cela implique, malgré tout, une cause possible de dégradation : le dysfonctionnement ou la panne d'un ou plusieurs capteurs. Dans cette thèse, nous abordons la problématique de robustesse des réseaux de neurones multimodaux pour l'analyse de scènes routières en cas de dysfonctionnement de capteurs. Nous étudions l'impact de données endommagées sur le fonctionnement de réseaux de neurones convolutionnels multimodaux, et proposons des techniques permettant de limiter les pertes de performances engendrées. Tout d'abord, nous passons en revue les différentes propositions utilisant la muni-modalité pour l'analyse des scènes routières dans la littérature, les différents réseaux de neurones pour la détection d'objets, ainsi que les stratégies de fusion choisies pour prendre en charge les données multimodales sont également présentés. Un accent est mis sur les stratégies permettant d'améliorer la robustesse des réseaux de neurones dans des conditions dégradées. Dans la suite de la thèse, nous nous concentrons sur la détection 2D des usagers de la route. Nous introduisons plusieurs architectures de réseaux de neurones convolutionnels prenant en entrée des données multimodales basées sur l'image. Plusieurs stratégies de fusion sont explorées afin d'extraire et de combiner au mieux l'information des modalités tout en réduisant la taille des réseaux et ainsi assurer un fonctionnement en temps réel. Une analyse de l'impact de chaque modalité d'entrée sur nos réseaux est réalisée afin de comprendre leur rôle dans le processus de détection. Ensuite, nous étudions la problématique de robustesse des réseaux de neurones convolutionnels multimodaux lorsqu'une ou plusieurs modalités sont manquantes, c'est-à-dire remplacée par une modalité nulle, ne contenant aucune information. Plusieurs techniques d'augmentation de données sont présentées pour l'amélioration des performances des réseaux de neurones convolutionnels multimodaux en conditions dégradées avec des données d'entrées partielles, tout en conservant une précision maximum en conditions idéales sans dysfonctionnement. Une analyse en profondeur est également effectuée sur un réseau de neurones robuste pour identifier les conséquences de l'absence d'une ou plusieurs modalités en entrée sur son processus de détection. Enfin, nous abordons un cas plus complexe de dysfonctionnement, où une partie des modalités d'entrées sont fortement bruitées et donc inexploitables. Nous introduisons plusieurs méthodes pour améliorer la robustesse des réseaux de neurones dans ces conditions, afin de limiter la perturbation de ces modalités bruitées sur leur fonctionnement. Nous montrons que nos approches permettent d'atténuer significativement les pertes de précisions de nos réseaux face à des modalités bruitées, mais qu'un compromis est à définir entre performance, robustesse et temps d'exécution.