Thèse soutenue

Détection d'objets 3D par fusion multimodale basée sur l'apprentissage profond

FR  |  
EN
Auteur / Autrice : Haodi Zhang
Direction : Abdelaziz Bensrhair
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/06/2023
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....)
Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Jury : Président / Présidente : Fawzi Nashashibi
Examinateurs / Examinatrices : Sylvie, Julie Chambon, Dominique Gruyer, Alexandrina Rogozan, Farah Mourad-Chehade, Paul Honeine
Rapporteur / Rapporteuse : Sylvie, Julie Chambon, Dominique Gruyer

Résumé

FR  |  
EN

La détection d'objets en 3D est un élément clé du module de perception du véhicule autonome. Après la détection, la position spatiale de l'objet est indiquée dans une boîte de délimitation cubique. Les tâches ultérieures du pipeline, telles que la reconnaissance, la segmentation et la prédiction, reposent sur une détection précise. Au cours des cinq dernières années, la détection d'objets en 3D a suscité de plus en plus d'attention. De nombreux algorithmes excellents basés sur l'apprentissage profond ont été proposés et ont permis de réaliser des progrès significatifs en matière de précision de détection. Diverses modalités de données sont disponibles pour la détection d'objets en 3D, l'image et le LiDAR étant les deux modalités les plus couramment adoptées. La modalité LiDAR est préférée par la plupart des détecteurs en raison de la précision de ses informations de profondeur qui délimitent spatialement l'objet. En revanche, la modalité image est limitée par l'ambiguïté des informations de profondeur, d'où une précision insuffisante de la détection d'objets en 3D. Certains travaux pionniers tentent d'exploiter à la fois les informations de profondeur précises et les riches informations sémantiques en fusionnant les deux modalités. Cependant, il n'existe pas encore de paradigme de fusion dont l'efficacité a été largement prouvée. En outre, toutes les méthodes existantes de détection d'objets 3D par fusion reposent sur l'hypothèse de données synchronisées. Plus le nombre de modalités augmente, plus la fréquence de synchronisation diminue, ce qui entraîne un goulot d'étranglement dans l'efficacité de la détection. Cela réduira évidemment la sécurité des véhicules autonomes. Pour répondre aux questions ci-dessus, cette thèse propose les contributions suivantes, résumées en quatre points : 1) La distorsion lors de l'évaluation de la note de précision moyenne en utilisant la méthode d'interpolation à N points est révélée. La distorsion de la précision moyenne qui peut conduire à l'échec de l'évaluation du serveur est complètement analysée. Afin de résoudre le problème de distorsion, nous proposons une méthode d'interpolation à N points améliorée. En modifiant la méthode de calcul de la zone de l'intervalle d'interpolation et l'emplacement du point d'interpolation, la distorsion de la précision moyenne est correctement éliminée. 2) Nous introduisons un modèle d'optimisation d'image unifié pour supprimer les zones redondantes qui partagent les mêmes images de paramètres échantillonnés. Au lieu d'optimiser chaque image, l'algorithme NPAE proposé estime et récolte la zone non piétonne commune pour toutes les images. Par conséquent, l'algorithme NPAE peut réduire la consommation de temps de détection tout en maintenant la précision de détection. 3) Ensuite, nous explorons la méthode de fusion tardive des données multimodales synchrones. Un grand nombre de faux positifs sont observés dans les propositions de détection d'objets 3D basées sur la seule modalité LiDAR. Ces propositions de faux positifs peuvent être classées dans la modalité image. Par conséquent, toutes les propositions sont projetées sur le plan de l'image pour vérification par le classificateur d'image. Ce modèle de fusion multi-modale tardive est appelé vérification cross-modale (CMV). Après le traitement du modèle CMV, les faux positifs sont réduits de 50 %. 4) Enfin, nous découvrons un nouveau scénario de fusion multimodale asynchrone et proposons une solution. Le flux de données asynchrone est largement présent dans les procédures d'échantillonnage de capteurs pour des modalités multiples. L'utilisation complète des données asynchrones permet d'augmenter de manière significative la fréquence des données fournies pour la détection par un véhicule autonome. Dans ce but, nous proposons le détecteur d'objets 3D à fusion multimodale asynchrone (AF3D). Il peut fonctionner à la fois en état synchrone et asynchrone. De plus, AF3D a la capacité de fusionner des données [...]