Thèse soutenue

Interprétation de scène de conduite à l'aide de capteurs automobile

FR  |  
EN
Auteur / Autrice : Florent Bartoccioni
Direction : Karteek AlahariPatrick Pérez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/05/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....)
Entreprise : Valéo
Jury : Président / Présidente : Cordelia Schmid
Examinateurs / Examinatrices : Alexandre Alahi, Matthieu Cord, Aurélie Bugeau, Jean-Sébastien Franco
Rapporteurs / Rapporteuses : Vincent Lepetit, Alexandre Alahi

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L'objectif de cette thèse est de se concentrer sur la prévision à court terme (par exemple, jusqu'à 1s) de certains aspects de l'environnement d'une voiture sans chauffeur. L'environnement est reçu comme une "scène" par les différents capteurs du véhicule, une scène visuelle pour les caméras, un nuage de points 3D pour les scanners laser (LiDAR), etc. Nous visons à prédire l'évolution de cette scène dynamique.Une partie de la recherche est consacrée à définir des tâches de prévision utiles (quels aspects de la scène à prévoir, quelle forme pour la prédiction ?), quelle représentation de la scène à utiliser (voxels, bird’s-eye-view, vectorielle, implicite ?), et à étudier des outils de machine learning qui nous permettraient de les résoudre (quelles architectures profondes, quelle supervision, quelles fonctions d'erreur ?).La première partie de thèse revisite l'estimation de profondeur par caméra monoculaire; une fonctionnalité clé des systèmes autonomes qui reposent souvent sur une seule caméra ou sur plusieurs caméras indépendantes. Les méthodes existantes utilisent soit un LiDAR coûteux (32 ou 64 faisceaux) ou des méthodes de caméra uniquement qui souffrent d'ambiguïtés. Nous proposons une nouvelle alternative d'estimation dense de la profondeur en combinant une caméra monoculaire avec un LiDAR léger, par exemple à 4 faisceaux, typique des scanners laser d'aujourd'hui produits en série pour l’automobile. Notre méthode est auto-supervisée et ne soufre pas d’ambiguïté d'échelle ou de problèmes de profondeur infinie dont souffrent les méthodes utilisant seulement des caméras. Cette méthode répond à deux enjeux majeurs. Dans un premier temps, elle permet de produire, sans aucune vérité de terrain à l’apprentissage, une représentation 3D riche qui alimente l'algorithme de prévision. Deuxièmement, notre méthode, utilisant les capteurs typiques des voitures automatisées du marché publique, trouve des applications directes dans les systèmes d’aides à la conduite (ADAS).La seconde partie de cette thèse se porte sur la représentation en vues de dessus dite en `bird’s-eye-view` (BEV) pour la prédiction de présence de véhicules à partir de plusieurs caméras. Les travaux récents sur la conduite autonome ont largement adopté cette représentation intermédiaire du monde pour les tâches de prédiction et de planification. La prédiction en temps réel de ces cartes BEV implique des opérations non triviales telles que l'extraction de données multi-caméras ainsi que la fusion et la projection dans une grille de vue de dessus commune. Cela se fait généralement avec des opérations géométriques sujettes aux erreurs (par exemple, homographie ou rétroprojection à partir d'une estimation de profondeur monoculaire) ou une cartographie dense directe coûteuse entre les pixels de l'image et les pixels en BEV (par exemple, avec MLP ou attention). Nous présentons un modèle efficace d'encodeur-décodeur qui agrège les informations sur plusieurs capteurs dans une collection compacte, mais riche, de représentations latentes. Ces représentations latentes, après avoir été traitées par une série de blocs d'auto-attention, sont ensuite reprojetées dans l'espace BEV.La dernière partie de cette thèse traite de la tâche de prédiction future. Les travaux précédents utilisent la représentation BEV pour agréger l’information de la scène au cours du temps et y prédire son état futur. Nous proposons d’exploiter l’architecture présentée dans la seconde partie et d’agréger l’information temporelle dans cette représentation interne, abstraite, de la scène. Dans les faits, notre méthode apprend une représentation implicite (latente) du monde qui est compacte, mais qui encode la géométrie et la dynamique de la scène. Disposer d'une telle représentation nous permet de prédire la dynamique de la scène directement dans l'espace latent de manière très efficace.