Conception pour le véhicule autonome et les applications ADAS sécuritaires d'un système vidéo ADAS coopératif à base de rétines CMOS
Auteur / Autrice : | Damien Joubert |
Direction : | Frédéric Chausse |
Type : | Thèse de doctorat |
Discipline(s) : | Robotique |
Date : | Soutenance le 25/11/2019 |
Etablissement(s) : | Université Clermont Auvergne (2017-2020) |
Ecole(s) doctorale(s) : | École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) |
Partenaire(s) de recherche : | Laboratoire : Institut Pascal (Aubière, Puy-de-Dôme) |
Jury : | Président / Présidente : Ryad Benosman |
Examinateurs / Examinatrices : Thierry Fournel, Céline Teulière, Hubert Konik, Christophe Lavergne | |
Rapporteur / Rapporteuse : Thierry Viéville, Virginie Fresse |
Mots clés
Mots clés contrôlés
Résumé
La perception monoculaire par caméra est un problème loin d’être résolu, qui oppose de nombreux acteurs et qui malgré des investissements massifs n’a toujours pas le niveau de performance requis pour les applications de conduite autonome. Si certaines fonctionnalités d’aides à la conduite laissent penser que l’attention du conducteur peut être réduite, ce n’est pas le cas en pratique car la question de la responsabilité repose encore sur les épaules du conducteur. Ce travail a pour objectif de construire une solution de vision frontale robuste, combinant plusieurs modalités, à travers l’utilisation d’un seul et même capteur. L’imageur retenu ici est la rétine CMOS, ou l’imageur événementiel, dont les pixels sont capables de détecter et d’horodater des changements relatifs de luminance, positifs ou négatifs. La fréquence d’acquisition des données est ainsi rythmée par la cinématique du scénario, qui peut être importante dans les scènes automobiles. Les deux modalités extraites du capteur sont d’un coté l’utilisation d’algorithmes conventionnels de traitement d’image, et de l’autre la détection de signaux modulés à haute fréquence émis par les cibles, et caractérisant également l’état ou l’orientation de l’objet. Il est d’abord question dans ce travail de mesurer les paramètres des rétines CMOS, pour d’une part les simuler et de l’autre évaluer leurs variations face à la dynamique de l’environnement des scénarios automobiles. Cette étape s’articule autour de la mise en place d’un banc de caractérisation et d’un modèle de simulation du capteur capable de faire le lien avec les mesures réalisées sur banc. Ce dernier permet également de quantifier les performances des algorithmes de détection des signaux modulés développés, pour permettre de s’assurer que chaque détection correspond bien au signal recherché, et permet aussi d’optimiser la réponse du capteur face aux signaux coopératifs. La détection de ces signaux est démontrée par simulation et sur prototype, avec une portée supérieure à 150 mètres et une fréquence de modulation de 5 kHz. Les algorithmes proposés permettent de conserver un flux de données totalement asynchrone. Les verrous technologiques des rétines CMOS ont été identifiés pour cette fonction, et une attention particulière pourra être portée aux prochaines générations de ces capteurs. En parallèle, une méthode de détection et de classification de cible à base de réseaux de neurones convolutifs est mise en place. Elle consiste à créer des images artificielles en intégrant les événements au cours du temps, et d’opérer un transfert d’apprentissage avec une architecture entraı̂née sur des images conventionnelles, rendu possible en adaptant les méthodes d’entraı̂nement pour éviter le sur-apprentissage. Ce réseau permet ensuite d’initialiser les fonctions de suivi pour estimer le temps avant collision. Cette étape tire parti de la nature asynchrone des événements, en estimant le déplacement d’un objet dans le plan focal de manière événementielle via l’évaluation du flot optique local. Le modèle de simulation du capteur permet par ailleurs d’estimer les algorithmes testés et proposés face aux variation des paramètres de bruit et de latence du capteur. Un dispositif de test sur piste permet de montrer que le suivi événementiel est plus précis que le suivi basé sur les détections synchrones des cibles. Enfin, des pistes de fusion entre les deux modalités ont été testées,et montrent que l’apport de la détection des signaux modulés sur le positionnement de la cible correspondante est complexe à implémenter sans s’appuyer sur le contenu de l’image. En revanche, le suivi du mouvement basé sur les détections de signaux coopératifs permet dans certains cas de filtrer la densité de la scène, ce qui améliore les performances de suivi. (...)