Détection d’objets et prédiction du trafic routier à l’aide de l’apprentissage profond sur des images et des vidéos compressées de scènes routières
Auteur / Autrice : | Benjamin Deguerre |
Direction : | Gilles Gasso |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 25/11/2021 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | Établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....) |
Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) | |
Jury : | Président / Présidente : Marianne Clausel |
Examinateurs / Examinatrices : Gilles Gasso, Vincent Frémont, David Picard, Clément Chatelain, Franck Davoine | |
Rapporteurs / Rapporteuses : Vincent Frémont, David Picard |
Résumé
Cette thèse est une CIFRE réalisée avec Actemium Paris Transport, une société qui évolue dans le domaine des Systèmes de Transport Intelligents (STI) et, en particulier, fournit des solutions logicielles pour la surveillance des tunnels routiers. Dans cette thèse, nous nous proposons d’étudier l’utilisation de méthodes d’apprentissage profond sur des images/vidéos compressées, afin de réduire leurs besoins en ressources et de permettre un déploiement à grande échelle des solutions logicielles développées par Actemium. Plus spécifiquement, nous ciblons deux types de compressions (la compression d’images JPEG et la compression vidéo MPEG4 part-2) pour deux applications spécifiques : la détection d’objets et l’estimation du débit de flux routiers. Dans un premier temps, nous nous concentrons sur la détection d’objets dans les images compressées JPEG. Du fait que l’algorithme JPEG compresse les images depuis une représentation spatiale en une représentation fréquentielle par blocs, le principal défi consiste à concevoir des modèles de détection capables d’estimer correctement la position des objets depuis cette nouvelle représentation. En utilisant des images compressées au format JPEG comme entrées, nous développons des architectures d’apprentissage profond de détection d’objets et démontrons une accélération de la vitesse de prédiction d’un facteur 1,7 tout en ne réduisant la performance de détection que de 5,5%. De plus, nous démontrons empiriquement que seule une partie des informations compressées, la composante de luminance, est nécessaire pour atteindre la précision des méthodes utilisant l’ensemble des informations contenues dans les images. Nous abordons ensuite le problème de l’estimation du débit routier (nombre de véhicules/unité de temps) à partir de flux vidéo compressés MPEG4 part-2 provenant de caméras de surveillance de tunnels routiers. L’algorithme de compression vidéo MPEG4 part-2 utilise une représentation approximative du flux de pixels entre les images pour réduire la taille des données à encoder. Cette représentation semble donc pertinente pour estimer le débit de flux routiers tout en réduisant les besoins en ressources de calcul et en mémoire. Nous proposons plusieurs architectures d’apprentissage profond de type end-to-end qui utilisent cette représentation comme entrée. En utilisant ces architectures, nous démontrons que la prédiction du débit routier à partir de flux vidéo compressés MPEG4 part-2 est possible tout en atteignant une meilleure précision par rapport à un modèle plus classique, basé sur les vidéos RGB, et permet, de plus, d’accélérer de façon impressionnante l’étape de prédiction (×3200). Enfin, les données d’entraînement pouvant être difficiles à obtenir en raison de contraintes industrielles, nous étudions la possibilité d’utiliser des méthodes d’adaptation de domaine pour transférer les modèles appris d’une caméra à une autre et nous fournissons une analyse approfondie des contraintes qui peuvent entraver un tel transfert.