Thèse soutenue

Un système de récupération et de classification d’images extraites des caméras de vidéo-surveillance

FR  |  
EN
Auteur / Autrice : Sirine Ammar
Direction : Thierry BouwmansMahmoud Neji
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 23/04/2021
Etablissement(s) : La Rochelle en cotutelle avec Université de Sfax (Tunisie)
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Multimedia, InfoRmation Systems and Advanced Computing Laboratory (Sfax, Tunisie) - Laboratoire Mathématiques, Images et Applications
Jury : Président / Présidente : Laure Tougne
Examinateurs / Examinatrices : Thierry Bouwmans, Mahmoud Neji, Laure Tougne, Antoine Vacavant, Walid Mahdi, Michel Berthier
Rapporteur / Rapporteuse : André Bigand, Antoine Vacavant

Résumé

FR  |  
EN

Dans cette thèse, nous présentons un descripteur robuste pour la soustraction d’arrière-plan fondé sur un algorithme de détection des anomalies non-supervisé, appelé DeepSphere, capable de détecter les objets en mouvement dans les séquences vidéos. Contrairement aux algorithmes de séparation arrière-avant plan conventionnels, ce descripteur est tolérant aux variations d’illumination, robuste face aux bruits et aux régions d’arrière-plan dynamiques et détecte les objets de premier-plan sans utiliser de traitement d’image supplémentaire. En outre, ce descripteur exploite à la fois les autoencodeurs profonds et les méthodes d’apprentissage en hypersphère, ayant la capacité de capturer les dépendances spatio-temporelles entre les composants et à travers les pas de temps, d’apprendre de manière flexible une représentation non-linéaire des caractéristiques et de reconstruire les comportements normaux à partir des données d’entrée potentiellement anormales. Les représentations non linéaires de haute qualité apprises par l’autoencodeur aident l’hypersphère à mieux distinguer les cas anormaux en apprenant une frontière compacte séparant les données normales et anormales. En adaptant cet algorithme à la tâche de soustraction d’arrière-plan, les objets de premier plan sont bien capturés par DeepSphere et la qualité de la détection de ces objets est améliorée. Une fois que ces objets sont détectés (personnes/voitures...), une approche est proposée pour les classer en utilisant le réseau discriminateur du DCGAN de manière semi-supervisée. Le discriminateur est transformé en un classificateur multi-classes qui utilise à la fois un grand nombre de données non étiquetées et un très petit nombre de données étiquetées pour compenser la limite de manque de données et le coût élevé de collecte des données supplémentaires ou d’étiquetage de toutes les données. Enfin, nous avons proposé une approche basée sur le modèle FaceNet pour la reconnaissance faciale des personnes extraites. De plus, nous avons étendu notre proposition par une méthode d’augmentation des données basée sur DCGANs au lieu d’utiliser les méthodes standard d’augmentation des données. Cela augmente non seulement la précision du modèle, mais réduit aussi de près de moitié le temps d’exécution et le temps d’apprentissage du réseau neuronal profond.