Thèse soutenue

Amélioration de la détection d'anomalies vidéo basée sur des technique avancées d'Apprentissage Profond

FR  |  
EN
Auteur / Autrice : Wenhao Shao
Direction : Noël CrespiRajapaksha Waththe Vidanelage Praboda Chathurangani Rajapaksha
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 21/11/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Télécom SudParis (Evry ; 2012-....) - Institut Polytechnique de Paris / IP Paris - Département Réseaux et Services Multimédia Mobiles / RS2M - Network Systems and Services / NeSS-SAMOVAR
Etablissement opérateur d'inscription : Télécom SudParis (Evry ; 2012-....)
Jury : Président / Présidente : Patricia Desgreys
Examinateurs / Examinatrices : Shiping Wang, Ioan Marius Bilasco, Gu Bin
Rapporteurs / Rapporteuses : Shiping Wang, Ioan Marius Bilasco

Résumé

FR  |  
EN

La sécurité est une préoccupation majeure dans différents domaines, et le déploiement de systèmes de surveillance en temps réel permet de relever ce défi. En utilisant des techniques d'apprentissage profond, il permet de reconnaître efficacement les événements anormaux. Cependant, même avec les avancées actuelles des méthodes de détection des anomalies, distinguer les événements anormaux des événements normaux dans les scénarios du monde réel reste un défi en raison d'événements anormaux rares, visuellement diversifiés et non reconnaissables de façon prévisible. Cela est particulièrement vrai lorsque l'on s'appuie sur des méthodes supervisées, où le manque de données d'anomalies labelisées pose un problème important pour distinguer les vidéos normales des vidéos anormales. Par conséquent, les approches de détection d'anomalies les plus récentes utilisent des ensembles de données existants pour concevoir ou apprendre un modèle qui capture les modèles normaux, ce qui permet ensuite d'identifier les modèles anormaux inconnus. Au cours de la phase de conception du modèle, il est essentiel de labelliser les vidéos avec des attributs tels qu'une apparence anormale, un comportement ou des catégories cibles qui s'écartent de manière significative des données normales, en les marquant comme des anomalies. Outre le manque de données labellisées, trois autres défis principaux ont été identifiés dans la littérature : 1) la représentation insuffisante des caractéristiques temporelles, 2) le manque de précision dans le positionnement des événements anormaux et 3) l'absence d'informations sur le comportement.Nous avons exploré les applications des nouvelles technologies de traitement vidéo, notamment la reconnaissance des actions, la détection des cibles, l'extraction des caractéristiques du flux optique, l'apprentissage de la représentation et l'apprentissage contrastif, afin de les utiliser dans les modèles de détection des anomalies vidéo. Les modèles que nous proposons sont analysés de manière comparative avec les modèles de référence. Cette analyse comparative est réalisée à l'aide de jeux de données publics courants, notamment UCSD(Ped2), Avenue, UCF-Crime et Shanghaitech.La première contribution relève le premier point décrit ci-dessus en introduisant un réseau convolutionnel temporel (TCN) amélioré. Ce nouveau modèle de réseau convolutionnel temporel apprend les caractéristiques dynamiques de la vidéo et les optimise afin d'atténuer les erreurs dues aux poids initiaux appris de manière contrastive. Cette méthode améliore la capacité globale des modèles faiblement supervisés en réduisant la perte causée par les paramètres initiaux dans l'apprentissage contrastif. Néanmoins, l'apprentissage faiblement supervisé ne fait que réduire la dépendance à l'égard des données labellisées, mais ne l'élimine pas complètement. C'est pourquoi nos deux contributions suivantes s'appuient sur l'apprentissage non supervisé pour relever les deux autres défis mentionnés ci-dessus. La deuxième contribution combine le mécanisme d'auto-attention pour donner la priorité aux poids des zones présentant des fluctuations dynamiques évidentes dans les images. Lors des tests, les zones anormales sont localisées en comparant les fonctions de détection et de perte d'objets. La troisième contribution explore l'intégration de modèles de réseaux d'apprentissage collaboratifs, qui assurent la cohérence entre les informations sur le flux optique et les informations sur l'apparence. Cette intégration vise à améliorer les capacités de capture spatio-temporelle des modèles non supervisés. Les performances et les capacités globales du modèle non supervisé sont considérablement améliorées par rapport aux autres modèles de base.