Thèse soutenue

Apprentissage non-supervisé de représentations pour l'analyse de séquences vidéos

FR  |  
EN
Auteur / Autrice : Guillaume Lorre
Direction : Stéphane CanuSamia Ainouz
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/07/2021
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
Établissement de préparation : Institut national des sciences appliquées Rouen Normandie (Saint-Etienne-du-Rouvray ; 1985-....)
Jury : Président / Présidente : Thierry Chateau
Examinateurs / Examinatrices : Stéphane Canu, Samia Ainouz, Catherine Achard, Louahdi Khoudour, Jaonary Rabarisoa
Rapporteurs / Rapporteuses : Catherine Achard, Louahdi Khoudour

Résumé

FR  |  
EN

Les travaux effectués dans cette thèse s’intéressent au développement de méthodes d’apprentissage non supervisé de représentations de vidéos. Le but est donc de pré-entraîner un réseau de neurones sans utiliser de données annotées qui sont difficiles à obtenir en grand nombre. Les méthodes sont ensuite évaluées sur la tâche de reconnaissance d’actions, en classification linéaire par exemple. Nous nous sommes plus particulièrement intéressés aux méthodes contrastives qui utilisent une similarité dans l’espace des représentations. Cette similarité doit être maximisée avec l’exemple positif et minimisée avec les exemples négatifs. Nous avons tout d’abord développé deux méthodes qui prennent en compte l’aspect temporel des vidéos comme supervision. Le but est de prédire certains segments vidéos à partir des autres. La première approche se base sur la méthode CPC [vdOLV18]. Nous montrons qu’il est possible de l’appliquer au domaine de la vidéo et montrons l’avantage de la formulation autorégressive avec des modèles expressifs prenant en entrée des cartes de caractéristique ainsi que l’utilisation d’exemples négatifs difficiles. La deuxième se base sur BERT [DCLT19], une méthode d’apprentissage de représentations dans le domaine du NLP. Nous montrons qu’elle est utilisable avec la fonction de coût InfoNCE et l’importance de la stratégie de masquage. Finalement, nous nous attaquons aux problèmes du nombre d’exemples négatifs et du temps d’apprentissage des méthodes contrastives. On propose d’augmenter les exemples positifs et négatifs de SimCLR [CKNH20] au niveau des représentations par interpolation linéaire. Nous avons montré un gain sur les images et les vidéos par rapport à la méthode SimCLR classique. Ces différentes méthodes nous permettent d’obtenir des résultats équivalents ou meilleurs que l’état de l’art.