Thèse soutenue

Analyse et interprétation de scènes visuelles par approches collaboratives

FR  |  
EN  |  
RO
Auteur / Autrice : Sabin Tiberius Strat
Direction : Patrick LambertAlexandre BenoîtDan Alexandru Stoichescu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/12/2013
Etablissement(s) : Grenoble en cotutelle avec Universitatea politehnica (Bucarest)
Ecole(s) doctorale(s) : École doctorale sciences et ingénierie des systèmes, de l'environnement et des organisations (Chambéry ; 2007-2021)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'analyse et traitement d'images (Bucarest) - Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Annecy)
Jury : Président / Présidente : Bernard Merialdo
Examinateurs / Examinatrices : Stéphane Bres, Mihai Ciuc, Georges Quénot
Rapporteurs / Rapporteuses : Jenny Benois Pineau, Frédéric Precioso

Résumé

FR  |  
EN

Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l’indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d’améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l’information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé.