Analyse et interprétation de scènes visuelles par approches collaboratives

Sabin Tiberius Strat

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN |

RO

Auteur / Autrice :	Sabin Tiberius Strat
Direction :	Patrick Lambert, Alexandre Benoît, Dan Alexandru Stoichescu
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 04/12/2013
Etablissement(s) :	Grenoble en cotutelle avec Universitatea politehnica (Bucarest)
Ecole(s) doctorale(s) :	École doctorale sciences et ingénierie des systèmes, de l'environnement et des organisations (Chambéry ; 2007-2021)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'analyse et traitement d'images (Bucarest) - Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Annecy)
Jury :	Président / Présidente : Bernard Merialdo
	Examinateurs / Examinatrices : Stéphane Bres, Mihai Ciuc, Georges Quénot
	Rapporteurs / Rapporteuses : Jenny Benois Pineau, Frédéric Precioso

Mots clés

FR |

EN

Mots clés contrôlés

Analyse de scènes (informatique)

Indexation automatique

Mots clés libres

Indexation sémantique

Résumé

FR |

EN

Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l’indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d’améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l’information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse et interprétation de scènes visuelles par approches collaboratives

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse et interprétation de scènes visuelles par approches collaboratives

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses