Extraction de la structure narrative de séries TV
Auteur / Autrice : | Aman Berhe |
Direction : | Claude Barras, Camille Guinaudeau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/10/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) |
Référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….) | |
Jury : | Président / Présidente : Anne Vilnat |
Examinateurs / Examinatrices : Yannick Estève, Pascale Sébillot, Julien Pinquier | |
Rapporteur / Rapporteuse : Yannick Estève, Pascale Sébillot |
Mots clés
Résumé
À l'ère de l'explosion du contenu multimédia, il est nécessaire de proposer des méthodes automatiques permettant d'organiser les collections de documents multimédias. La structure narrative des collections peut aider à cet égard, en particulier dans les collections multimédias longues et continues, telles que les séries TV. Les séries TV actuelles sont composées de structures complexes impliquant plusieurs récits entrelacés au sein d'un même épisode, et ce jusqu'au dernier épisode de la série TV. Dans cette thèse, nous nous concentrons sur l'extraction et la description de la structure narrative des séries TV en considérant la fusion des caractéristiques multimodales et des éléments narratifs. La structure narrative des séries TV sont constitués d'unités atomiques narratives, les scènes. Par conséquent, travailler au niveau de la scène est la meilleure façon d'extraire et de comprendre la structure narrative globale. Dans cette thèse, nous avons proposé une nouvelle façon d'extraire et de comprendre la structure narrative en reliant les scènes. Pour ce faire, nous avons étudié la segmentation des scènes en utilisant des caractéristiques extraites de modèles neuronaux qui prennent en compte les modalités visuelles et textuelles des séries TV. Ensuite, nous avons proposé une nouvelle façon de relier les scènes par le biais d'un regroupement flou (fuzzy clustering), à différents niveaux de granularité. Le fuzzy clustering prend en compte les éléments narratifs des scènes pour créer les liens entre aux. Des liens inter et intra épisodes sont créés pour capturer la progression d'un récit tout au long de la série TV. Ensuite, les scènes les plus marquantes (MRS) sont détectées, afin de mettre en évidence les points d'inflexion de la structure narrative sur les scènes liées. Des modèles neuronaux profonds et complexes sont étudiés pour la détection des MRS à partir des caractéristiques multimodales des scènes. Enfin, un outil de visualisation et d'évaluation est proposé pour afficher les structures narratives extraites et permettre une évaluation humaine.