Extraction of Narrative Structure from TV Series

par Aman Berhe

Thèse de doctorat en Informatique

Sous la direction de Claude Barras et de Camille Guinaudeau.

Le président du jury était Anne Vilnat.

Le jury était composé de Yannick Estève, Pascale Sebillot, Julien Pinquier.

Les rapporteurs étaient Yannick Estève, Pascale Sebillot.

  • Titre traduit

    Extraction de la structure narrative de séries TV


  • Résumé

    À l'ère de l'explosion du contenu multimédia, il est nécessaire de proposer des méthodes automatiques permettant d'organiser les collections de documents multimédias. La structure narrative des collections peut aider à cet égard, en particulier dans les collections multimédias longues et continues, telles que les séries TV. Les séries TV actuelles sont composées de structures complexes impliquant plusieurs récits entrelacés au sein d'un même épisode, et ce jusqu'au dernier épisode de la série TV. Dans cette thèse, nous nous concentrons sur l'extraction et la description de la structure narrative des séries TV en considérant la fusion des caractéristiques multimodales et des éléments narratifs. La structure narrative des séries TV sont constitués d'unités atomiques narratives, les scènes. Par conséquent, travailler au niveau de la scène est la meilleure façon d'extraire et de comprendre la structure narrative globale. Dans cette thèse, nous avons proposé une nouvelle façon d'extraire et de comprendre la structure narrative en reliant les scènes. Pour ce faire, nous avons étudié la segmentation des scènes en utilisant des caractéristiques extraites de modèles neuronaux qui prennent en compte les modalités visuelles et textuelles des séries TV. Ensuite, nous avons proposé une nouvelle façon de relier les scènes par le biais d'un regroupement flou (fuzzy clustering), à différents niveaux de granularité. Le fuzzy clustering prend en compte les éléments narratifs des scènes pour créer les liens entre aux. Des liens inter et intra épisodes sont créés pour capturer la progression d'un récit tout au long de la série TV. Ensuite, les scènes les plus marquantes (MRS) sont détectées, afin de mettre en évidence les points d'inflexion de la structure narrative sur les scènes liées. Des modèles neuronaux profonds et complexes sont étudiés pour la détection des MRS à partir des caractéristiques multimodales des scènes. Enfin, un outil de visualisation et d'évaluation est proposé pour afficher les structures narratives extraites et permettre une évaluation humaine.


  • Résumé

    In the current explosions of multimedia content, there is a need to reorganize a large collection of multimedia documents. Narratives and their structure can help in this regard, particularly, in narratively long and continuous multimedia collections, such as TV series. Current TV series are composed of complex structures involving several intertwined narratives within the same episode and this continues until the last episode of the TV series. In this thesis, we focus on extracting and understanding narrative structure of TV series considering the fusion of multimodal features and narrative elements. Narratives in TV series come in small narrative units, scenes. Hence, working on scene level is the best way to extract and understand the overall narratives. In this thesis, we have proposed a novel way of extracting and understanding narrative structure via scenes linking. To do that, we have investigated scene segmentation which is based on features extracted from neural network models that take into account the visual and textual modalities of TV series. Then, a new way of scene-linking via fuzzy clustering is investigated, at different levels of granularity. The fuzzy clustering takes into consideration the narrative elements of scenes to create the links between them. Inter and intra episode links are created to capture the progression of a narrative throughout the TV series. Next, the most reportable scenes (MRS) are detected, to spotlight the turning points of the narrative structure on the linked scenes. Deep and complex neural network models are investigated for MRS detection by taking multimodal features of scenes. Finally, a visualization and evaluation tool is proposed to display extracted narratives and evaluate them according to a third-party, human intervention.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.