Thèse soutenue

Compréhensibilité de contenus audiovisuels : quelles approches pour une mesure objective ?

FR  |  
EN
Auteur / Autrice : Estelle Randria
Direction : Julien PinquierIsabelle FerranéLionel Fontan
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 17/10/2022
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Examinateurs / Examinatrices : Julien Pinquier, Isabelle Ferrané, Lionel Fontan, Sylvain Detey
Rapporteurs / Rapporteuses : Martine Adda-Decker, Freiderikos Valetopoulos

Résumé

FR  |  
EN

L’enseignement des langues étrangères nécessite souvent l’utilisation de documents audiovisuels, cependant les tâches de sélection et de didactisation de ces documents peuvent s’avérer lourdes et de ce fait restreindre le nombre de documents exploités par les professeurs de langues étrangères. Cette thèse est une collaboration entre la société Archean Labs et l’Institut de Recherche Informatique de Toulouse (IRIT). L’objectif est de permettre aux professeurs de Français Langue Etrangère (FLE) de cibler des documents pour lesquels un niveau de compréhensibilité a été préétabli automatiquement. Cette thèse porte sur la recherche d’une mesure objective du niveau de compréhensibilité de contenus audiovisuels. Dans un premier temps, nous nous intéressons aux phénomènes reconnus comme influençant la compréhensibilité d'un document. Pour cela nous avons considéré deux points de vue complémentaires : celui de la didactique des langues étrangères et celui du traitement automatique. Nous avons constaté qu’il n’existait pas de ressources qui permettraient d’étudier la compréhensibilité de contenu audiovisuel et de définir une mesure permettant une évaluation du niveau associé. Nous avons constitué un corpus qui rassemble un ensemble d’extraits issus de documents de fiction, décomposés pour une analyse fine en modalité (image, audio et texte). Soumis à un ensemble d’experts, notre corpus ESCAL (Évaluation Subjective de la Compréhensibilité pour l’Apprentissage des Langues) s’accompagne d’annotations qui ont été réalisées manuellement à différents niveaux (lexical, syntaxique, acoustique) avec un focus sur le niveau de compréhensibilité. Il a ainsi permis d’étudier et de comparer différentes approches pour la prédiction d’une mesure objective du niveau de compréhensibilité de contenus audiovisuels. La première est dite interprétable : nous cherchons à expliciter les facteurs qui sont entrés en jeu dans la prédiction. Dans cette approche, les modèles sont construits à partir de paramètres qui sont extraits directement du signal audio, vidéo et de la transcription exacte du document. La seconde approche est désignée comme neuronale : nous alimentons des modèles de régression avec des représentations issues de réseaux de neurones profonds pré-entraînés sur chaque modalité (audio, vidéo et texte). La corrélation entre la vérité terrain et les scores prédits montre que l’approche interprétable permet d’obtenir le meilleur modèle de prédiction du niveau de compréhensibilité.A des fins de portabilité, notre système a été validé sur un nouveau jeu de données. Concernant le niveau de compréhensibilité, les résultats automatiques obtenus sont cohérents avec les annotations manuelles réalisées par des experts. Les travaux présentés dans ce manuscrit vont permettre de poser les bases d’une application destinée aux enseignants de langues étrangères : elle aura pour objectif d’aider à la didactisation de contenus audiovisuels.