Thèse soutenue

Interactions entre locuteurs : de la détection de la parole superposée à la détection des interruptions

FR  |  
EN
Auteur / Autrice : Martin Lebourdais
Direction : Sylvain MeignierMarie TahonAntoine Laurent
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/10/2023
Etablissement(s) : Le Mans
Ecole(s) doctorale(s) : École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Mans / LIUM
Jury : Président / Présidente : Slim Essid
Examinateurs / Examinatrices : Martine Adda-Decker, Hervé Bredin
Rapporteurs / Rapporteuses : Romain Serizel, Ricard Marxer

Résumé

FR  |  
EN

Le projet ANR GEM, à l'initiative de l'institut national de l'audiovisuel, vise à étudier les différences de traitement et dereprésentation entre les femmes et les hommes dans les médias. Ce projet encourage la collaboration entre la recherchemenée en sciences des médias et du langage et celle menée en informatique. Un des objectifs du projet est de favoriser lacréation d’outils automatiques afin de généraliser et favoriser les études SHS sur de larges corpus.Dans cette thèse, nous nous focaliserons sur des outils de traitement du signal qui faciliteront la caractérisation desreprésentations des locuteurs. Plus précisément, nous proposons des méthodes pour détecter et caractériser automatiquementles interruptions au cours d'une conversation issue d’émissions de débats télévisuels.L'interruption est une notion subjective, dont la définition n’est pas consensuelle. Dans notre domaine du traitementautomatique, cette tâche est nouvelle, sans cadre et avec peu de ressources. Nous proposons, dans un premier temps, deréduire la définition des interruptions au cas particulier de la parole superposée conformément à la littérature en sociologie eten sciences du langage. Un outil de détection de la présence d’activité vocale mono et multi-locuteur a été développé dans cecontexte. Le développement d’un tel outil pose la question au-delà d'une évaluation quantitative. À partir des segmentsmulti-locuteurs, plusieurs études ont été réalisées portant sur leur durée ainsi que sur leur contenu linguistique.Dans un second temps, nous nous sommes intéressés spécifiquement à la détection des interruptions. L’apprentissage demodèles neuronaux dédiés a nécessité la collecte et l’annotation d’un corpus. En guidant les annotateurs, nous avons abouti àune définition de l'interruption par l’exemple. La création d'un tel corpus a permis de développer un modèle de classificationbinaire d'interruption pour qualifier les segments multi-locuteurs précédemment détectés.