Thèse soutenue

Modèles neuronaux pour la simplification de parole, application au sous-titrage
FR  |  
EN
Accès à la thèse
Auteur / Autrice : François Buet
Direction : François Yvon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 21/10/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Annelies Braffort
Examinateurs / Examinatrices : Benoît Favre, Christophe Cerisara, Thierry Etchegoyhen, Yannick Estève
Rapporteurs / Rapporteuses : Benoît Favre, Christophe Cerisara

Résumé

FR  |  
EN

Dans le contexte linguistique, la simplification est généralement définie comme le processus consistant à réduire la complexité d'un texte (ou de paroles), tout en préservant au mieux son sens. Son application principale est de rendre plus aisée la compréhension et la lecture pour un utilisateur. Elle est entre autres une solution envisagée pour renforcer la lisibilité des textes auprès des sourds et malentendants (la surdité étant souvent à l'origine d'un retard dans l'apprentissage de la lecture), en particulier dans le cas du sous-titrage. Alors que les sous-titres interlinguistiques servent à diffuser les films et programmes dans d'autres langues, les sous-titres intralinguistiques sont le seul moyen, avec l'interprétation en langue des signes, par lequel sourds et malentendants peuvent accéder aux contenus audio-visuels. Or la vidéo a pris une place importante dans la société, que ce soit dans le contexte professionnel, récréatif, ou de l'éducation. Afin de garantir l'égalité des individus dans la participation à la vie publique et sociale, un certain nombre de pays dans le monde (dont la France) ont mis en oeuvre des obligations légales concernant le sous-titrage des émissions télévisées. ROSETTA (RObot de Sous-titrage Et Toute Traduction Adaptés) est un projet de recherche collaboratif privé-public, qui se propose de développer des solutions technologiques d'accessibilité pour les contenus audiovisuels en français. La présente thèse, réalisée dans le cadre de ce projet, vise à étudier la simplification automatique de la parole par des modèles neuronaux, et à l'adapter au contexte du sous-titrage intralinguistique d'émissions télévisées en français. Nos travaux portent principalement sur l'analyse de méthodes de contrôle de longueur, l'adaptation de modèles de sous-titrage aux genres télévisuels, et l'évaluation de la segmentation des sous-titres. Nous présentons notamment un nouveau corpus pour le sous-titrage créé à partir de données recueillies au cours du projet ROSETTA, ainsi qu'une nouvelle métrique pour l'évaluation des sous-titres, Sigma.