Thèse en cours

Analyse syntaxique du Français Parlé Spontané à partir du Signal Audio

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 26/06/2025. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Adrien Pupier
Direction : Benjamin Lecouteux
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 26/06/2025
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique de Grenoble
Equipe de recherche : GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips)
Jury : Président / Présidente : Didier Schwab
Examinateurs / Examinatrices : Benjamin Lecouteux, Claire Gardent, Grzegorz Chrupala, Alexis Nasr, Irina Illina
Rapporteurs / Rapporteuses : Claire Gardent, Grzegorz Chrupala

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Au cours de la dernière décennie, les méthodes de traitement de la parole et de traitement automatique du langage naturel (TAL) ont convergé grâce à l'utilisation de l'apprentissage profond. Les deux disciplines s'appuient désormais sur des modèles pré-entraînés pour accomplir des tâches de TAL telles que l'``analyse syntaxique'', la ``reconnaissance d'entités nommées'', ainsi que des tâches de parole comme la ``reconnaissance automatique de la parole'', la ``reconnaissance de locuteur'' et la ``génération de parole''. Dans ce travail, nous explorons l'intersection entre ces deux domaines de recherche à travers une tâche classique de TAL — l’analyse en dépendances, appliquée au français parlé — en utilisant uniquement le signal audio en entrée. Nous définissons formellement notre tâche: l'Analyse en Dépendances depuis des enregistrements audio. La parole spontanée est le mode de communication le plus courant dans la vie quotidienne et se distingue du texte écrit, soigneusement rédigé et révisé. Comme la parole spontanée est majoritairement improvisée, des phénomènes linguistiques tels que les disfluences (hésitations, pauses remplies, répétitions) y sont plus fréquents. Les auditeurs s’appuient sur les informations contenues dans le signal audio pour comprendre la parole spontanée, y compris la syntaxe des énoncés spontanés. Nous formulons donc l’hypothèse qu’un analyseur syntaxique statistique basé sur la parole est capable d’exploiter les indices acoustiques. Dans cette étude, nous montrons qu’il est possible d’effectuer l’analyse syntaxique à partir du signal audio, et que cela améliore les performances par rapport à une approche en cascade, où un modèle de reconnaissance vocale transcrit la parole spontanée avant qu’un modèle textuel ne soit appliqué. Nous attribuons cette amélioration aux indices acoustiques et aux limitations des modèles textuels pré-entraînés pour traiter la parole spontanée qui est hors de son domaine. Nous montrons également que différents paradigmes d’analyse syntaxique offrent des performances variables selon le protocole expérimental et la modalité d’entrée, révélant des défis syntaxiques communs et spécifiques à chaque modalité. Un exemple notable est que les deux paradigmes peinent à distinguer les temps verbaux dans le corpus CEFC-ORFEO, confondant souvent la voix passive au présent avec le passé composé français. Nous attribuons en partie ce problème au schéma d’annotation spécifique utilisé dans ce corpus, cette confusion ne se produisant pas avec d'autres jeux de données. Nous évaluons différents encodeurs audio pré-entraînés issus de la même famille --leBenchmark-- afin d’analyser l’impact du jeu de données de pré-entraînement sur les performances des encodeurs audio obtenus. Nous constatons que la proportion de parole spontanée dans les données de pré-entraînement est le meilleur indicateur des performances sur la tâche d’analyse en dépendances à partir de la parole spontanée. Ce facteur est même plus important que la quantité brute de données ou la taille du modèle. Ainsi, le modèle le plus performant est leBenchmark-7K-large, qui contient une plus grande proportion de parole spontanée que ses variantes de plus grande taille. Nous analysons ensuite leBenchmark-7K-large, l’encodeur utilisé dans nos expériences, afin d’étudier comment il encode l’information syntaxique. Nos observations montrent que l'information syntaxique est représentée de manière similaire à celle des modèles textuels pré-entraînés, à une différence près : dans les modèles audio, l’information syntaxique tend à disparaître de manière plus importante dans les couches finales. Nous concluons en proposant plusieurs pistes de recherche futures, en mettant particulièrement l’accent sur le défi que représente la segmentation de la parole et soutenons que l’obtention de représentations de mots de haute qualité demeure le principal défi pour les tâches au niveau du mot réalisées directement à partir de l’audio.