Analyse syntaxique du Français Parlé Spontané à partir du Signal Audio
| Auteur / Autrice : | Adrien Pupier |
| Direction : | Benjamin Lecouteux |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique |
| Date : | Inscription en doctorat le Soutenance le 26/06/2025 |
| Etablissement(s) : | Université Grenoble Alpes |
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique de Grenoble |
| Equipe de recherche : GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips) | |
| Jury : | Président / Présidente : Didier Schwab |
| Examinateurs / Examinatrices : Benjamin Lecouteux, Claire Gardent, Grzegorz Chrupala, Alexis Nasr, Irina Illina | |
| Rapporteurs / Rapporteuses : Claire Gardent, Grzegorz Chrupala |
Mots clés
Mots clés libres
Résumé
Au cours de la dernière décennie, les méthodes de traitement de la parole et de traitement automatique du langage naturel (TAL) ont convergé grâce à l'utilisation de l'apprentissage profond. Les deux disciplines s'appuient désormais sur des modèles pré-entraînés pour accomplir des tâches de TAL telles que l'``analyse syntaxique'', la ``reconnaissance d'entités nommées'', ainsi que des tâches de parole comme la ``reconnaissance automatique de la parole'', la ``reconnaissance de locuteur'' et la ``génération de parole''. Dans ce travail, nous explorons l'intersection entre ces deux domaines de recherche à travers une tâche classique de TAL lanalyse en dépendances, appliquée au français parlé en utilisant uniquement le signal audio en entrée. Nous définissons formellement notre tâche: l'Analyse en Dépendances depuis des enregistrements audio. La parole spontanée est le mode de communication le plus courant dans la vie quotidienne et se distingue du texte écrit, soigneusement rédigé et révisé. Comme la parole spontanée est majoritairement improvisée, des phénomènes linguistiques tels que les disfluences (hésitations, pauses remplies, répétitions) y sont plus fréquents. Les auditeurs sappuient sur les informations contenues dans le signal audio pour comprendre la parole spontanée, y compris la syntaxe des énoncés spontanés. Nous formulons donc lhypothèse quun analyseur syntaxique statistique basé sur la parole est capable dexploiter les indices acoustiques. Dans cette étude, nous montrons quil est possible deffectuer lanalyse syntaxique à partir du signal audio, et que cela améliore les performances par rapport à une approche en cascade, où un modèle de reconnaissance vocale transcrit la parole spontanée avant quun modèle textuel ne soit appliqué. Nous attribuons cette amélioration aux indices acoustiques et aux limitations des modèles textuels pré-entraînés pour traiter la parole spontanée qui est hors de son domaine. Nous montrons également que différents paradigmes danalyse syntaxique offrent des performances variables selon le protocole expérimental et la modalité dentrée, révélant des défis syntaxiques communs et spécifiques à chaque modalité. Un exemple notable est que les deux paradigmes peinent à distinguer les temps verbaux dans le corpus CEFC-ORFEO, confondant souvent la voix passive au présent avec le passé composé français. Nous attribuons en partie ce problème au schéma dannotation spécifique utilisé dans ce corpus, cette confusion ne se produisant pas avec d'autres jeux de données. Nous évaluons différents encodeurs audio pré-entraînés issus de la même famille --leBenchmark-- afin danalyser limpact du jeu de données de pré-entraînement sur les performances des encodeurs audio obtenus. Nous constatons que la proportion de parole spontanée dans les données de pré-entraînement est le meilleur indicateur des performances sur la tâche danalyse en dépendances à partir de la parole spontanée. Ce facteur est même plus important que la quantité brute de données ou la taille du modèle. Ainsi, le modèle le plus performant est leBenchmark-7K-large, qui contient une plus grande proportion de parole spontanée que ses variantes de plus grande taille. Nous analysons ensuite leBenchmark-7K-large, lencodeur utilisé dans nos expériences, afin détudier comment il encode linformation syntaxique. Nos observations montrent que l'information syntaxique est représentée de manière similaire à celle des modèles textuels pré-entraînés, à une différence près : dans les modèles audio, linformation syntaxique tend à disparaître de manière plus importante dans les couches finales. Nous concluons en proposant plusieurs pistes de recherche futures, en mettant particulièrement laccent sur le défi que représente la segmentation de la parole et soutenons que lobtention de représentations de mots de haute qualité demeure le principal défi pour les tâches au niveau du mot réalisées directement à partir de laudio.