Annotation syntaxique dans le signal de parole.
Auteur / Autrice : | Rayan Ziane |
Direction : | Emmanuel Schang, Benjamin Lecouteux |
Type : | Projet de thèse |
Discipline(s) : | Sciences du Langage - Linguistique |
Date : | Inscription en doctorat le 01/11/2024 |
Etablissement(s) : | Orléans |
Ecole(s) doctorale(s) : | Humanités et Langues - H&L |
Partenaire(s) de recherche : | Laboratoire : LLL - Laboratoire Ligérien de Linguistique |
Mots clés
Mots clés libres
Résumé
Le projet de thèse intitulé 'Annotation syntaxique dans le signal de parole' explore le domaine des interactions sociales informelles comme environnement naturel du langage humain. Ce projet se détache de la linguistique traditionnelle basée sur le texte pour travailler directement sur des corpus audio, améliorant ainsi notre compréhension des dynamiques du langage humain (Develotte & Paveau (2017) et Voghera (2020)). Actuellement, les études sur les corpus oraux dépendent de la transcription de la parole en texte, ce qui n'est pas seulement chronophage et gourmand en ressources, mais qui omet également des caractéristiques importantes telles que la prosodie et les dysfluences, caractéristiques du langage parlé. Cette thèse cherchera à proposer une approche innovante qui utilise directement le signal audio de la parole spontanée, contournant ainsi les limitations de la transcription. La méthodologie repose sur deux axes principaux : 1. Définir des annotations syntaxiques en partant d' une unité non traditionnelle le 'groupe de souffle'. 2. Développer des algorithmes d'apprentissage automatique pour extraire ces structures à partir du signal audio, en utilisant des techniques d'apprentissage profond et d'apprentissage par transfert. Les modèles pré-entraînés sur de grands ensembles de données audio servent de base à l'apprentissage, facilitant l'application des connaissances acquises à des tâches spécifiques (Guillaume et al., 2022). Cette recherche est hébergée par le Laboratoire Ligérien de Linguistique, qui possède une expertise dans le traitement des données orales en linguistique et a accès à divers corpus, y compris les Enquêtes Socio-Linguistiques à Orléans (ESLO) et plusieurs corpus de français non standard, garantissant la faisabilité du projet. L'appui de B. Lecouteux en co-direction permettra au doctorant de maîtriser les techniques neuronales de traitement de la parole.