Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie
Auteur / Autrice : | Estelle Campione |
Direction : | Jean Véronis |
Type : | Thèse de doctorat |
Discipline(s) : | Langage et parole |
Date : | Soutenance en 2001 |
Etablissement(s) : | Aix-Marseille 1 |
Mots clés
Mots clés contrôlés
Résumé
L'objectif de cette thèse est de mettre en évidence la faisabilité de la transcription prosodique de grands corpus, à l'aide d'outils semi-automatiques destinés à (1) réduire le coût humain de la transcription, (2) lui apporter une base objective. En effet, les corpus oraux transcrits avec des indications prosodiques sont rares et dispersés alors que la prosodie semble être indispensable à l'interprétation des transcriptions d'oral. Nous proposons un codage prosodique "large" qui délimite seulement les unités majeures, dans une perspective de lisibilité et d'exploitation de grands corpus pour l'analyse des phénomènes syntaxiques et pragmatiques. Nous avons fait le choix de transcrire seulement les évènements qui correspondent à une réalité objective et qui sont par conséquent repérables par l'instrumentation tels que les proéminences mélodiques, les pauses silencieuses, les "marques de travail de formulation" (euh et allongements syllabiques). A l'aide d'un corpus de travail constitué de près de six heures de parole (lue et spontanée) dans cinq langues, nous proposons une analyse rigoureuse et systématique des différents indices et de leur interaction. Nous étudions ainsi près de 60000 mouvements mélodiques et 6000 pauses, et l'influence de facteurs tels que la langue, le sexe, le débit ou le type de parole. Enfin, nous proposons un algorithme qui prend en compte l'ensemble des contraintes et interactions pour produire en sortie un codage prosodique des corpus. Nous avons découplé de façon soigneuse d'une part la phase d'extraction d'indices, automatique ou manuelle, et d'autre part l'interprétation de ces indices à l'aide de règles et contraintes. Cette approche modulaire permet une meilleure compréhension du rôle des différents indices et un travail de mise au point plus aisé, et une certaine indépendance de la langue : les modules de bas niveau sont applicables à diverses langues, et seul le système de règles d'interprétation est spécifique à chaque langue.