Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie

Estelle Campione

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Estelle Campione
Direction :	Jean Véronis
Type :	Thèse de doctorat
Discipline(s) :	Langage et parole
Date :	Soutenance en 2001
Etablissement(s) :	Aix-Marseille 1

Mots clés

FR

Mots clés contrôlés

Intonation (linguistique)

Linguistique -- Informatique

Prosodie (linguistique)

Résumé

FR

L'objectif de cette thèse est de mettre en évidence la faisabilité de la transcription prosodique de grands corpus, à l'aide d'outils semi-automatiques destinés à (1) réduire le coût humain de la transcription, (2) lui apporter une base objective. En effet, les corpus oraux transcrits avec des indications prosodiques sont rares et dispersés alors que la prosodie semble être indispensable à l'interprétation des transcriptions d'oral. Nous proposons un codage prosodique "large" qui délimite seulement les unités majeures, dans une perspective de lisibilité et d'exploitation de grands corpus pour l'analyse des phénomènes syntaxiques et pragmatiques. Nous avons fait le choix de transcrire seulement les évènements qui correspondent à une réalité objective et qui sont par conséquent repérables par l'instrumentation tels que les proéminences mélodiques, les pauses silencieuses, les "marques de travail de formulation" (euh et allongements syllabiques). A l'aide d'un corpus de travail constitué de près de six heures de parole (lue et spontanée) dans cinq langues, nous proposons une analyse rigoureuse et systématique des différents indices et de leur interaction. Nous étudions ainsi près de 60000 mouvements mélodiques et 6000 pauses, et l'influence de facteurs tels que la langue, le sexe, le débit ou le type de parole. Enfin, nous proposons un algorithme qui prend en compte l'ensemble des contraintes et interactions pour produire en sortie un codage prosodique des corpus. Nous avons découplé de façon soigneuse d'une part la phase d'extraction d'indices, automatique ou manuelle, et d'autre part l'interprétation de ces indices à l'aide de règles et contraintes. Cette approche modulaire permet une meilleure compréhension du rôle des différents indices et un travail de mise au point plus aisé, et une certaine indépendance de la langue : les modules de bas niveau sont applicables à diverses langues, et seul le système de règles d'interprétation est spécifique à chaque langue.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses