Structure informationnelle en parole spontanée : modélisation prosodique et classification des unités informationnelles courtes

par Saulo Mendes santos

Projet de thèse en Informatique

Sous la direction de Albert Rilliard et de Tommaso Raso.

Thèses en préparation à université Paris-Saclay en cotutelle avec l'Université fédérale de Minas Gerais , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-11-2020 .


  • Résumé

    Ce projet de thèse porte sur la modélisation des variations acoustico-prosodique des unités informationnelles courtes de la parole spontanée pour permettre leur classification en grandes catégories sémantiques reliées à leur utilisation pragmatique. Le travail se fonde sur la Théorie du langage en action (Language into Act Theory, désormais L-AcT, Cresti 2000 ; Moneglia & Raso, 2014 ; Cavalcante 2016, 2020), pour laquelle les fonctions informationnelles – y compris illocutoires – des interactions parlées spontanées sont essentiellement orientées par la prosodie. La parole est segmentée en unités intonatives encapsulant un certain nombre de mots dans la même enveloppe prosodique. Cela établit un contraste entre les mots des différentes enveloppes prosodiques : la segmentation guide ainsi un découpage fonctionnel du discours (Barth-Weingarten, 2016 ; Barbosa & Raso, 2018 ; Izre'el et al., à paraître-a ; Izre'el et al., à paraître-b). La L-AcT propose qu'il existe une relation isomorphe entre l'unité intonative et l'unité informationnelle : chaque unité intonative composant l'énoncé acquiert une valeur informationnelle, à l'exception des unités de scansion, produites volontairement (pour relever un point) ou involontairement (problèmes de performance). La compositionnalité syntaxique est une propriété des unités informationnelles, qui établissent des relations fonctionnelles guidées par les contours intonatifs, sans que la compositionnalité syntaxique y joue un rôle nécessaire (Cresti 2014). Dans le flux discursif, on distingue les frontières prosodiques à valeur terminale ou non-terminale, qui peuvent être détectées automatiquement de bons niveaux de rappel et de précision, sur la base de leurs corrélats prosodiques (Teixeira, 2018 ; Teixeira, Barbosa & Raso, 2018 ; Raso, Teixeira & Barbosa, à paraître). Les frontières terminales marquent la fin d'une séquence composée d'unités intonatives non-terminales, marquées par les frontières non-terminales et délimitant les unités informationnelles. Cette thèse traite de l'analyse des unités informationnelles courtes, c'est-à-dire celles réalisées sur un seul mot phonologique et encapsulées dans une unité intonative (précédées ou suivies d'au moins une frontière prosodique non-terminale). Les unités courtes peuvent théoriquement avoir pour fonction toutes les valeurs informationnelles, couvrant tous les marqueurs discursifs ainsi que la plupart des unités textuelles : ceci permettra l'observation d'une large gamme de fonctions informationnelles. En appliquant le processus de classification à ces seules unités courtes, on évite les variations prosodiques dues à d'autres niveaux linguistiques (hiérarchisation, etc.). De plus, les mots et expressions apparaissant sur les unités courtes sont souvent fréquents dans les corpus oraux, ce qui permet de baser les analyses sur de plus grandes quantités de données. Les données seront extraites des corpus C-ORAL en portugais brésilien, italien et anglais américain (Cresti & Moneglia, 2005 ; Raso & Mello, 2012 ; Cavalcante & Ramos, 2016), avec une possible application au français (le corpus existe mais doit être resegmenté et informationnellement annoté). Ces corpus sont segmentés prosodiquement et informationnellement, conformément aux prémisses de la L-AcT. Des méthodes de TAL ont déjà été appliquées pour l'analyse de différentes unités informationnelles, notamment dans ce cadre théorique (Raso & Vieira, 2016 ; Moneglia & Cresti, 2018 ; Gobbo, 2019 ; Cavalcante, 2020), et ont démontré la faisabilité de cette tâche. Il s'agira de caractériser les différentes structures prosodiques observées sur les unités cibles, dans la cadre d'une analyse acoustico-prosodique qui aura pour but une discrétisation des formes et une estimation des meilleurs moyens de représentation de celle-ci (les niveaux phonétique et phonologique proposant des formats de descriptions variables). Sur la base de ces descriptions d'unités prosodiques, un processus d'apprentissage devra modéliser les liens entre formes prosodiques et fonctions linguistiques des unités cibles. Ces deux processus auront pour but de tester le rôle joué par la prosodie dans l'attribution du signifié informationnel en parole spontanée, et aussi la similarité inter-linguistique des formes signifiantes, si leur usage leur distribution et leur fréquence peuvent varier d'une langue à l'autre.

  • Titre traduit

    Informational structure in spontaneous speech: prosodic modelling and classification of short informational units


  • Résumé

    This project aims modelling the acoustic-prosodic variations of short informational units in spontaneous speech, so to allow their classification in large semantic categories linked to their pragmatic use. The approach is based on the Language into Act theory (henceforth L-AcT: Cresti 2000 ; Moneglia & Raso, 2014 ; Cavalcante 2016, 2020), in which the informational functions (inclusive illocutionary ones) of spontaneous speech interactions are essentially organized by prosody. Speech is segmented into intonation units encapsulating sets of words into the same prosodic envelope. This creates a contrast between the words of different prosodic envelopes: segmentation thus leads to a functional organization of speech (Barth-Weingarten, 2016; Barbosa & Raso, 2018; Izre'el et al., forthcoming-a; Izre'el et al., forthcoming-b). The L-AcT proposes that there is an isomorphic relationship between intonation unit and informational unit: each intonation unit composing the utterance acquires informational value, with the exception of scanning units, produced voluntarily (to underline a point) or involuntarily (performance problems). Syntactic compositionality is a property of informational units, which establish functional relationships guided by intonation contours, without syntactic compositionality playing a necessary role in this (Cresti 2014). In the discourse flow, we distinguish between prosodic borders with terminal or non-terminal value, which can be automatically detected with good levels of recall and precision, based on their prosodic correlates (Teixeira, 2018; Teixeira, Barbosa & Raso, 2018; Raso, Teixeira & Barbosa, forthcoming). The terminal boundaries mark the end of a sequence composed of intonative non-terminal units, marked by the non-terminal boundaries and delineating the informational units. This thesis deals with the analysis of short informational units, i.e. those performed on a single phonological word and encapsulated in an intonative unit (preceded or followed by at least one non-terminal prosodic boundary). Short units can theoretically have as a function all informational values, covering all discourse markers as well as most textual units: this will allow the observation of a wide range of informational functions. By applying the classification process to these short units alone, prosodic variations due to other linguistic levels (hierarchical, etc.) are avoided. Moreover, words and expressions appearing on short units are often frequent in oral corpora, which allows analyses to be based on larger amounts of data. Data will be extracted from C-ORAL corpora in Brazilian Portuguese, Italian and American English (Cresti & Moneglia, 2005; Raso & Mello, 2012; Cavalcante & Ramos, 2016), with a possible application to French (the corpus exists but needs to be resegmented and informationally annotated). These corpora are prosodically and informationally segmented, in accordance with the premises of the L-AcT. L-AcT methods have already been applied for the analysis of different informational units, notably in this theoretical framework (Raso & Vieira, 2016; Moneglia & Cresti, 2018; Gobbo, 2019; Cavalcante, 2020), and have demonstrated the feasibility of this task. The project aims at characterizing the different prosodic structures observed on the target units, in the framework of an acoustical-prosodic analysis, which will aim at a clustering of prosodic shapes and an estimation of the best means of prosodic representation (the phonetic and phonological levels proposing variable description formats). On the basis of these descriptions of prosodic units, a learning process will have to model the links between prosodic forms and linguistic functions of the targeted units. These two processes will aim at testing the role played by prosody in the attribution of informational meaning for spontaneous speech, and also at evaluating the cross-linguistic similarity of signifier shapes, and if their use, distribution and frequency can vary from one language to another.