Thèse en cours

Nouvelles approches dans la documentation des langues créoles à base lexicale portugaise.
FR  |  
EN
Auteur / Autrice : Daphne GONçALVES TEIXEIRA
Direction : Emmanuel Schang
Type : Projet de thèse
Discipline(s) : Sciences du langage - linguistique
Date : Inscription en doctorat le 20/08/2022
Etablissement(s) : Orléans
Ecole(s) doctorale(s) : Humanités et Langues - H&L
Partenaire(s) de recherche : Laboratoire : Laboratoire ligérien de linguistique (Orléans ; Tours ; 2012-....)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les langues créoles occupent une place particulière dans la linguistique moderne et notamment les créoles portugais d'Afrique. A partir de l'analyse de ces créoles, Schuchardt (Schuchardt 1882) a mis en évidence le contact de langues comme étant l'élément majeur de l'évolution des langues. Pourtant ces créoles (le kriol et le forro notamment) restent au 21e siècle des langues… • peu documentées : quelques monographies et dictionnaires, dont (Rougé 2004; Schang 2002) pour ne citer que le LLL, mais pas de corpus librement disponibles), • peu écrites, malgré une graphie normalisée, (Araújo 2011) • et surtout peu outillées : aucune technologie de traitement automatique disponible. Les débats toujours vivaces sur la supposée 'simplicité' des langues créoles ((McWhorter 2011; Bakker et al. 2017) vs (DeGraff 2004; Mufwene 2005; Aboh 2015)) peinent à trouver une conclusion, faute de pouvoir s'ancrer dans une analyse empirique. En l'absence de corpus d'étude, le débat se cantonne dans des observations faites sur des données de seconde main ou des intuitions de locuteurs. Or des corpus sont disponibles, notamment au LLL (plus de 25 heures d'enregistrements pour le kriol de Guinée-Bissau et de Casamance ; un peu moins d'une dizaine d'heures d'enregistrement pour le forro parlé à Sao Tomé). Mais faute de transcriptions, ces données n'ont été que partiellement exploitées et diffusées jusqu'ici. Le verrou de la transcription (1h d'enregistrement demande un minimum de 40 heures de travail par un expert linguiste) est cependant en passe d'être brisé, grâce aux dernières techniques de reconnaissance automatique de la parole (ASR). Dans le cadre du projet CREAM (Documentation des langues créoles assistée par la machine, ANR 2020 porté par le LLL), de nouveaux procédés de traitement des corpus oraux ont émergé. Il s'agit de la recherche par mot-clé directement dans le signal audio (Query-by-Example, QbE) et l'alignement de segments audio parallèles, permettant l'exploitation de la langue créole et de son interprétation, en se passant de toute transcription. L'objet de cette thèse sera donc de tirer parti des avancées computationnelles permises par les projets en cours pour proposer de nouvelles investigations sur ces langues créoles à base lexicale portugaise.