Thèse soutenue

Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées

FR  |  
EN
Auteur / Autrice : Alice Millour
Direction : Claude MontaciéKarën Fort
Type : Thèse de doctorat
Discipline(s) : Mathématiques, informatique et application aux sciences de l’homme
Date : Soutenance le 14/12/2020
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Concepts et langages (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Sens, texte, informatique, histoire (Paris ; 2010-....)
Jury : Président / Présidente : Iris Eshkol
Examinateurs / Examinatrices : Delyth Prys
Rapporteur / Rapporteuse : Laurent Besacier, Benoît Sagot

Résumé

FR  |  
EN

Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles.