Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées
Auteur / Autrice : | Alice Millour |
Direction : | Claude Montacié, Karën Fort |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques, informatique et application aux sciences de l’homme |
Date : | Soutenance le 14/12/2020 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Concepts et langages (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Sens, texte, informatique, histoire (Paris ; 2010-....) |
Jury : | Président / Présidente : Iris Eshkol |
Examinateurs / Examinatrices : Delyth Prys | |
Rapporteur / Rapporteuse : Laurent Besacier, Benoît Sagot |
Mots clés
Résumé
Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles.