Thèse soutenue

Documentation linguistique et standards dans le champs des humanités numériques : la TEI et la documentation du mixtèque de mixtepec

FR  |  
EN
Auteur / Autrice : Jack Bowers
Direction : Laurent Romary
Type : Thèse de doctorat
Discipline(s) : Linguistique
Date : Soutenance le 08/10/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale de l'École pratique des hautes études (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire des langues et civilisations à tradition orale (Villejuif, Val-de-Marne)
Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....)
Jury : Président / Présidente : Guillaume Jacques
Examinateurs / Examinatrices : Laurent Romary, Guillaume Jacques, Alexis Michaud, Tomaž Erjavec, Emmanuel Schang, Enrique L. Palancar, Karlheinz Moerth, Benoît Sagot
Rapporteurs / Rapporteuses : Alexis Michaud, Tomaž Erjavec

Résumé

FR  |  
EN

Cette thèse porte sur un projet de documentation linguistique concernant la langue mixtèque de mixtepec (ISO 639-3: mix). Le mixtèque de mixtepec est une langue otomangue essentiellement parlée par une population de 9000-10000 locuteurs dans les municipalités de San Juan Mixtepec dans la région Juxtlahuaca dans l’État d’Oaxaca, Mexique. Elle est aussi parlée par quelques milliers de locuteurs qui résident dans l’État de Baja Californie, Tlaxicao, et Santiago Juxtlahuaca en Mexique. Aux Etats-Unis, elle concerne également différentes populations significatives, en particulier dans les environs de Santa Maria et Oxnard en Californie ainsi que dans les États d’Oregon, Floride, et Arkansas. Les principaux objectifs de ce projet sont a) de créer une collection de ressources langagières pour la langue sous licence ouverte, et la communauté des locuteurs b) évaluer les logiciels, les standards et les procédures utilisés dans le champ de la documentation linguistique par rapport à celles du champ des humanités numériques et c) démontrer comment les directives de la TEI (Text Encoding Initiative) et les technologies liées à XML peuvent être utilisées pour l’encodage, les métadonnées, et pour l’annotation et le traitement d’une collection de ressources lexicales, dans le cas d’une langue pour laquelle peu de sources primaires sont disponibles. Concrètement, les ressources créées sont les suivantes : un dictionnaire multimédia et multilingue (mixtèque, espagnol, anglais) ; une collection d’enregistrements audio publiés et archivés publiquement et ouvertement chez Harvard Dataverse ; un corpus de textes dérivés d’une combinaison de transcriptions de la langue parlée ainsi que des textes annotés conformément aux directives de la TEI ; une description sommaire des caractéristiques linguistiques et lexicales. En raison de l’étendue des données et des ressources produites au cours de ces travaux, cette entreprise est composée d’éléments qui tombent également dans le champ des humanités numériques, de la documentation linguistique, de la linguistique descriptive, et de la linguistique de corpus. De par ces chevauchements disciplinaires et dans le respect des meilleurs pratiques disciplinaires, les travaux décrits dans cette thèse cherchent à combler les fossés entre les questions méthodologiques et techniques de ces différents champs.