Modèles faiblement supervisés pour la documentation automatique des langues

par Shu Okabe

Projet de thèse en Informatique

Sous la direction de François Yvon.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire Interdisciplinaire des Sciences du Numérique (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-09-2020 .


  • Résumé

    Le projet de thèse s'inscrit globalement dans la thématique de l'outillage de la linguistique de terrain. Dans un contexte où la diversité linguistique est menacée par la disparition programmée de près de la moitié des langues qui sont aujourd'hui parlées sur la terre, il devient crucial de doter les spécialistes de linguistique de terrain d'outils automatiques ou semi-automatiques pour recueillir des données linguistiques, les annoter, les enrichir et les archiver, et tenter par là de préserver une partie du patrimoine culturel de l'humanité. Ces problématiques rencontrent un intérêt croissant au sein de la communauté du traitement automatique des langues, dans le cadre de collaboration soutenues avec des équipes de linguistes. Cette thèse se déroulera ainsi dans le cadre d'une collaboration internationale impliquant des équipes de linguistes en France et en Allemagne, avec le soutien de l'Agence Nationale de la Recherche. Plus précisément, le sujet de la thèse s'intéresse à deux étapes particulières du processus de documentation linguistique: la segmentation d'énoncés oraux complexes en unités lexicales; l'annotation de ces unités lexicales avec des informations morpho-syntaxiques et sémantiques (gloses). Du point de vue méthodologique, la première tâche peut être abordée avec des outils de la modélisation statistique, tels que les modèles bayésiens non-paramétriques, dont on étudiera ici l'applicabilité dans un contexte où les données à annoter sont de petite taille, mais où il existe des ressources complémentaires potentiellement mobilisables (lexiques, éléments de description morphologique, etc). La seconde tâche s'apparente à une tâche d'alignement mot-à-mot et de traduction, et se prête à l'étude de modélisations neuronales - dont on étudiera l'applicabilité dans les mêmes conditions que précédemment: faible quantité de données; possibilité d'exploiter des ressources auxiliaires. Le développement de ces divers types de modèles statistiques sera validée sur les langues du projet au travers d'expérimentations impliquant une collaboration étroite avec des utilisateurs de ces outils.

  • Titre traduit

    Weakly supervised models for Computational Language Documentation


  • Résumé

    The thesis project is at the junction of computational linguistics and field linguistics. In a context where linguistic diversity is threatened by the disappearance of almost half of the languages spoken on earth today, it is becoming crucial to provide field linguistics specialists with automatic or semi-automatic tools to collect linguistic data, annotate, enrich and archive them, and thereby try to preserve part of the cultural heritage of humanity. These issues are of growing interest within the automatic language processing community, in the context of sustained collaboration with teams of linguists. This thesis will thus take place within the framework of an international collaboration involving teams of linguists in France and Germany, with the support of the French National Research Agency. More precisely, the subject of the thesis focuses on two particular stages of the linguistic documentation process: the segmentation of complex oral utterances into lexical units; the annotation of these lexical units with morpho-syntactic and semantic information (gloses). From a methodological point of view, the first task can be approached with statistical modelling tools, such as non-parametric Bayesian models, whose applicability will be studied here in a context where the data to be annotated are small, but where there are additional resources that can potentially be mobilised (lexicons, elements of morphological description, etc.). The second task is similar to a word alignment and translation task, and lends itself to the study of neural modelling - the applicability of which will be studied under the same conditions as above: small amount of data; possibility of using auxiliary resources. The development of these various types of statistical models will be validated in the languages of the project through experiments involving a close collaboration with users of these tools.