Modèles faiblement supervisés pour la documentation automatique des langues

Shu Okabe

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles faiblement supervisés pour la documentation automatique des langues

FR |

EN

Auteur / Autrice :	Shu Okabe
Direction :	François Yvon
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 19/12/2023
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
	Référent : Faculté des sciences d'Orsay
	graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury :	Président / Présidente : Agata Savary
	Examinateurs / Examinatrices : Claire Gardent, Alexis Nasr, François Pellegrino, Roland Kuhn
	Rapporteur / Rapporteuse : Claire Gardent, Alexis Nasr

Mots clés

FR |

EN

Mots clés contrôlés

Langues menacées

Statistique bayésienne non paramétrique

Segmentation (linguistique)

Traitement automatique du langage naturel

Mots clés libres

Documentation automatique des langues

Segmentation en mots

Modèle bayésien non paramétrique

Génération de gloses interlinéaires

Supervision faible

Linguistique de terrain

Résumé

FR |

EN

Face à la menace d'extinction de la moitié des langues parlées aujourd'hui d'ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage.Dans le cadre du projet de documentation automatique CLD2025, cette thèse s'intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d'une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes. Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes.La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d'entraînement, notre modèle statistique d'étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles faiblement supervisés pour la documentation automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles faiblement supervisés pour la documentation automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses