Thèse soutenue

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

FR  |  
EN
Auteur / Autrice : Stephen Mutuvi
Direction : Antoine DoucetMoses Odeo
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 21/11/2022
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Aurélie Névéol
Examinateurs / Examinatrices : Antoine Doucet, Moses Odeo, Aurélie Névéol, Mathieu Roche, Gaël Lejeune, Jakub Piskorski, Juan-Manuel Torres-Moreno, Anne Vilnat
Rapporteurs / Rapporteuses : Aurélie Névéol, Mathieu Roche

Résumé

FR  |  
EN

L'extraction d'événements épidémiques a pour but d'extraire de textes des incidents d'importance pour la santé publique, tels que des épidémies. Alors que l'extraction d'événements a fait l'objet de recherches approfondies pour les langues à fortes ressources comme l'anglais, les systèmes existants d'extraction d'événements épidémiques ne sont pas optimaux pour les contextes multilingues à faibles ressources en raison de la rareté des données d'entraînement. Tout d'abord, nous nous attaquons au problème de la rareté des données en transformant et en annotant un ensemble de données multilingues existantes au niveau des documents en un ensemble de données annotées au niveau des jetons, adapté à l'apprentissage supervisé des séquences. Ensuite, nous formulons la tâche d'extraction d'événements comme une tâche d'étiquetage de séquences et nous utilisons l'ensemble de données annotées au niveau des jetons pour entraîner des modèles supervisés d'apprentissage automatique et profond pour l'extraction d'événements épidémiques. Les résultats montrent que les modèles linguistiques pré-entraînés ont produit la meilleure performance globale dans toutes les langues évaluées. Troisièmement, nous proposons une technique d'adaptation au domaine en incluant des entités épidémiologiques (noms de maladies et lieux) dans le vocabulaire des modèles pré-entraînés. L'incorporation de ces entités a eu un impact positif sur la qualité de la tokénisation, contribuant ainsi à l'amélioration des performances du modèle. Enfin, nous évaluons l'auto-formation et observons que l'approche est légèrement plus performante que les modèles formés par apprentissage supervisé.