Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté
Auteur / Autrice : | Stephen Mutuvi |
Direction : | Antoine Doucet, Moses Odeo |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/11/2022 |
Etablissement(s) : | La Rochelle |
Ecole(s) doctorale(s) : | École doctorale Euclide (La Rochelle ; 2018-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle) |
Jury : | Président / Présidente : Aurélie Névéol |
Examinateurs / Examinatrices : Antoine Doucet, Moses Odeo, Aurélie Névéol, Mathieu Roche, Gaël Lejeune, Jakub Piskorski, Juan-Manuel Torres-Moreno, Anne Vilnat | |
Rapporteurs / Rapporteuses : Aurélie Névéol, Mathieu Roche |
Résumé
L'extraction d'événements épidémiques a pour but d'extraire de textes des incidents d'importance pour la santé publique, tels que des épidémies. Alors que l'extraction d'événements a fait l'objet de recherches approfondies pour les langues à fortes ressources comme l'anglais, les systèmes existants d'extraction d'événements épidémiques ne sont pas optimaux pour les contextes multilingues à faibles ressources en raison de la rareté des données d'entraînement. Tout d'abord, nous nous attaquons au problème de la rareté des données en transformant et en annotant un ensemble de données multilingues existantes au niveau des documents en un ensemble de données annotées au niveau des jetons, adapté à l'apprentissage supervisé des séquences. Ensuite, nous formulons la tâche d'extraction d'événements comme une tâche d'étiquetage de séquences et nous utilisons l'ensemble de données annotées au niveau des jetons pour entraîner des modèles supervisés d'apprentissage automatique et profond pour l'extraction d'événements épidémiques. Les résultats montrent que les modèles linguistiques pré-entraînés ont produit la meilleure performance globale dans toutes les langues évaluées. Troisièmement, nous proposons une technique d'adaptation au domaine en incluant des entités épidémiologiques (noms de maladies et lieux) dans le vocabulaire des modèles pré-entraînés. L'incorporation de ces entités a eu un impact positif sur la qualité de la tokénisation, contribuant ainsi à l'amélioration des performances du modèle. Enfin, nous évaluons l'auto-formation et observons que l'approche est légèrement plus performante que les modèles formés par apprentissage supervisé.