Epidemic Event Extraction in Multilingual and Low-resource Settings

Stephen Mutuvi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

FR |

EN

Auteur / Autrice :	Stephen Mutuvi
Direction :	Antoine Doucet, Moses Odeo
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 21/11/2022
Etablissement(s) :	La Rochelle
Ecole(s) doctorale(s) :	École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury :	Président / Présidente : Aurélie Névéol
	Examinateurs / Examinatrices : Antoine Doucet, Moses Odeo, Aurélie Névéol, Mathieu Roche, Gaël Lejeune, Jakub Piskorski, Juan-Manuel Torres-Moreno, Anne Vilnat
	Rapporteurs / Rapporteuses : Aurélie Névéol, Mathieu Roche

Mots clés

FR |

EN

Mots clés contrôlés

Épidémies

Multilinguisme

Exploration de données

Apprentissage automatique

Apprentissage profond

Mots clés libres

Extraction des événements épidémiques

Multilinguisme

Langues peu dotées

Manque de donnees annotées

Apprentissage automatique

Apprentissage profond

Résumé

FR |

EN

L'extraction d'événements épidémiques a pour but d'extraire de textes des incidents d'importance pour la santé publique, tels que des épidémies. Alors que l'extraction d'événements a fait l'objet de recherches approfondies pour les langues à fortes ressources comme l'anglais, les systèmes existants d'extraction d'événements épidémiques ne sont pas optimaux pour les contextes multilingues à faibles ressources en raison de la rareté des données d'entraînement. Tout d'abord, nous nous attaquons au problème de la rareté des données en transformant et en annotant un ensemble de données multilingues existantes au niveau des documents en un ensemble de données annotées au niveau des jetons, adapté à l'apprentissage supervisé des séquences. Ensuite, nous formulons la tâche d'extraction d'événements comme une tâche d'étiquetage de séquences et nous utilisons l'ensemble de données annotées au niveau des jetons pour entraîner des modèles supervisés d'apprentissage automatique et profond pour l'extraction d'événements épidémiques. Les résultats montrent que les modèles linguistiques pré-entraînés ont produit la meilleure performance globale dans toutes les langues évaluées. Troisièmement, nous proposons une technique d'adaptation au domaine en incluant des entités épidémiologiques (noms de maladies et lieux) dans le vocabulaire des modèles pré-entraînés. L'incorporation de ces entités a eu un impact positif sur la qualité de la tokénisation, contribuant ainsi à l'amélioration des performances du modèle. Enfin, nous évaluons l'auto-formation et observons que l'approche est légèrement plus performante que les modèles formés par apprentissage supervisé.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses