Thèse en cours

Definition and integration of new insights for improving disease surveillance systems
FR  |  
EN
Accès à la thèse
Triangle exclamation pleinLa soutenance a eu lieu le 08/12/2023. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Mehtab Alam Syed
Direction : Mathieu RocheMaguelonne Teisseire
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 08/12/2023
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes
Partenaire(s) de recherche : Laboratoire : Territoires, Environnement, Télédétection et Information Spatiale (Montpellier)
Jury : Président / Présidente : Isabelle Mougenot
Examinateurs / Examinatrices : Mathieu Roche, Antoine Doucet, Natalia Grabar, Bruno Martins
Rapporteurs / Rapporteuses : Antoine Doucet, Natalia Grabar

Résumé

FR  |  
EN

Une recrudescence des maladies infectieuses a conduit à une augmentation significative des menaces sanitaires signalées à partir de diverses sources en ligne. Les systèmes de surveillance basés sur les événements (EBS) détectent les menaces sanitaires ou les événements en utilisant des approches automatisées pour aider les parties prenantes à prendre des mesures préventives en temps opportun. Il existe un important potentiel d'amélioration dans l’extraction d'événement pour renforcer l'efficacité des EBS. Dans cette thèse, nous proposons d’améliorer l’extraction automatique de données pour les événements et fournir des informations plus précises. Et tout particulièrement, nous nous intéressons à la qualité des données, l’amélioration de la précision géographique et l’analyse de sentiment. Ce travail est soutenu par le projet MOOD qui vise à améliorer la surveillance en épidémiologie des systèmes de type EBS. Pour surveiller efficacement les maladies infectieuses à partir de sources de données en ligne, il est impératif de mettre en œuvre des mesures d'évaluation de la qualité des données afin d'obtenir des informations fiables et dignes de confiance. Dans notre travail visant à améliorer la qualité des données, nous introduisons une approche basée sur les données pour classer les articles de presse comme pertinents ou non pertinents en enrichissant le contexte épidémiologique. Nous explorons également les caractéristiques des métadonnées des actualités en appliquant une approche d'apprentissage automatique pour identifier les métadonnées importantes. De plus, nous explorons également l'amélioration des attributs de qualité de la source d'actualités en proposant l'identification de la spécialisation de la source et l'identification de la couverture géographique. Pour extraire des informations sur les événements l'exactitude géographique joue un rôle essentiel en épidémiologie. Nous proposons une approche de reconnaissance d'entités nommées (NER) basée sur des règles pour extraire les relations spatiales liées aux emplacements mentionnés dans les données textuelles, qui est évaluée à l'aide d'un ensemble d'articles de presse couvrant diverses maladies. De plus, nous présentons un algorithme pour calculer les coordonnées géographiques sous forme de polygones pour les emplacements de relations spatiales identifiées, avec des évaluations qualitatives impliquant les utilisateurs finaux. Extraire des sentiments des médias sociaux, par exemple des tweets géolocalisés offre des aperçus en temps réel pour évaluer la gravité d'un événement. Nous avons effectué une analyse de sentiment en utilisant des mesures basées sur la hiérarchie spatiale pour l'analyse des tweets (H-TFIDF) afin de comprendre les sentiments locaux pendant l'épidémie de COVID-19. Cette analyse a été évaluée sur un jeu de données liés au COVID-19 catégorisé en groupes spatiaux. De plus, diverses fonctionnalités, y compris celles basées sur le modèle de langue Bidirectional Encoder Representations from Transformers (BERT), H-TFIDF, la fréquence des termes-inverse de la fréquence du document (TF-IDF) et le sac de mots (BOW), ont été évaluées pour mesurer leur importance dans la classification des sentiments.