Thèse soutenue

Adaptation de la reconnaissance d'entités nommées au domaine de la santé des plantes

FR  |  
EN
Auteur / Autrice : Mariya Borovikova
Direction : Claire NedellecMathieu RocheArnaud FerréRobert Bossy
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Mathématiques et Informatique Appliquées  du Génome à l'Environnement (Jouy-en-Josas, Yvelines) - Territoires, Environnement, Télédétection et Information Spatiale (Montpellier)
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury : Président / Présidente : Aurélie Névéol
Examinateurs / Examinatrices : Gaël Dias, Laure Soulier, Thierry Charnois, Adrien Coulet
Rapporteurs / Rapporteuses : Gaël Dias, Laure Soulier
DOI : 10.70675/aa08ea7az594ez48adz814bz17ff1279b349

Résumé

FR  |  
EN

La complexité croissante des écosystèmes agricoles et le La complexité croissante des écosystèmes agricoles et le besoin urgent de surveillance efficace de la santé des plantes rendent nécessaires des solutions technologiques avancées pour traiter les données textuelles. Située dans le cadre du projet BEYOND, cette thèse répond à ces besoins en améliorant les systèmes de reconnaissance d'entités nommées (REN) adaptés au domaine de la santé des plantes. Reconnaissant les limites des approches traditionnelles, cette recherche intègre des stratégies d'adaptation au domaine.La principale contribution de cette thèse réside dans le développement et l'affinement de méthodes destinées à améliorer l'adaptabilité des systèmes REN dans la reconnaissance d'informations liées à la santé des plantes, telles que les maladies végétales, les organismes nuisibles, les plantes et les lieux. En exploitant des techniques avancées d'apprentissage automatique, la thèse montre comment les systèmes REN peuvent être appliqués à la surveillance de la santé des plantes sans nécessiter d'adaptation explicite.Sur le plan méthodologique, la thèse adopte une approche double. D'une part, elle ajuste les modèles de langue grâce au masquage de mots-clés, focalisant le processus d'apprentissage sur le vocabulaire spécifique au domaine pour capturer les particularités linguistiques de la santé des plantes. D'autre part, elle améliore la reconnaissance des entités nommées grâce à l'intégration de représentations sémantiques obtenues à partir de descriptions textuelles des types d'entités. Cette méthode permet à l'algorithme de reconnaître des types d'entités non rencontrés durant l'apprentissage et de s'adapter facilement à de nouvelles applications. Cette méthodologie est ensuite appliquée aux données sur la santé des plantes, combinant les deux approches.Cette recherche contribue à l'avancement théorique dans le domaine de la REN et présente des implications pratiques, fournissant des outils susceptibles de conduire à une prise de décision plus informée face aux menaces phytosanitaires. Les orientations futures de ce travail incluent l'affinement des approches basées sur les lexiques, l'intégration de données multimodales et l'amélioration des définitions d'entités pour perfectionner davantage la précision et l'applicabilité des systèmes REN dans des domaines spécialisés tels que la santé des plantes.