Extraction et catégorisation de l'information temporelle de textes scientifiques
Auteur / Autrice : | Salah Yahiaoui |
Direction : | Iana Atanassova |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du Langage. Traitement Automatique des Langues |
Date : | Soutenance le 08/12/2023 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....) |
Partenaire(s) de recherche : | établissement de préparation : Université de Franche-Comté (1971-2024) |
Laboratoire : Centre de recherches interdisciplinaires et transculturelles (Besançon) | |
Jury : | Président / Présidente : Mohamed Hassoun |
Examinateurs / Examinatrices : Sylviane Cardey-Greenfield, Marc Bertin | |
Rapporteurs / Rapporteuses : Cyril Labbé, Guillaume Cabanac |
Résumé
Cette thèse aborde la problématique du traitement de corpus scientifiques, d’un point de vue linguistique, afin d’en extraire, catégoriser et agréger les informations spatio-temporelles pour produire de nouvelles représentations de l’information textuelle. Dans un premier temps, nous proposons le schéma d'annotation TimeInfo, qui permet de rendre compte de la sémantique des différentes expressions temporelles dans les textes scientifiques. Nous montrons l'apport de TimeInfo par rapport aux schémas d'annotation existants, notamment TimeML. Dans un deuxième temps, nous construisons des ensembles de règles linguistiques pour l'annotation automatique des corpus scientifiques avec TimeInfo. Nous traitons le corpus CORD-19 et produisons un nouveau corpus annoté, TimeTank. Enfin, nous proposons des applications autour de TimeInfo et abordons la problématique des informations spatiales, par une expérimentation sur leur annotation et cartographie.