Thèse soutenue

Reconnaissant langue spéculative dans les textes de recherche
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Guillermo Moncecchi
Direction : Jean-Luc MinelDina Wonsever
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance en 2013
Etablissement(s) : Paris 10 en cotutelle avec Universidad de la República (Montevideo)
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre)

Mots clés

FR

Résumé

FR  |  
EN

Cette thèse présente une méthodologie pour résoudre des problèmes de classification, en particulier ceux concernant le classement séquentiel pour les tâches de traitement du langage naturel. Elle propose l'utilisation d'une méthode itérative, basée sur l'analyse des erreurs, pour améliorer la performance de classification. Ce sont des experts du domaine qui suggèrent l'intégration des connaissances spécifiques du domaine dans le processus d'apprentissage automatique. Nous avons appliqué et évalué la méthodologie dans deux tâches liées à la détection des phénomènes de « hedging » dans des textes scientifiques: celle de la détection de repères de « hedging » et celle de l’identification de la portée des repères détectés dans les phrases. Les résultats sont prometteurs: pour la première tâche, nous avons amélioré les résultats de base en 2,5 points en termes de F_mesure au moyen de l’intégration des informations de cooccurrence, tandis que pour la détection de la portée, l'incorporation des informations sur la syntaxe de la phrase nous a permis d'améliorer les performances de classification en F-mesure de 0,712 à un nombre final de 0,835. Par rapport à l'état de l'art des méthodes, les résultats sont compétitifs, ce qui suggère que l'approche de l'amélioration des classificateurs basée uniquement sur l’analyse des erreurs dans une partie du corpus dédiée seulement à cette tâche peut être utilisée avec succès dans d'autres tâches similaires. De plus, cette thèse propose un schéma de classes pour représenter des analyse des phrases dans une structure de donnés unique, y compris les résultats de divers analyses linguistiques. Cela nous permet de mieux gérer le processus itératif d'amélioration du classificateur, où des ensembles d'attributs différents pour l'apprentissage sont utilisés à chaque itération. Nous proposons également de stocker des attributs dans un modèle relationnel, plutôt que des structures traditionnelles à base de texte, pour faciliter l'analyse et la manipulation de données nécessaires pour l’apprentissage.