Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Pattern mining and machine learning for extracting textual information

Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles

Pierre Holat

Résumé

In natural language processing, two main approaches are used : machine learning and data mining. In this context, cross-referencing data mining methods based on patterns and statistical machine learning methods is apromising but hardly explored avenue. In this thesis, we present three major contributions: the introduction of delta-free patterns, used as statistical model features; the introduction of a semantic similarity constraint for the mining, calculated using a statistical model; and the introduction of sequential labeling rules, created from the patterns and selected by a statistical model.
En traitement automatique des langues, deux grandes approches sont utilisées : l'apprentissage automatique et la fouille de données. Dans ce contexte, croiser les méthodes de fouille de données fondées sur les motifs et les méthodes d’apprentissage automatique statistique est une voie prometteuse mais à peine explorée. Dans cette thèse, nous présentons trois contributions majeures : l'introduction des motifs delta libres,utilisés comme descripteurs de modèle statistiques; l'introduction d'une contrainte de similarité sémantique pour la fouille, calculée grâce à un modèle statistique; l'introduction des règles séquentielles d'étiquetage,crées à partir des motifs et sélectionnées par un modèle statistique.
Fichier principal
Vignette du fichier
edgalilee_th_2018_holat.pdf (2.87 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02888696 , version 1 (03-07-2020)

Identifiants

  • HAL Id : tel-02888696 , version 1

Citer

Pierre Holat. Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles. Modélisation et simulation. Université Sorbonne Paris Cité, 2018. Français. ⟨NNT : 2018USPCD045⟩. ⟨tel-02888696⟩
162 Consultations
124 Téléchargements

Partager

Gmail Facebook X LinkedIn More