Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles

par Pierre Holat

Thèse de doctorat en Informatique

Sous la direction de Thierry Charnois.

Soutenue le 05-10-2018

à Sorbonne Paris Cité , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) , en partenariat avec Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis) (laboratoire) et de Université Paris 13 (Etablissement de préparation) .

Le président du jury était Bruno Crémilleux.

Le jury était composé de Henry Soldano, Nadi Tomeh.

Les rapporteurs étaient Maguelonne Teisseire, François Jacquenet.


  • Résumé

    En traitement automatique des langues, deux grandes approches sont utilisées : l'apprentissage automatique et la fouille de données. Dans ce contexte, croiser les méthodes de fouille de données fondées sur les motifs et les méthodes d’apprentissage automatique statistique est une voie prometteuse mais à peine explorée. Dans cette thèse, nous présentons trois contributions majeures : l'introduction des motifs delta libres,utilisés comme descripteurs de modèle statistiques; l'introduction d'une contrainte de similarité sémantique pour la fouille, calculée grâce à un modèle statistique; l'introduction des règles séquentielles d'étiquetage,crées à partir des motifs et sélectionnées par un modèle statistique.

  • Titre traduit

    Pattern mining and machine learning for extracting textual information


  • Résumé

    In natural language processing, two main approaches are used : machine learning and data mining. In this context, cross-referencing data mining methods based on patterns and statistical machine learning methods is apromising but hardly explored avenue. In this thesis, we present three major contributions: the introduction of delta-free patterns, used as statistical model features; the introduction of a semantic similarity constraint for the mining, calculated using a statistical model; and the introduction of sequential labeling rules, created from the patterns and selected by a statistical model.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.