Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes

par Pierre-Antoine Jean

Thèse de doctorat en Informatique

Sous la direction de Jacky Montmain et de Patrice Bellot.

Soutenue le 23-11-2017

à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec Laboratoire de Génie Informatique et Ingénierie de Production / LGI2P (laboratoire) .


  • Résumé

    Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/.

  • Titre traduit

    Uncertainty and imprecision management in a knowledge extraction process from unstructured texts


  • Résumé

    Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.