Extraction des r?gles d'association dans des bases de connaissances

par Luis Galarraga Del Prado

Thèse de doctorat en Informatique et r?seaux

Sous la direction de Fabian Suchanek.

Le président du jury était Marie-Christine Rousset.

Le jury était composé de Stefano Ceri, Steffen Staab, Fabien Gandon, St?phan Cl?men?on, Joachim Niehren.

Les rapporteurs étaient Stefano Ceri, Steffen Staab, Tom M. Mitchell.


  • Résumé

    Le d?veloppement rapide des techniques d?extraction d?information a permis de construire de vastes bases de connaissances g?n?ralistes. Ces bases de connaissances contiennent des millions de faits portant sur des entit?s du monde r?el, comme des personnes, des lieux, ou des organisations. Ces faits sont accessibles aux ordinateurs, et leur permettent ainsi de ?comprendre? le monde r?el. Ces bases trouvent donc de nombreuses applications, notamment pour la recherche d?information, le traitement de requ?tes, et le raisonnement automatique. Les nombreuses informations contenues dans les bases de connaissances peuvent ?galement ?tre utilis?es pour d?couvrir des motifs int?ressants et fr?quents dans les donn?es. Cette t?che, l?extraction de r?gles d?association, permet de comprendre la structure des donn?es ; les r?gles ainsi obtenues peuvent ?tre employ?es pour l?analyse de donn?es, la pr?diction, et la maintenance de donn?es, entre autres applications. Cette th?se pr?sente deux contributions principales. En premier lieu, nous proposons une nouvelle m?thode pour l?extraction de r?gles d?association dans les bases de connaissances. Cette m?thode s?appuie sur un mod?le d?extraction qui convient particuli?rement aux bases de connaissances potentiellement incompl?tes, comme celles qui sont extraites ? partir des donn?es du Web. En second lieu, nous montrons que l?extraction de r?gles peut ?tre utilis?e sur les bases de connaissances pour effectuer de nombreuses t?ches orient?es vers les donn?es. Nous ?tudions notamment la pr?diction de faits, l?alignement de sch?mas, la mise en forme canonique de bases de connaissances ouvertes, et la pr?diction d?annotations de compl?tude.

  • Titre traduit

    Rule mining in knowledge bases


  • Résumé

    The continuous progress of information extraction (IE) techniques has led to the construction of large general-purpose knowledge bases (KBs). These KBs contain millions of computer-readable facts about real-world entities such as people, organizations and places. KBs are important nowadays because they allow computers to ?understand? the real world. They are used in multiple applications in Information Retrieval, Query Answering and Automatic Reasoning, among other fields. Furthermore, the plethora of information available in today?s KBs allows for the discovery of frequent patterns in the data, a task known as rule mining. Such patterns or rules convey useful insights about the data. These rules can be used in several applications ranging from data analytics and prediction to data maintenance tasks. The contribution of this thesis is twofold : First, it proposes a method to mine rules on KBs. The method relies on a mining model tailored for potentially incomplete webextracted KBs. Second, the thesis shows the applicability of rule mining in several data-oriented tasks in KBs, namely facts prediction, schema alignment, canonicalization of (open) KBs and prediction of completeness.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.