Programmation logique inductive pour la classification et la transformation de documents semi-structurés

Jean Decoster

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Jean Decoster
Direction :	Rémi Gilleron, Fabien Torre, Sławek Staworko
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 17/07/2014
Etablissement(s) :	Lille 1
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique fondamentale de Lille (2002-2014)

Mots clés

FR

Mots clés contrôlés

Apprentissage automatique

Subsomption

Classification automatique

XML (langage de balisage)

Arbres (théorie des graphes) -- Informatique

Mots clés libres

Programmation logique inductive

Transformation de données

Thêta-subsomption

Moindre généralisé

Résumé

FR |

EN

L’échange d’informations entre périphériques variés et sur internet soulève de nombreux problèmes par le volume et l’hétéroclisme des données échangées. La plupart de ces échanges utilisent le format XML. Afin de les faciliter, des traitements intelligents, comme la classification et la transformation automatiques, ont été développés. Le but de cette thèse est double : proposer un framework d'apprentissage pour la classification de documents XML et étudier l'apprentissage de transformations de documents XML. Le choix d’utiliser la Programmation Logique Inductive a été fait. Même si les méthodes d'apprentissage ont alors un surcoût algorithmique non négligeable (certaines opérations deviennent NP-dures), la représentation relationnelle semble adaptée aux documents XML de par son expressivité. Notre framework pour la classification fait suite à l'étude de familles de clauses pour la représentation de structures arborescentes. Il repose sur une réécriture des opérations de base de la PLI que sont la theta-subsomption et le moindre généralisé [Plotkin1971]. Nos algorithmes sont polynomiaux en temps dans la taille de leur entrée là où ceux standards sont exponentiels. Ils permettent une identification à la limite [Gold1967] de nos familles de clauses. Notre seconde contribution débute par la modélisation d’une famille de clauses dans la lignée des programmes fonctionnels [Paulson91]. Ces clauses sont une adaptation à la PLI des scripts d'édition et prennent en compte un contexte. Elles permettent la représentation de transformations de documents XML. Leurs apprentissages sont possibles grâce à deux algorithmes de type A*, approche courante en PLI (HOC-Learner [Santos2009]).

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Programmation logique inductive pour la classification et la transformation de documents semi-structurés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Programmation logique inductive pour la classification et la transformation de documents semi-structurés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses