Thèse soutenue

FR
Auteur / Autrice : Youakim Badr
Direction : André Flory
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2003
Etablissement(s) : Lyon, INSA
Partenaire(s) de recherche : Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône2003-....)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Jusqu'à récemment, les bases de données se sont avérées être une technologie robuste et mûre. En effet, elles n'ont cessé et ne cessent de répondre aux besoins des applications pour lesquelles elles ont été conçues. Aujourd'hui, à l'ère de XML et des documents multimédias, un grand nombre d'applications basées sur les documents commence à être identifié. Les documents sont utilisés largement du fait de leur flexibilité et de leur capacité à supporter des données de types multiples et variés tels que les images, le son, les clips vidéo et particulièrement les paragraphes de texte libre. Les documents décrivent d'une façon naturelle les activités de consommation et de production humaine. Néanmoins, dès que les documents représentent la norme dans les tâches et les activités humaines, les techniques sophistiqués développées pour les bases de données ne s'appliquent plus. C'est pour cela que le fait de coupler documents et bases de données présente un intérêt croissant dans la communauté informatique. La question qui se pose alors est : comment pouvons-nous développer une approche générique qui allie flexibilité de saisie d'informations basée sur les documents XML avec l'efficacité de manipulation de données issues de bases de données ? Dans ce mémoire, nous présentons une Approche de Couplage (Coupling Approach), permettant l'intégration de documents XML issus de texte en langage naturel, avec des bases de données Relationnelles Orientées Objets. A partir d'un schéma d'une base de données, l'Approche de Couplage produit d'abord des DTD de complexité arbitraire pour répondre aux besoins des utilisateurs et des applications. Ensuite, les utilisateurs produisent des documents XML qui contiennent les informations pertinentes conformément aux DTDs. Dans le cas de paragraphes en langage naturel balisé, l'Approche de Couplage exploite les techniques d'extraction d'informations et de manipulation des données significatives, tandis que dans le cas des informations élémentaires l'Approche de Couplage applique seulement la manipulation des données. Dans les deux cas, la manipulation restructure les données dans les documents dans un format facile à entreposer dans la base de données. L'originalité de l'Approche de Couplage est l'intégration d'informations et la simplicité de la conception des règles d'extraction. De plus, nous avons fourni des algorithmes et des formalismes indispensables pour réduire les interventions humaines et concevoir une approche générique indépendante de tout domaine d'applications. Afin de vérifier la faisabilité et l'intérêt des techniques et des idées que nous proposons, nous avons développé une architecture modulaire et nous avons implémenté un prototype que nous avons validé par son application sur un corpus de dossiers médicaux.