Thèse soutenue

FR
Auteur / Autrice : Ahmed El Sayed
Direction : Djamel Abdelkader Zighed
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Lyon 2

Résumé

FR  |  
EN

Cette thèse se focalise sur deux problématiques clés liées à la fouille de texte, à savoir : la classification et l'acquisition des connaissances. En dépit de leur relative maturité, ces deux problématiques présentent encore certains défis majeurs qui doivent être soulevés. En premier lieu, pour la classification, un défi bien connu et non résolu consiste à effectuer des classifications avec un minimum de paramètres en entrée. Une façon naturelle de parvenir à cette fin, est d'utiliser les indices de validité dans le processus de classification. Bien qu'ils soient d'un grand intérêt, les indices de validité n'ont pas été largement explorés dans la littérature, en particulier lorsqu'il s'agit de données de grande dimension, comme c'est le cas des données textuelles. Ainsi, concernant ce volet, nous proposons trois principales contributions : (1) une large étude expérimentale comparant huit indices de validité, (2) une méthode basée sur le contexte améliorant l'utilisation des indices de validité en tant que critère d'arrêt, (3) I-CBC, une version incrémentale de l'algorithme flou CBC (classification par comités). Ces contributions ont été validées sur deux applications du monde réel : la classification de documents et de mots. En deuxième lieu, pour l’acquisition des connaissances, nous nous sommes intéressés à des problématiques importantes liées à la construction d’ontologies à partir de texte : le faible rappel des approches basées sur les patrons, la faible précision de l’approche distributionnelle, la dépendance au contexte et l’évolution des ontologies. Nous proposons ainsi, un nouveau cadre pour l’apprentissage d’ontologies à partir du texte. Notre proposition est une approche hybride qui combine les avantages suivants par rapport aux autres approches : (1) la capacité de capturer avec plus de flexibilité des relations dans le texte, (2) des concepts qui traduisent mieux le contexte du corpus considéré, (3) des décisions plus fiables prises durant le processus d’apprentissage à travers la considération et l’inclusion de plusieurs relations sémantiques, et, enfin, (4) l’évolution de l’ontologie apprise sans aucun effort manuel considérable, après son inclusion au coeurd’un système de recherche d’information.