Thèse soutenue

Extraction de connaissances à partir de documents textuels : traitement automatique de la coordination (connecteurs et ponctuation)

FR  |  
EN
Auteur / Autrice : Omar Larouk
Direction : Richard Bouché
Type : Thèse de doctorat
Discipline(s) : Sciences. Informatique
Date : Soutenance en 1994
Etablissement(s) : Lyon 1
Jury : Examinateurs / Examinatrices : Richard Bouché

Résumé

FR

La conception de bases de donnees (bdd) textuelles passe par la description du contenu des textes figurant dans cette base de donnees. Dans les systemes classiques booleens, cette construction se fait l'aide d'une liste de mots-cles se trouvant dans un lexique structure a priori. La consultation de la bdd se fait a l'aide des requetes composees de descripteurs. Par comparaison avec les descripteurs decrivant le contenu des documents, la recherche d'information echoue ou non. Une premiere partie aura d'abord pour objectif d'emettre des critiques sur des methodes existantes afin de preciser notre cadre general d'analyse. Elle sera suivie par une longue presentation des problemes de la coordination a travers les differentes disciplines (interrogation des bases de donnees documentaires, analyse de la requete composee, problematiques du statut du descripteur documentaire et des conjonctions de coordination). Nous ferons appel a la representation logique afin de montrer l'erreur dominante chez les logiciens et les concepteurs des systemes informatiques qui consiste a assimiler directement le coordonnant linguistique au connecteur logique. Pour marquer notre distance avec cette erreur, nous preconisons la solution logico-semantique qui montre que la coordination linguistique est porteuse d'informations oubliees par les concepteurs. Parmi les modeles choisis, nous avons surtout oriente notre critique sur ceux qui ont analyse le probleme de la coordination. Notre choix est de rejeter le modele informatique de maegaard&spang, le modele formel de chomsky, le modele linguistique de tesniere, etc qui detruisent l'information coordinative. Ceci nous permet de proposer notre calcul des images logico-semantiques (l'information cachee portee par les conjonctions de coordination) en vue d'une structuration de la chaine textuelle. Cette these a ete ecrite essentiellement dans l'optique de l'informatique orientee vers les systemes documentaires. Elle fait appel aux techniques d'extraction et de representation des connaissances. Toutefois lorsque, nous constatons l'existence de liens dans l'analyse d'un phenomene, nous essayons de montrer la proximite entre les differentes disciplines. Cette interdisciplinarite nous a permis de s'interesser a la logique mathematique, a la logique analytique, aux logiques non-classiques (combinatoire, multivalente), a la linguistique (analyse syntaxique et semantique), mais aussi a la pragmatique qui fait appel aux notions de presupposition et d'implicite. Nous proposerons une structuration des donnees textuelles basee sur les resultats issus de notre recherche ou les connecteurs symetriques seront analyses dans le cadre des logiques intensionnelle et extensionnelle alors que les connecteurs asymetriques seront analyses uniquement par la logique non-classique (logique multivaluee)