Thèse soutenue

Diffusion ciblée automatique d'informations : conception et mise en oeuvre d'une linguistique textuelle pour la caractérisation des destinataires et des documents

FR  |  
EN
Auteur / Autrice : Bénédicte Pincemin
Direction : François Rastier
Type : Thèse de doctorat
Discipline(s) : Linguistique
Date : Soutenance en 1999
Etablissement(s) : Paris 4

Résumé

FR

Le serveur DECID (diffusion électronique ciblée d'informations et de documents), sur l'intranet EDF, est utilisé pour trouver les personnes les plus concernées par un document ou les experts sur un sujet. La diffusion ciblée repose sur trois principes fondateurs : (i) l'automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d'interrogation du système (les documents sont soumis tels quels, sans passer par des mots clés), que comme moyen de caractériser des intérêts et compétences des personnes (les profils sont calculés à partir d'un corpus de textes) ; (iii) la base formée par les profils des destinataires potentiels : toutes les activités de l'organisme sont systématiquement prises en compte. Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements : (i) la matière linguistique du texte ; (ii) son organisation interne, structurée, close et orientée ; (iii) l'intertextualité ; (iv) le rôle constitutif des lectures et la dynamique de l'interprétation. Ce modèle motive des innovations à toutes les étapes du traitement. Un format de codage (dtd sgml) est construit, pour être à la fois robuste et général, mais aussi enregistrer des structurations significatives. Pour la caractérisation des textes, des unités descriptives, plus contextuelles que des mots-clés, sont définies. Elles prennent en compte la détermination du local par le global et la formation des isotopies sémantiques. Ces unités descriptives sont adaptées à la recherche en texte intégral. Une grille d'analyse est établie et appliquée à l'interprétation des formules de calcul et de mesures sur les textes. L'ergonomie web est adaptée à l'affichage de textes : vue simultanément globale et focalisée, points saillants, contextualisations multiples. Une représentation différentielle de la pertinence facilite le parcours des réponses du système et leur appropriation.