Thèse soutenue

Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

FR  |  
EN
Auteur / Autrice : Jean-Charles Risch
Direction : Francis RousseauxEddie Soulier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/06/2017
Etablissement(s) : Reims
Ecole(s) doctorale(s) : Ecole doctorale Sciences, technologies, santé (Reims, Marne)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Sciences et Technologies de l'Information et de la Communication (CRESTIC) EA 3804 (Reims, Marne)
Jury : Président / Présidente : Arnaud Martin
Examinateurs / Examinatrices : Francis Rousseaux, Eddie Soulier, Colette Faucher, Hacène Fouchal
Rapporteurs / Rapporteuses : Gilles Kassel

Résumé

FR  |  
EN

La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie.