Enrichissement des Modèles de Classification de Textes Représentés par des Concepts
Auteur / Autrice : | Jean-Charles Risch |
Direction : | Francis Rousseaux, Eddie Soulier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/06/2017 |
Etablissement(s) : | Reims |
Ecole(s) doctorale(s) : | Ecole doctorale Sciences, technologies, santé (Reims, Marne) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Sciences et Technologies de l'Information et de la Communication (CRESTIC) EA 3804 (Reims, Marne) |
Jury : | Président / Présidente : Arnaud Martin |
Examinateurs / Examinatrices : Francis Rousseaux, Eddie Soulier, Colette Faucher, Hacène Fouchal | |
Rapporteurs / Rapporteuses : Gilles Kassel |
Mots clés
Résumé
La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie.