Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

Jean-Charles Risch

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Jean-Charles Risch
Direction :	Francis Rousseaux, Eddie Soulier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 27/06/2017
Etablissement(s) :	Reims
Ecole(s) doctorale(s) :	Ecole doctorale Sciences, technologies, santé (Reims, Marne)
Partenaire(s) de recherche :	Laboratoire : Centre de Recherche en Sciences et Technologies de l'Information et de la Communication (CRESTIC) EA 3804 (Reims, Marne)
Jury :	Président / Présidente : Arnaud Martin
	Examinateurs / Examinatrices : Francis Rousseaux, Eddie Soulier, Colette Faucher, Hacène Fouchal
	Rapporteurs / Rapporteuses : Gilles Kassel

Mots clés

FR |

EN

Mots clés contrôlés

Data visualisation

Apprentissage automatique

Intelligence artificielle

Mots clés libres

Classification de Textes

Intelligence Artificielle

Mégadonnées

Apprentissage Automatique

Visualisation de Données

Résumé

FR |

EN

La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Enrichissement des Modèles de Classification de Textes Représentés par des Concepts

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses