De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical

Shereen Albitar

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Shereen Albitar
Direction :	Bernard Espinasse, Sébastien Fournier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 12/12/2013
Etablissement(s) :	Aix-Marseille
Ecole(s) doctorale(s) :	Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Jury :	Président / Présidente : Jean-Pierre Chevallet
	Examinateurs / Examinatrices : Nadine Cullot, Patrice Bellot
	Rapporteurs / Rapporteuses : Lynda Tamine-Lechani, Sylvie Calabretto

Mots clés

FR |

EN

Mots clés contrôlés

Recherche sur Internet

Sémantique

Mots clés libres

Classification supervisée de texte

Sémantique

Conceptualisation

Enrichissement sémantique

Mesures de similarité sémantique

Résumé

FR |

EN

Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses