Thèse soutenue

Catégorisation, usage et extraction de classes

FR  |  
EN
Auteur / Autrice : Nicolas Gagean
Direction : François Rousselot
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance en 2005
Etablissement(s) : Université Marc Bloch (Strasbourg) (1971-2008)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Dans le domaine du Traitement Automatique du Langage, plusieurs études ont été menées afin de regrouper des termes sémantiquement proches. Le problème linguistique sous-jacent est celui de la catégorisation. Nous montrons ce que la méthode distributionnelle et la justification inspirée par la sémiotique peuvent apporter à ce sujet. Nous avons choisi de traiter ce problème du point de vue de l'usage, car l'usage est dans les textes, qui sont les seules données objectives qu'un ordinateur puisse recevoir en entrée. Nous reprenons l'idée harrissienne qui suppose que l'examen de mots et de leurs fonctionnements peut servir de base pour des travaux sur la sémantique de ces mots. L'analyse de corpus que nous proposons montre que le fait de ne pas présupposer l'existence des classes permet de faire émerger des classes originales liées à l'usage, et qui constituent une base sur laquelle pourront s'appuyer de prochains travaux de constructions de ressources lexicales numériques.