Thèse soutenue

Acquisition automatique de schémas de sous-catégorisation à partir de corpus bruts

FR  |  
EN
Auteur / Autrice : Cédric Messiant
Direction : Adeline Nazarenko
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2010
Etablissement(s) : Paris 13

Mots clés

FR

Résumé

FR  |  
EN

Cette thèse de doctorat traite de l'acquisition automatique d'informations lexicales à partir de corpus. Nous nous intéressons en particulier à l'acquisition de schémas de sous-catégorisation de verbes pour le français. Nous avons mis au point un système permettant d'acquérir automatiquement ce type d'informations. L'utilisation de ce système sur un corpus de très grande taille a permis d'acquérir un lexique de sous-catégorisation pour le français. L'évaluation de cette ressource et sa comparaison à d'autres ressources montre l'apport des méthodes automatiques dans la constitution de lexiques. Nous montrons par ailleurs l'adaptabilité de tels systèmes et leur aptitude à acquérir des ressources « spécialisées » rapidement. Nous explorons enfin l'utilisation de telles ressources pour l'acquisition de classes sémantiques de verbes dans la lignée des travaux de Beth Levin, ce qui permet d'étudier les liens entre syntaxe et sémantique.