Acquisition automatique de schémas de sous-catégorisation à partir de corpus bruts
Auteur / Autrice : | Cédric Messiant |
Direction : | Adeline Nazarenko |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2010 |
Etablissement(s) : | Paris 13 |
Mots clés
Résumé
Cette thèse de doctorat traite de l'acquisition automatique d'informations lexicales à partir de corpus. Nous nous intéressons en particulier à l'acquisition de schémas de sous-catégorisation de verbes pour le français. Nous avons mis au point un système permettant d'acquérir automatiquement ce type d'informations. L'utilisation de ce système sur un corpus de très grande taille a permis d'acquérir un lexique de sous-catégorisation pour le français. L'évaluation de cette ressource et sa comparaison à d'autres ressources montre l'apport des méthodes automatiques dans la constitution de lexiques. Nous montrons par ailleurs l'adaptabilité de tels systèmes et leur aptitude à acquérir des ressources « spécialisées » rapidement. Nous explorons enfin l'utilisation de telles ressources pour l'acquisition de classes sémantiques de verbes dans la lignée des travaux de Beth Levin, ce qui permet d'étudier les liens entre syntaxe et sémantique.