Thèse soutenue

START, analyse syntaxique automatique de surface sur grand corpus en français

FR
Auteur / Autrice : Anna Pappa
Direction : Gilles Bernard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2003
Etablissement(s) : Paris 8

Mots clés

FR

Résumé

FR  |  
EN

Notre étude présente la conception et la réalisation d'un système d'analyse syntaxique de surface dans un grand corpus non annoté en français. Le système START (System of Textual Analysis Recognition and Tagging) effectue les tâches suivantes : détermination des frontières des constituants d'une phrase, extraction des groupes syntaxiques (groupes nominaux, verbaux, prépositionnels, etc. ), étiquetage partiel des mots qui composent des constituants détectés, désambigui͏̈sation des cas ambigus, création d'un dictionnaire à partir des mots qui composent les constituants. Le système n'utilise aucun dictionnaire et il utilise un minimum de règles grammaticales et syntaxiques. Il est basé sur des statistiques issues de l'analyse distributionnelle des mots grammaticaux. Le processus est novateur car il n'utilise pas de corpus étiqueté et aucune connaissance préalable. Les résultats dépassent 92% de reconnaissance pour les GV et des GN et 99,6% pour la désambigui͏̈sation, avec un taux d'erreur inférieur à 1%.