START, analyse syntaxique automatique de surface sur grand corpus en français
Auteur / Autrice : | Anna Pappa |
Direction : | Gilles Bernard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 8 |
Mots clés
Résumé
Notre étude présente la conception et la réalisation d'un système d'analyse syntaxique de surface dans un grand corpus non annoté en français. Le système START (System of Textual Analysis Recognition and Tagging) effectue les tâches suivantes : détermination des frontières des constituants d'une phrase, extraction des groupes syntaxiques (groupes nominaux, verbaux, prépositionnels, etc. ), étiquetage partiel des mots qui composent des constituants détectés, désambigui͏̈sation des cas ambigus, création d'un dictionnaire à partir des mots qui composent les constituants. Le système n'utilise aucun dictionnaire et il utilise un minimum de règles grammaticales et syntaxiques. Il est basé sur des statistiques issues de l'analyse distributionnelle des mots grammaticaux. Le processus est novateur car il n'utilise pas de corpus étiqueté et aucune connaissance préalable. Les résultats dépassent 92% de reconnaissance pour les GV et des GN et 99,6% pour la désambigui͏̈sation, avec un taux d'erreur inférieur à 1%.