Vers une architecture générique et pérenne pour l'évaluation en traitement automatique des langues : spécifications, méthodologies et mesures
Auteur / Autrice : | Olivier Hamon |
Direction : | Adeline Nazarenko |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2010 |
Etablissement(s) : | Paris 13 |
Mots clés
Mots clés contrôlés
Résumé
Le développement de systèmes en traitement automatique des langues (TAL) nécessite de déterminer la qualité de ce qui est produit. Que ce soit pour comparer plusieurs systèmes entre eux ou identifier les points forts et faibles d’un système isolé, l’évaluation suppose de définir avec précision et pour chaque contexte particulier une méthodologie, un protocole, des ressources linguistiques (les données nécessaires à l’apprentissage et au test des systèmes) ou encore des mesures et métriques d’évaluation. C’est à cette condition que l’amélioration des systèmes est possible afin d’obtenir des résultats plus fiables et plus exploitables à l’usage. L’apport de l’évaluation en TAL est important avec la création de nouvelles ressources linguistiques, l’homogénéisation des formats des données utilisées ou la promotion d’une technologie ou d’un système. Toutefois, l’évaluation nécessite un important travail manuel, que ce soit pour l’expression des jugements humains ou pour la gestion du déroulement même de l’évaluation, ce qui compromet l'efficacité des évaluations, augmente leur coût et les rend difficilement reproductibles. Nous avons cherché à réduire et à encadrer ces interventions manuelles. Pour ce faire, nous appuyons nos travaux sur la conduite ou la participation à des campagnes d’évaluation comparant des systèmes entre eux, ou l’évaluation de systèmes isolés. Nous avons formalisé la gestion du déroulement de l’évaluation et listé ses différentes phases pour définir un cadre d’évaluation commun, compréhensible par tous. Le point phare de ces phases d’évaluation concerne la mesure de la qualité via l’utilisation de métriques. Cela a imposé trois études successives sur les mesures humaines, les mesures automatiques et les moyens d’automatiser le calcul de la qualité et enfin la méta-évaluation des mesures qui permet d’en évaluer la fiabilité. En parallèle, les mesures d’évaluation utilisent des ressources linguistiques dont les aspects pratiques et administratifs à travers les opérations de création, standardisation, validation, impact sur les résultats, coût de production et d’utilisation, identification et négociation des droits doivent être prises en compte. Dans ce contexte, l’étude des similarités entre les technologies et entre leurs évaluations nous a permis d’observer les points communs et de les hiérarchiser. Nous avons montré qu’un petit ensemble de mesures permet de couvrir une large palette d’applications à des technologies distinctes. Notre objectif final était de définir une architecture d’évaluation générique, c’est-à-dire adaptable à tout type de technologie du TAL, et pérenne, c’est-à-dire permettant la réutilisation de ressources linguistiques, mesures ou méthodes au cours du temps. Notre proposition se fait à partir des conclusions des étapes précédentes afin d’intégrer les phases d’évaluation à notre architecture et d’y incorporer les mesures d’évaluation, sans oublier la place relative à l’utilisation de ressources linguistiques. La définition de cette architecture s’est effectuée en vue d’automatiser entièrement la gestion des évaluations, que ce soit pour une campagne d’évaluation ou l’évaluation d’un système isolé. À partir de premières expérimentations, nous avons modélisé une architecture d’évaluation prenant en compte l’ensemble de ces contraintes et utilisant les services Web afin d’interconnecter les composants de l’architecture entre eux et d’y accéder via le réseau Internet.