Classification automatique pour la compréhension de la parole : vers des systèmes semi-supervisés et auto-évolutifs
Auteur / Autrice : | Pierre Gotab |
Direction : | Frédéric Béchet, Georges Linarès |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/12/2012 |
Etablissement(s) : | Avignon |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Jury : | Président / Présidente : Fabrice Lefèvre |
Examinateurs / Examinatrices : Géraldine Damnati, Benoît Favre, Jean-Jacques Schneider | |
Rapporteur / Rapporteuse : Yannick Estève, Guillaume Gravier |
Résumé
La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problèmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modèles statistiques performants. Les corpus de parole pour entraîner des modèles de compréhension nécessitent une intervention humaine importante, notamment dans les tâches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thèse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modèle grâce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du système pour améliorer le modèle de compréhension.Ce dernier point touche à un second problème rencontré par les systèmes de compréhension automatique de la parole et adressé par cette thèse : le besoin d'adapter régulièrement leurs modèles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du système