Modèle joint pour le traitement automatique de la langue : perspectives au travers des réseaux de neurones
Auteur / Autrice : | Jérémie Tafforeau |
Direction : | Frédéric Béchet, Thierry Artières |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et informatique |
Date : | Soutenance le 20/11/2017 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique fondamentale (Marseille) - Traitement Automatique du Langage Ecrit et Parlé (Marseille) |
Jury : | Président / Présidente : Yannick Estève |
Examinateurs / Examinatrices : Benoît Favre, Christophe Cerisara | |
Rapporteurs / Rapporteuses : Alexandre Allauzen, Philippe Langlais |
Résumé
Les recherches en Traitement Automatique des Langues (TAL) ont identifié différents niveaux d'analyse lexicale, syntaxique et sémantique. Il en découle un découpage hiérarchique des différentes tâches à réaliser afin d'analyser un énoncé. Les systèmes classiques du TAL reposent sur des analyseurs indépendants disposés en cascade au sein de chaînes de traitement (pipelines). Cette approche présente un certain nombre de limitations : la dépendance des modèles à la sélection empirique des traits, le cumul des erreurs dans le pipeline et la sensibilité au changement de domaine. Ces limitations peuvent conduire à des pertes de performances particulièrement importantes lorsqu'il existe un décalage entre les conditions d'apprentissage des modèles et celles d'utilisation. Un tel décalage existe lors de l'analyse de transcriptions automatiques de parole spontanée comme par exemple les conversations téléphoniques enregistrées dans des centres d'appels. En effet l'analyse d'une langue non-canonique pour laquelle il existe peu de données d'apprentissage, la présence de disfluences et de constructions syntaxiques spécifiques à l'oral ainsi que la présence d'erreurs de reconnaissance dans les transcriptions automatiques mènent à une détérioration importante des performances des systèmes d'analyse. C'est dans ce cadre que se déroule cette thèse, en visant à mettre au point des systèmes d'analyse à la fois robustes et flexibles permettant de dépasser les limitations des systèmes actuels à l'aide de modèles issus de l'apprentissage par réseaux de neurones profonds.