Annotation d'un corpus simplifié avec des indicateurs d'oculométrie pour une prédiction automatique de ces indicateurs
Auteur / Autrice : | Oksana Ivchenko |
Direction : | Natalia Grabar |
Type : | Projet de thèse |
Discipline(s) : | Sciences du langage : linguistique et phonétique générales |
Date : | Inscription en doctorat le 01/11/2021 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Sciences de l'homme et de la société (Lille ; 2006-....) |
Partenaire(s) de recherche : | Laboratoire : Savoirs, Textes, langages |
Mots clés
Résumé
La simplification de textes consiste à réduire la complexité de ces textes afin de les rendre mieux compréhensibles pour une population donnée. Nous allons travailler avec les textes médicaux en français. La détection de mots et passages difficiles est une étape importante car elle définit les phénomènes linguistiques qui sont à prendre en compte lors de la simplification. Actuellement, la détection de difficultés est basée essentiellement sur (1) les formules de lisibilité, selon lesquelles les mots longs sont plus difficiles, alors que les mots courts peuvent aussi être difficiles à comprendre, (2) les annotations effectuées par les experts, qui émettent alors un jugement sur les connaissances supposées des non-experts, (3) les annotations des non-experts, qui annotent souvent peu de difficultés car ils ont peur de perdre la face en montrant trop souvent leur ignorance. Ces facteurs limitent la disponibilité et la fiabilité des textes annotés selon leur difficulté. L'originalité de notre travail est que nous proposons d'exploiter les méthodes d'oculométrie car elles permettent de fournir des indicateurs objectifs sur les difficultés de lecture et de compréhension. Une deuxième originalité est que nous voulons prédire automatiquement ces indicateurs oculométriques grâce à l'exploitation de méthodes de TAL et d'IA. Ces deux questions de recherche ne sont pas étudiées actuellement. De plus, la thèse se positionne dans un domaine interdisciplinaire (linguistique, psychologie, TAL, IA, médecine).