Thèse soutenue

Erreurs dans les phrases coordonnées au sein des rédactions universitaires : typologie et détection

FR  |  
EN
Auteur / Autrice : Laura Noreskal
Direction : Iris Eshkol
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 14/12/2022
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre)
Partenaire(s) de recherche : Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury : Président / Présidente : Anne Abeillé
Examinateurs / Examinatrices : Iris Eshkol, Anne Abeillé, Olivier Kraif, Frédérique Sitri, Silvia Adler, Sarah de Vogüé, Marianne Desmets, Eric Villemonte de la Clergerie
Rapporteurs / Rapporteuses : Olivier Kraif, Frédérique Sitri

Résumé

FR  |  
EN

En mêlant TAL, didactique et linguistique de corpus, cette recherche porte sur l’étude et la détection automatique des erreurs dans les constructions coordonnées issues des rédactions des étudiants dans le cadre du projet écri+ (ANR17NCUN0015). Après avoir constitué le corpus de rédactions composé de mémoires, rapports de stage, exercices et devoirs maison, nous avons procédé à l’analyse manuelle des données afin d’élaborer une typologie des erreurs réalisées dans les phrases coordonnées. La recherche réalisée a montré que les erreurs sont les plus présentes dans les productions non-préparées telles que les exercices, et sont conditionnées par la taille des phrases mais également par le nombre de coordonnants présents dans la phrase. Ensuite, le corpus a été annoté selon une typologie proposée et a été exploité pour le développement de l’outil de la détection automatique de ces erreurs. Dans un premier temps, l’outil développé prédit la classe correcte ou erronée pour une phrase coordonnée donnée. Les meilleurs résultats sont obtenus avec une F-mesure de 0,81 en utilisant le modèle de langue français CamemBERT (Martin et al., 2019). Dans un second temps, l’outil catégorise l’erreur reconnue, c’est-à-dire qu’il classe l’erreur parmi les 11 types proposés. Les meilleurs résultats sont également obtenus avec CamemBERT avec un LRAP de 0,70 pour l’apprentissage multi-labels.