Qu'est-ce que tu sais, BERT ? Explorer les compétences linguistiques des plongements lexicaux contextuels basés sur Transformers
Auteur / Autrice : | Eleni Metheniti |
Direction : | Nabil Hathout, Tim Van de Cruys |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 28/06/2023 |
Etablissement(s) : | Toulouse 2 |
Ecole(s) doctorale(s) : | École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Cognition, langues, langage, ergonomie (Toulouse ; 2006-....) |
Jury : | Président / Présidente : Cécile Fabre |
Examinateurs / Examinatrices : Olivier Ferret | |
Rapporteur / Rapporteuse : Marie-Hélène Candito, Lonneke Van der Plas |
Mots clés
Résumé
Les plongements lexicaux basés sur des Transformers, également connus comme modèles de langage grands, sont largement utilisés dans les applications NLP, surpassant les méthodes de statistique et de réseaux neuronaux. Cependant, le succès quantitatif dans les tâches de NLP ne garantit pas une maîtrise complète du langage humain.Cette thèse étudie les capacités linguistiques et les limites des plongements lexicaux contextuels basés sur Transformers, avec des expériences sur des phénomènes syntactico-sémantiques complexes. La question principale est la suivante: même si les plongements lexicaux peuvent capturer suffisamment d'informations pour être compétents dans des tâches linguistiques complexes, leurs succès sont-ils dus à une véritable compréhension des relations et des hiérarchies entre les mots ou à une répétition de schémas de langue? Nous avons sélectionné des caractéristiques linguistiques en anglais et en français qui sont comprises par les locuteurs natifs ayant des compétences syntaxico-sémantiques matures, mais qui sont traditionnellement difficiles à définir avec des règles linguistiques.La préférence sélective est la tendance d'un prédicat à favoriser certains arguments dans un certain contexte linguistique et à en rejeter d'autres qui aboutissent à des significations contradictoires ou peu plausibles. Cette partie de l'étude a examiné si les modèles BERT en anglais contiennent des informations sur les préférences sélectives, en examinant la probabilité qu'ils attribuent au mot dépendant compte tenu de la présence de son mot principal dans une phrase. Ces probabilités ont été comparées aux annotations humaines. Les résultats montrent qu'il n'y a pas de forte corrélation entre les jugements humains et les probabilités du modèle dans n'importe quelle relation syntaxique, mais certains mots de tête ont une forte corrélation, et le masquage de tous les mots sauf le mot de tête produit les corrélations les plus positives.L'aspect lexical est une caractéristique du verbe qui décrit comment une action, un événement ou un état d'un verbe est situé dans le temps, indépendamment du temps du verbe. Nous avons exploré, avec deux séries d'expériences, si les modèles peuvent identifier et apprendre la télicité et la durée. Nous avons effectué des analyses quantitatives avec des modèles pré-entraînés et affinés, ainsi que des analyses qualitatives pour observer le comportement des modèles dans des cas difficiles. Les expériences ont été menées en anglais et en français. Les résultats montrent que les modèles capturent l'information sur la télicité et la durée dans leurs vecteurs, mais qu'ils sont biaisés en ce qui concerne le temps du verbe et l'ordre des mots.La dernière expérience examine les capacités des modèles à identifier et apprendre la position des adjectifs attributifs en français. Bien que ces modèles pré-entraînés soient insensibles à l'ordre des mots permutés, nous avons observé que les modèles affinés pouvaient apprendre et sélectionner la position correcte de l'adjectif. En comparant les modèles aux locuteurs natifs, on remarque que les modèles favorisent le contexte et les rôles syntaxiques globaux, et qu'ils sont plus faibles avec les structures complexes et les expressions fixes.Pour résumer, les plongements lexicaux sont très efficaces, mais les résultats sont irréguliers. Les modèles attribuent des probabilités élevées aux tokens fréquents, mais ne peuvent pas créer de classes ou de groupes de mots selon le contenu. Les plongements de verbes peuvent capturer des informations syntactico-sémantiques importantes, mais les adjectifs n'ont pas d'influence. Les modèles sont sensibles à la syntaxe et apprennent des schémas syntaxiques rudimentaires. Sur le plan sémantique, les modèles s'appuient sur des caractéristiques de fréquence et de surface, même lorsque le contexte suggère le contraire.