Analyse de la géométrie des plongements de mots et applications
Auteur / Autrice : | Saïd Toubra |
Direction : | Antoine Lejay |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le 30/09/2024 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES |
Partenaire(s) de recherche : | Laboratoire : IECL - Institut Elie Cartan de Lorraine |
Equipe de recherche : PROBAS STATS |
Mots clés
Résumé
Grâce aux méthodes de plongement (Word2Vec, Context2Vec, Google BERT, etc.) qui permettent d'identifier les mots d'un texte à une série de vecteurs, le traitement automatique des langues a énormément progressé ses dernières années. On peut même dire que ces méthodes ont introduit une véritable révolution puisqu'elles ont levé les limites qu'imposaient les modèles de langues avec N-grams. Les résultats obtenus sont néanmoins à relativiser très fortement. En effet, le fonctionnement de ces méthodes n'a jusqu'alors été établi que de manière empirique sur des jeux de données précis et volumineux, et principalement en langue anglaise, langue sans signes diacritiques. Le but de cette thèse est d'étudier numériquement et théoriquement l'évolution des géométries formées par les plongements tout au long de l'entraînement des réseaux de neurones. Les méthodes pourront être retravaillées afin d'augmenter la convergence, mais surtout la stabilité, au niveau empirique en présence d'échantillons de petites tailles, pour des langues telles que le grec ancien et le latin, où chaque mot présente de nombreuses variations. Ensuite, le but est d'établir des résultats de convergence sur les plongements afin de démontrer la robustesse et la stabilité de ces méthodes. Enfin, le doctorant pourra également chercher à établir des ponts entre les méthodes de plongement et les méthodes de réduction de dimension classiques (Analyse en composantes principales, analyse des correspondances, méthodes spectrales, etc.), et les appliquer à des méthodes d'agrégation de données (clustering) en s'appuyant sur les techniques ad hoc.