Thèse en cours

Analyse de la géométrie des plongements de mots et applications

FR  |  
EN
Auteur / Autrice : Saïd Toubra
Direction : Antoine Lejay
Type : Projet de thèse
Discipline(s) : Mathématiques
Date : Inscription en doctorat le 30/09/2024
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Partenaire(s) de recherche : Laboratoire : IECL - Institut Elie Cartan de Lorraine
Equipe de recherche : PROBAS STATS

Résumé

FR  |  
EN

Grâce aux méthodes de plongement (Word2Vec, Context2Vec, Google BERT, etc.) qui permettent d'identifier les mots d'un texte à une série de vecteurs, le traitement automatique des langues a énormément progressé ses dernières années. On peut même dire que ces méthodes ont introduit une véritable révolution puisqu'elles ont levé les limites qu'imposaient les modèles de langues avec N-grams. Les résultats obtenus sont néanmoins à relativiser très fortement. En effet, le fonctionnement de ces méthodes n'a jusqu'alors été établi que de manière empirique sur des jeux de données précis et volumineux, et principalement en langue anglaise, langue sans signes diacritiques. Le but de cette thèse est d'étudier numériquement et théoriquement l'évolution des géométries formées par les plongements tout au long de l'entraînement des réseaux de neurones. Les méthodes pourront être retravaillées afin d'augmenter la convergence, mais surtout la stabilité, au niveau empirique en présence d'échantillons de petites tailles, pour des langues telles que le grec ancien et le latin, où chaque mot présente de nombreuses variations. Ensuite, le but est d'établir des résultats de convergence sur les plongements afin de démontrer la robustesse et la stabilité de ces méthodes. Enfin, le doctorant pourra également chercher à établir des ponts entre les méthodes de plongement et les méthodes de réduction de dimension classiques (Analyse en composantes principales, analyse des correspondances, méthodes spectrales, etc.), et les appliquer à des méthodes d'agrégation de données (clustering) en s'appuyant sur les techniques ad hoc.