Analyse de la géométrie des plongements de mots et applications

Saïd Toubra

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse de la géométrie des plongements de mots et applications

FR |

EN

Auteur / Autrice :	Saïd Toubra
Direction :	Antoine Lejay
Type :	Projet de thèse
Discipline(s) :	Mathématiques
Date :	Inscription en doctorat le 30/09/2024
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Partenaire(s) de recherche :	Laboratoire : IECL - Institut Elie Cartan de Lorraine
	Equipe de recherche : PROBAS STATS

Mots clés

FR |

EN

Mots clés libres

Algorithmes stochastique

Résumé

FR |

EN

Grâce aux méthodes de plongement (Word2Vec, Context2Vec, Google BERT, etc.) qui permettent d'identifier les mots d'un texte à une série de vecteurs, le traitement automatique des langues a énormément progressé ses dernières années. On peut même dire que ces méthodes ont introduit une véritable révolution puisqu'elles ont levé les limites qu'imposaient les modèles de langues avec N-grams. Les résultats obtenus sont néanmoins à relativiser très fortement. En effet, le fonctionnement de ces méthodes n'a jusqu'alors été établi que de manière empirique sur des jeux de données précis et volumineux, et principalement en langue anglaise, langue sans signes diacritiques. Le but de cette thèse est d'étudier numériquement et théoriquement l'évolution des géométries formées par les plongements tout au long de l'entraînement des réseaux de neurones. Les méthodes pourront être retravaillées afin d'augmenter la convergence, mais surtout la stabilité, au niveau empirique en présence d'échantillons de petites tailles, pour des langues telles que le grec ancien et le latin, où chaque mot présente de nombreuses variations. Ensuite, le but est d'établir des résultats de convergence sur les plongements afin de démontrer la robustesse et la stabilité de ces méthodes. Enfin, le doctorant pourra également chercher à établir des ponts entre les méthodes de plongement et les méthodes de réduction de dimension classiques (Analyse en composantes principales, analyse des correspondances, méthodes spectrales, etc.), et les appliquer à des méthodes d'agrégation de données (clustering) en s'appuyant sur les techniques ad hoc.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse de la géométrie des plongements de mots et applications

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse de la géométrie des plongements de mots et applications

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses