Thèse soutenue

Applications exploratoires des modèles de spins au traitement automatique de la langue

FR  |  
EN
Auteur / Autrice : Silvia Fidelina Fernández Sabido
Direction : Bertrand BercheJuan-Manuel Torres-Moreno
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 22/05/2009
Etablissement(s) : Nancy 1
Ecole(s) doctorale(s) : EMMA
Partenaire(s) de recherche : Laboratoire : Physique des Matériaux
Jury : Président / Présidente : Daniel Malterre
Examinateurs / Examinatrices : Bertrand Berche, Juan Torres Moreno, Philippe Langlais, Horacio Saggion, Eva Buchi, Daniel Malterre
Rapporteurs / Rapporteuses : Mirta Gordon, Philippe Langlais

Résumé

FR  |  
EN

Dans cette thèse nous avons exploré la capacité des modèles magnétiques de la physique statistique à extraire l'information essentielle contenue dans les textes. Les documents ont été représentés comme des ensembles d'unités en interaction magnétique, l'intensité de telles interactions a été mesurée et utilisée pour calculer de quantités qui sont des indices de l'importance de l'information portée. Nous proposons deux nouvelles méthodes. Premièrement, nous avons étudié un modèle de spins qui nous a permis d'introduire l'énergie textuelle d'un document. Cette quantité a été utilisée comme indicatrice de pertinence et appliquée à une vaste palette de tâches telles que le résumé automatique, la recherche d'information, la classification de documents et la segmentation thématique. Par ailleurs, et de façon encore exploratoire, nous proposons un deuxième algorithme qui définie un couplage grammatical pour conserver les termes importants et produire des contractions. De cette façon, la compression d'une phrase est l'état fondamental de la chaîne de termes. Comme cette compression n'est pas forcement bonne, il a été intéressant de produire des variantes en permettant des fluctuations thermiques. Nous avons fait des simulations Métropolis Monte-Carlo avec le but de trouver l'état fondamental de ce système qui est analogue au verre de spin.