Thèse soutenue

Modèles probabilistes pour les fréquences de mots et la recherche d'information

FR  |  
EN
Auteur / Autrice : Stéphane Clinchant
Direction : Éric GaussierBoris Chidlovskii
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/10/2011
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (2007-....) - Laboratoire d'Informatique de Grenoble
Jury : Président / Présidente : Hervé Martin
Examinateurs / Examinatrices : Mohand Boughanem, Giambattista Amati
Rapporteurs / Rapporteuses : François Yvon, Jean-Cédric Chappelier

Résumé

FR  |  
EN

Nous nous intéressons à la fois à la modélisation des fréquences des mots dans les collections textuelles et aux modèles probabilistes de recherche d'information (RI). Concernant les modèles statistiques de fréquences de mots, nous portons notre attention sur l'étude du phénomène de rafale (burstiness). Nous établissons une propriété sur les distributions de probabilité caractérisant leur capacité à modéliser ce phénomène et nous étudions ensuite les distributions Beta Negative Binomial et Log-Logistique pour la modélisation des fréquences de mots. Nous portons ensuite notre attention sur les modèles probabilistes de RI et leur propriétés fondamentales. Nous pouvons montrer que les modèles classiques ne reposent pas sur des lois de probabilité en rafale, même si des propriétés fondamentales comme la concavité des modèles permettent implicitement de le prendre en compte. Nous introduisons ensuite une nouvelle famille de modèles probabiliste pour la recherche d'information, fondé sur la notion d'information de Shannon et qui permet d'établir un lien conséquent entre les propriétés importantes des modèles de RI et le phénomène de rafale. Enfin, nous étudions empiriquement et théoriquement les modèles de rétro-pertinence. Nous proposons un cadre théorique qui permet ainsi d'expliquer leurs caractéristiques empiriques et leur performances. Ceci permet entre autres de mettre en avant les propriétés importantes des modèles de retro-pertinence et de montrer que certains modèles de référence sont déficients.