Thèse soutenue

De la consistance des formulations de substitution convexes pour l’ordonnancement

FR
Auteur / Autrice : Clément Calauzènes
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Paris 6

Résumé

FR  |  
EN

Cette th`ese traite de l’ ́etude de l’apprentissage pour l’ordonnancement, dont les moteurs de recherches du web sont l’une des applications les plus notables. En raison de la taille cons ́equentes des donn ́ees `a traiter, la questiondu passage `a l’ ́echelle des m ́ethodes d’apprentissage est critique. Il est doncinnenvisageable d’utiliser des m ́ethodes d’optimisation directe du risque as-soci ́e `a la mesure d’ ́evaluation de la tˆache qui est g ́en ́eralement un probl`eme NP-difficile. Pour cette raison, lors de la phase d’optimisation, il est d’usagede remplacer la mesure d’ ́evaluation par une fonction de coˆut auxiliaireplus simple `a optimiser (ex : continue, d ́erivable, convexe). Toutefois, ilfaut s’assurer que le coˆut auxiliaire se comporte correctement par rapport`a l’objectif initial qui reste d’optimiser le risque d’ ́evaluation. Il est doncsouhaitable que l’optimisation du risque auxiliaire m`ene `a des solutions op-timales pour le risque d’ ́evaluation. Un tel comportement est ́equivalent `alacalibrationdu coˆut auxiliaire par rapport `a la mesure d’ ́evaluation. Dans cette th`ese, nous nous int ́eressons aux diff ́erentes mesures d’ ́evalua-tion d’ordonnancement et `a la possibilit ́e de construire des coˆuts auxil-iairesconvexes, et donc simple `a optimiser, qui soient calibr ́es avec cesmesures. Le r ́esultat cl ́e de cette th`ese est un th ́eor`eme qui caract ́eriseles mesures d’ ́evaluation pour lesquelles il existe des coˆutsauxiliaires con-vexes et calibr ́es. D’une part, cela nous permet de prouver qu’un certainnombre de mesures d’ ́evaluation courantes, telles que l’Expected ReciprocalRank, l’Average Precision et le Pairwise Disagreement, ne poss`edent pas decoˆut auxiliaire calibr ́e. Cela signifie que l’optimisation d’un risque auxiliaireconvexe m`ene `a des solutions non-optimales pour ces mesures et qu’il fautdonc trouver une alternative `a l’utilisation d’une fonction de coˆut auxiliaireconvexe quand on veut utiliser ces mesures. D’autre part, nous d ́eduisonsdu th ́eor`eme de caract ́erisation, une m ́ethode pour construire explicitementun coˆut auxiliaire convexe et calibr ́e pour les mesures d’ ́evaluation pourlesquelles il en existe. Ensuite, pour les mesure d’ ́evaluation dont la struc-ture g ́en ́erale est similaire `a un Discounted Cumulative Gain, nous montrons que la calibration d’un cout auxiliaire implique une garantie plus forte quela calibration : l’existence d’une borne sur le regret associ ́e au coˆut auxili-aire. Pour un certain nombre de coˆuts auxiliaires convexes, nous calculonsexplicitement ces bornes de regret. Enfin nous proposons une impl ́ementation en C++ de notre m ́ethodede construction de coˆuts auxiliaires convexes et calibr ́es `a travers le frame-work SLF. A l’aide de cette impl ́ementation, nous proposons finalement unevalidation exp ́erimentale de notre m ́ethode.