Apprentissage d'ordonnancements par similarité et optimisation de la performance dans le domaine de l'identification biométrique

par Robin Vogel

Projet de thèse en Mathématiques appliquées

Sous la direction de Stephan Clemencon, Anne Sabourin et de Aurélien Bellet.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-06-2017 .


  • Résumé

    Les systèmes d'identification biométrique comparent un ensemble de données enregistrées, comme un ensemble d'images d'empreintes digitales, avec une autre mesure, afin de faire une décision quant à la correspondance de celle-ci avec un des éléments de la base de données. Cette décision est faite à l'aide d'une fonction de similarité qui quantifie la ressemblance entre deux mesures. Si la valeur de la similarité dépasse un certain seuil, la paire sera considérée positive, et négative sinon. A chaque seuil peut être associé un taux de faux positifs (FPR) et un taux de vrais positifs (TPR), pour le problème de classification binaire sur les paires décrit plus haut. La courbe ROC résume l'ensemble des TPR atteignables en fonction du FPR. Voir Jain, Ross et Nandakumar (2011) pour une vision plus détaillée des problèmes abordés en biométrie. Ces notions font écho à la théorie de l'ordonnancement bipartite, qui étudie le rangement d'éléments par ordre de pertinence, voir Menon et Williamson (2013) pour une revue. Cette thèse étudie le problème d'ordonnancement de paires, des plus similaires aux moins similaires, qui n'est pas adressé du point de vue statistique par la littérature. Un premier travail concernera une généralisation des garanties obtenues pour l'optimisation en un point de la courbe ROC par Clémençon et Vayatis (2010) au cas de l'ordonnancement par similarité. Nos résultats sont fondés sur la théorie des U-statistiques, qui sous leur forme la plus simple sont des moyennes d'une fonction des paires d'un échantillon i.i.d., et interviennent naturellement dans le problème étudié. Les ouvrages de de la Peña et Giné (1999) et de Lee (1990) sont des références détaillées sur les U-statistiques. L'optimisation en un point de la courbe ROC fait écho aux problématiques opérationnelles rencontrées en biométrie, étant donné que les systèmes sont généralement déployés pour fonctionner à FPR fixé.

  • Titre traduit

    Ranking pairs of instances using a similarity function and enhancing performance for the identification problem


  • Résumé

    Biometric identification systems compare a set of records, such as set of pictures of fingerprints, with some measurement, in order to decide whether it corresponds to an element of the database. This decision is made by means of similarity function that quantifies the likeness of two measurements. If the similarity value is above some threshold, then the pair is considered positive and negative otherwise. To every threshold, one can associate a false positive rate (FPR) and true positive rate (TPR) for the binary classification on pairs described above. The ROC curve summarizes the set of all attainable TPR as a function of the FPR. See Jain, Ross and Nandakumar (2011) for a more detailed view of the problems tackled by biometrics. These notions echo the theory of bipartite ranking, which studies the ranking of elements by order of relevance; see Menon and Williamson (2013) for a review. This thesis studies the ranking of pairs, by order of similarity, which is not yet addressed by the literature from a statistical view. To begin with, we will study a generalization of the guarantees for pointwise ROC optimization obtained by Clémençon and Vayatis (2010) to the case of ranking by similarity. The results that we derive are built on the theory of U-statistics, which in their simplest form are averages of a function of the pairs of an i.i.d. sample, and appear naturally in this context. The books of de la Peña and Giné (1999) and of Lee (1990) are detailed references on the theory of U-statistics. Pointwise ROC optimization echoes the operational considerations in biometrics, since systems are usually set to operate at a fixed FPR.