Thèse soutenue

Tests d’hypothèses statistiquement et algorithmiquement efficaces de similarité et de dépendance

FR  |  
EN
Auteur / Autrice : Wacha Bounliphone
Direction : Arthur TenenhausMatthew B. Blaschko
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 30/01/2017
Etablissement(s) : Université Paris-Saclay (ComUE) en cotutelle avec KU Leuven (1970-....)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) - Laboratoire des signaux et systèmes / L2S
établissement opérateur d'inscription : CentraleSupélec (2015-....)
Jury : Président / Présidente : Nikos Paragios
Examinateurs / Examinatrices : Arthur Tenenhaus, Arthur Gretton, Jesse Davis
Rapporteur / Rapporteuse : Dominik Janzing, Jean-Philippe Vert

Résumé

FR  |  
EN

Cette thèse présente de nouveaux tests d’hypothèses statistiques efficaces pour la relative similarité et dépendance, et l’estimation de la matrice de précision. La principale méthodologie adoptée dans cette thèse est la classe des estimateurs U-statistiques.Le premier test statistique porte sur les tests de relative similarité appliqués au problème de la sélection de modèles. Les modèles génératifs probabilistes fournissent un cadre puissant pour représenter les données. La sélection de modèles dans ce contexte génératif peut être difficile. Pour résoudre ce problème, nous proposons un nouveau test d’hypothèse non paramétrique de relative similarité et testons si un premier modèle candidat génère un échantillon de données significativement plus proche d’un ensemble de validation de référence.La deuxième test d’hypothèse statistique non paramétrique est pour la relative dépendance. En présence de dépendances multiples, les méthodes existantes ne répondent qu’indirectement à la question de la relative dépendance. Or, savoir si une dépendance est plus forte qu’une autre est important pour la prise de décision. Nous présentons un test statistique qui détermine si une variable dépend beaucoup plus d’une première variable cible ou d’une seconde variable.Enfin, une nouvelle méthode de découverte de structure dans un modèle graphique est proposée. En partant du fait que les zéros d’une matrice de précision représentent les indépendances conditionnelles, nous développons un nouveau test statistique qui estime une borne pour une entrée de la matrice de précision. Les méthodes existantes de découverte de structure font généralement des hypothèses restrictives de distributions gaussiennes ou parcimonieuses qui ne correspondent pas forcément à l’étude de données réelles. Nous introduisons ici un nouveau test utilisant les propriétés des U-statistics appliqués à la matrice de covariance, et en déduisons une borne sur la matrice de précision.