Comparaison de données à haute dimension : tests à deux échantillons interprétables par sélection de variables
| Auteur / Autrice : | Kensuke Mitsuzawa |
| Direction : | Paolo Papotti, Motonobu Kanagawa |
| Type : | Thèse de doctorat |
| Discipline(s) : | Sciences de l'ingénieur |
| Date : | Soutenance le 02/12/2024 |
| Etablissement(s) : | Sorbonne université |
| Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-....) |
| Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes ; 1992-....) |
| Jury : | Président / Présidente : Jérôme Härri |
| Examinateurs / Examinatrices : Paola Goatin | |
| Rapporteurs / Rapporteuses : Mamoru Komachi, Damien Garreau | |
| DOI : | 10.70675/2077c87az8302z4b6fz9922z2c300be3335e |
Mots clés
Résumé
Les données de haute dimension sont omniprésentes, et leur quantité ainsi que leur qualité continuent d’augmenter, bien que leur analyse reste chronophage. Le « Two-Sample Testing » est une méthode courante pour comparer deux ensembles de données, mais il ne fournit souvent pas suffisamment d’informations pour que les humains puissent comprendre et interpréter les résultats de la comparaison par le Two-Sample Testing. Cette thèse étudie la sélection de variables pour comparer une paire de données de haute dimension, permettant ainsi aux humains d’obtenir un aperçu sans avoir à effectuer des travaux d’analyse longs et fastidieux. La sélection de variables est réalisée lors du Two-Sample Testing et permet d’identifier les variables (ou dimensions) responsables des écarts entre les deux distributions de probabilités. Cette thèse porte sur « Maximum Mean Discrepancy » (MMD), une métrique de distance entre deux distributions de probabilités, ainsi que sur un problème d’optimisation de MMD estimateur. Ce problème optimise les paramètres de « Automatic Relevance Detection » (ARD) dans une « Kernel fonction ». La fonction objective vise à maximiser l’approximation de la « Test Power » du test basé sur la MMD. Nous étendons ce problème d’optimisation à la sélection de variables (sélection de caractéristiques) en ajoutant une « sparse régularisation ». Étant donné que cette régularisation nécessite un hyperparamètre arbitraire, nous développons des algorithmes permettant de déterminer automatiquement les paramètres de régularisation optimaux. De plus, nous abordons un problème de sélection de variables avec un ensemble de données temporelles de haute dimension. Le principal objectif est d’identifier les variables importantes dans une paire de séries temporelles, qui reflètent les différences entre deux distributions de probabilité. À cette fin, nous avons développé un algorithme de sélection de variables pour une paire de séries temporelles. Enfin, nous démontrons qu’une calibration de paramètres de modèle, qui consiste à estimer un paramètre adapté à un modèle « Black-Box » (par exemple, un modèle de simulation intractable), peut être réalisée avec l’intervention humaine en utilisant la méthode de sélection de variables basée sur la MMD. La calibration de modèle avec l’intervention humaine est une approche efficace lorsque le modèle Black-Box nécessite des coûts computationnels élevés, que ce soit en termes de puissance de calcul ou de temps.