Thèse soutenue

Positionnement multidimensionnel à grande échelle pour l’étude de la biodiversité

FR  |  
EN
Auteur / Autrice : Romain Peressoni
Direction : Olivier CoulaudEmmanuel Agullo
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées et calcul scientifique
Date : Soutenance le 13/06/2023
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Raymond Namyst
Examinateurs / Examinatrices : Sandrine Mouysset, Gaël Varoquaux
Rapporteurs / Rapporteuses : Emmanuel Paradis, Bruno Raffin

Résumé

FR  |  
EN

Le positionnement multidimensionnel (MDS) est un algorithme classique de réduction de dimensions et une méthode de visualisation. La MDS prend une matrice de dissimilarités (ou de distances) en entrée et produit un nuage de points dans une dimension inférieure. Chaque objet présent dans la matrice d’entrée est associé à un point dans le nuage de points, la distance entre les points reflétant au mieux la distance d’entrée. La principale étape de calcul de la MDS est une symmetric eigenvalue decomposition (sEVD). Blanchard et al. (2016) ainsi que Paradis (2018) ont montré que cette étape sEVD de la MDS pouvait être réalisée avec succès à l’aide de techniques de randomisation. Deux algorithmes de randomisation ont été considérés, à savoir la randomized singular value decomposition (RSVD) et la randomized sEVD (RsEVD) (voir Halko et al. (2011)). Pour traiter des problèmes de tailles encore plus importantes, une MDS à haute performance basée sur ces techniques de randomisation a été récemment proposée, basée sur le formalisme RSVD. Le chapitre 1 présente ces résultats comme contexte de la présente thèse. La première partie de cette thèse, présentée dans le chapitre 2, revient sur ces résultats. Nous ouvrons ce chapitre en évaluant l’impact du choix de la technique de randomisation pour réaliser la sEVD sur le comportement numérique de la MDS. D’une part, la RSVD standard peut (légèrement) briser la symétrie implicitement supposée dans la MDS mais ne nécessite qu’une seule projection. D’autre part, la RsEVD standard préserve la symétrie mais nécessite deux projections. Une étude expérimentale menée sur un ensemble de données de biodiversité à petite échelle confirme que les deux approches peuvent être pertinentes. Cela nous incite à proposer une version HPC de la RsEVD en plus de l’algorithme RSVD déjà disponible. Nous sommes donc maintenant en mesure d’effectuer des MDS HPC avec l’une ou l’autre variante d’algorithme aléatoire. Ces deux variantes sont dominées par des produits de matrices (MM). Leurs performances et leur consommation de mémoire sont donc des clés pour une MDS basée sur de tels algorithmes. Nous intégrons donc une MM générale à base de tâches (GEMM) récemment proposée ainsi qu’une nouvelle MM symétrique à base de tâches (SYMM). La MDS qui en résulte est nettement plus performante que la version de base du chapitre 1 sur un ensemble de données de biodiversité à grande échelle. La deuxième partie de cette thèse traite de la comparaison des nuages de points résultant de MDS à grande échelle et envisage la possibilité de travailler sur des nuages de points réduits. Le chapitre 3 traite de la comparaison de nuages de points issus de MDS à grande échelle, tels que ceux obtenus dans la première partie de la thèse. Nous montrons qu’une analyse Procustéenne peut être réalisée efficacement avec seulement quelques points de repère partagés, ce qui permet de réduire considérablement la partie de la matrice d’entrée à calculer. Le chapitre 4 vise à construire une MDS réduite qui opère sur un sous-ensemble de points du nuage. L’algorithme peut être apparenté à de l’échantillonnage uniforme. Cependant, contrairement à la plupart des publications sur l’échantillonnage qui visent à compresser un échantillon original, nous construisons un échantillon d’un modèle sans supposer que nous disposons d’un échantillon original et sans connaître le modèle. La technique de référence utilisée dans les chapitres 3 et 4 exige que nous calculions quelques éléments hors diagonaux en plus des grands blocs diagonaux. Le chapitre 5 examine la possibilité de le faire sans aucun élément hors (blocs) diagonaux.