Thèse soutenue

Approche Tenseur-Train pour l’inférence dans les modèles à blocs stochastiques, application à la caractérisation de la biodiversité

FR  |  
EN
Auteur / Autrice : Mohamed Anwar Abouabdallah
Direction : Olivier CoulaudNathalie Peyrard
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées et calcul scientifique
Date : Soutenance le 02/02/2023
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Agnès Bouchez
Examinateurs / Examinatrices : Pierre-Henri Wuillemin
Rapporteurs / Rapporteuses : Sophie Donnet, Jean-René Poirier

Résumé

FR  |  
EN

Le modèle à blocs stochastiques (SBM, Stochastic Block Model) est un modèle graphique particulier permettant de classer des individus sur la base de leurs distances deux à deux. Il construit des groupes d’individus partageant les mêmes profils de distance intra et inter groupe. L’estimation des paramètres d’un SBM se fait classiquement par l’algorithme EM (Expectation-Maximisation) qui à chaque itération demande le calcul des marginales unaires et binaires de la loi jointe conditionnelle des groupes des individus. Une manière de faire ce calcul est de passer par une approximation champ moyen du modèle où les marginales binaires sont calculées comme produit des marginales unaires. C’est ce qui est mis en œuvre dans l’algorithme Variational EM. Cet algorithme conduit à des estimateurs de bonne qualité, cependant, on peut espérer améliorer l’inférence des marginales binaires.L’objectif de ces travaux de thèse est de proposer une approche plus précise pour le calcul des marginales binaires faisant appel à l’algèbre tensorielle, par une approche de type Tensor Train (TT), en étendant l’approche de Novikov & al, 2014 sur le calcul de la constante de normalisation d’un modèle graphique.Dans un premier temps, afin de motiver ce travail méthodologique sur les SBM, nous avons réalisé un clustering de matrices de distances génétiques dans un échantillon de marqueurs génétiques d’une placette expérimentale d’arbres guyanais. Nous avons montré les similitudes et complémentarités entre les classifications obtenues par SBM et par les méthodes plus classiques de Classification Ascendante Hiérarchique. Ce travail a également permis de clarifier le lien entre la taxonomie botanique et la diversité moléculaire présentes dans un échantillon.Ensuite, pour développer l’approche TT, nous considérons la loi jointe conditionnelle du SBM comme les éléments d’un tenseur. Nous l’approchons par un tenseur de format TT, développé par Oseledets & al., 2011 où chaque élément est obtenu par produit de matrices. Cette écriture mène naturellement à la simplification des calculs de marginalisation par distributivité et séparation des variables, où les marginales sont calculées par des produits matriciels. Cependant, l’approche TT appliquée au SBM débouche sur des calculs matriciels en très grande dimension conduisant à une complexité exponentielle avec le nombre d’individus. Nous avons utilisé le format TT-matrix pour les calculs matriciels, et avons traité les difficultés suivantes apparues lors des calculs :(i) éviter des nombres trop petits par une procédure d’homothétie(ii) contrôler le rang des TT-matrices par un choix des paramètres à l’entrée de l’algorithme du «rounding» proposée par Oseledets sans perdre en précision.(iii) limiter l’ordre des TT-matrice par une agrégation de ces cores.Ainsi, les contributions de la thèse sont les suivantes : (i) une écriture exacte de la loi jointe conditionnelle d’un modèle SBM comme un tenseur au format TT, sans approximations, en tirant parti du fait que les facteurs sont au plus binaires, cette approche peut s’appliquer plus généralement à tout modèle graphique dont les facteurs sont au plus binaires ;(ii) un algorithme de type programmation dynamique pour le calcul des marginales binaires ;(iii) une procédure opérationnelle qui intègre quelques solutions aux verrous numériques présentés plus haut.Enfin, nous avons comparé sur une grande variété de modèles SBM la précision du calcul des marginales unaires et binaires, et les temps du calcul obtenus par l’approche TT et par trois autres méthodes : simple énumération, échantillonneurs de Gibbs, approximation par champ moyen. L’approche TT est plus précise que l’approximation par champ moyen et plus rapide que l’échantillonneur de Gibbs sans perdre en précision.