On the similarities of trees : the interest of enumeration and compression methods

Florian Ingels

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Sur la similarité des arbres : l’intérêt des méthodes d’énumération et de compression

FR |

EN

Auteur / Autrice :	Florian Ingels
Direction :	Christophe Godin
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 19/09/2022
Etablissement(s) :	Lyon, École normale supérieure
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche :	Entreprise : Institut national de recherche en informatique et en automatique (France). Centre de recherche de l'université Grenoble Alpes
	Laboratoire : Laboratoire de Reproduction et Développement des Plantes (Lyon ; 1993-....)
Jury :	Président / Présidente : Marie-France Sagot
	Examinateurs / Examinatrices : Christophe Godin, Marie-France Sagot, Gabriel Valiente, Nathalie Villa-Vialaneix, Romain Azaïs, Matěj Stehlík
	Rapporteurs / Rapporteuses : Gabriel Valiente, Nathalie Villa-Vialaneix

Mots clés

FR |

EN

Mots clés contrôlés

Analyse combinatoire énumérative

Arbres (théorie des graphes)

Mots clés libres

Arbres enracinés

Graphes dirigés acycliques

Énumération

Isomorphismes d’arbres

Recherche inverse

Noyaux de convolution

Résumé

FR |

EN

Les arbres sont des données qui apparaissent naturellement dans de nombreux domaines scientifiques. Leur nature intrinsèquement non euclidienne ainsi que le phénomène d’explosion combinatoire rendent leur analyse délicate. On s’intéresse dans cette thèse à trois approches permettant de comparer des arbres, sous le prisme notamment d’une technique de compression sans perte des arbres par des graphes dirigés acycliques. D’abord, concernant l’isomorphisme d’arbres, nous considérons une extension de la définition classique aux arbres étiquetés, qui requiert que les arbres soient identiques à réécriture des étiquettes près. Ce problème est aussi dur que l’isomorphisme de graphes, et nous avons développé un algorithme qui réduit drastiquement la taille de l’espace de recherche des solutions, qui est ensuite exploré avec une stratégie de retour sur trace. Lorsque deux arbres sont différents, on peut chercher à en trouver des sous-structures communes. Si cette question a déjà été traitée pour les sous-arbres, nous nous intéressons à un problème plus large, celui de trouver des ensembles de sous-arbres apparaissant simultanément. Cela nous amène à considérer l’énumération des forêts, pour laquelle nous proposons un algorithme de type “reverse search” qui construit un arbre d’énumération dont le facteur de branchement est linéaire. Enfin, à partir d’une liste de sous-structures communes, on peut construire un noyau de convolution qui permet d’aborder des problèmes de classification. Nous reprenons de la littérature le noyau des sous-arbres, et construisons un algorithme qui les énumère explicitement (contrairement à la méthode originale). Notre approche permet notamment de paramétrer plus finement le noyau, améliorant significativement les capacités de classification.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Sur la similarité des arbres : l’intérêt des méthodes d’énumération et de compression

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Sur la similarité des arbres : l’intérêt des méthodes d’énumération et de compression

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses