Thèse soutenue

Gestion de donnée complexes pour la modélisation de niche écologique

FR  |  
EN
Auteur / Autrice : Ndiouma Bame
Direction : Bernd AmannSamba Ndojh Ndiaye
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/06/2015
Etablissement(s) : Paris 6 en cotutelle avec Université Cheikh Anta Diop (Dakar, Sénégal ; 1957-....)
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Examinateurs / Examinatrices : Hubert Naacke, Régine Vignes-Lebbe, Idrissa Sarr, Maude Manouvrier
Rapporteurs / Rapporteuses : Claudia Lucia Roncancio, Pascal Molli

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse concerne la gestion de données de biodiversité à large échelle. Elle a pour objectifs d’optimiser les requêtes pour les chercheurs qui peuvent accéder gratuitement aux données mondiales de biodiversité. Ces données partagées par des laboratoires de recherche du monde entier, sont mises à disposition du GBIF qui les fédère et les rend accessibles aux chercheurs, décideurs, grand public. Avec une quantité importante et une croissance rapide des données et des utilisateurs qui expriment de nouveaux besoins, le GBIF est confronté à un double problème d’expressivité des requêtes et d’efficacité. Ainsi, nous proposons une solution décentralisée pour l’interrogation des données de biodiversité. La solution cumule les ressources de plusieurs machines éloignées et peu puissantes pour offrir la puissance de calcul et de stockage nécessaire pour garantir la réactivité du système pour les usagers. En outre, elle fournit une interface d’interrogation de haut niveau qui est plus expressif pour les usagers. Puis, nous mettons en œuvre un mécanisme de répartition dynamique des données à la demande. Cette approche qui est basée sur la structure des données de biodiversité et les spécificités des requêtes d’analyse des usagers, adapte dynamiquement les capacités des machines aux demandes des usagers. Ensuite, nous proposons une approche d’optimisation de requêtes qui adapte dynamiquement le placement des données et la charge de chaque machine en fonction de ses performances pour traiter les requêtes des usagers dans des délais impartis. Nous avons validé expérimentalement cette solution avec des données réelles du GBIF concernant 100 millions observations.