Forêt Aléatoire, Hyperparamètres d'Optimisation, Parallélisation de GPU et Application à l'Analyse de Sol pour l'Optimisation des Cultures
Auteur / Autrice : | Kennedy Mutange Senagi |
Direction : | Nicolas Jouandeau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 03/10/2019 |
Etablissement(s) : | Paris 8 |
Ecole(s) doctorale(s) : | École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....) |
Partenaire(s) de recherche : | Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis |
Jury : | Président / Présidente : Maria Rifqi |
Examinateurs / Examinatrices : Christophe Marsala, Farès Belhadj, Jean-Noël Vittaut | |
Rapporteur / Rapporteuse : Tristan Cazenave, Marcin Paprzycki |
Résumé
Les travaux développés dans cette thèse se sont concentrés sur l’évaluation des algorithmes d’Apprentissage Automatique au travers de l’algorithme des forêts aléatoires (Random Forest). L’évaluation des terres pour une production optimale des cultures est aujourd’hui fait manuellement, ce qui la rend longue et prédisposé aux erreurs humaines. Certains algorithmes d’Apprentissage Automatique (régression linéaire, analyse factorielle discriminante, k-plus proches voisins, gaussien naïf et bayésien, séparateurs à vaste marge) ont été testés et évalués sur des ensembles de données. L’algorithme des forêts aléaloires a permis de développer un classifieur des données sur les sols, et a permis le développement d’un expert sans implication d’un expert humain en science du sol. Cette approche peut améliorer le processus d’évaluation des terres et offrir des services d’évaluation des terres agricoles. Deux approches d’optimisation des performances de l’algorithme des forêts aléatoires ont été développées. Tout d’abord, un algorithme non déterministe a été formulé pour optimiser le temps d’exécution et la précision. Les résultats ont été comparés aux résultats d’une recherche exhaustive déterministe. Ensuite, les moyens d’opter pour la parallélisation de la construction des forêts aléatoires sur GPU a été avaluée pour réduire le temps d’exécution de l’apprentissage d’un tel classifieur. Version séquenciel, version parallèle et version parallèle à gros grain dynamique ont été étudiés et proposés dans des solutions nommées respectivement seqRFGPGPU, parRFGPU et dpRFGPU. Les résultats montrent que seqRFGPGPU obtient des temps d’exécution réduit, avec des accélérations moyennes intéressantes pour parRFGPU et dpRFGPU. La mise au point de l’algorithme RF a conduit historiquement au développement de nombreuses bibliothèques implémentant cet algorithme et à son utilisation sur une variété très diversifiée de problèmes et d’ensembles de données. La plupart des implémentations de RF sont basées sur une idée originale proposée par Léo Breiman en 2001. Les variations vont des plates-formes de mise en oeuvre à l’introduction de nouvelles idées comme de nouvelles approches de division des données, afin d’améliorer les performances et la précision. Les solutions d’optimisation des hyperparamètres et de parallélisation GPU en sont examinées dans la version complète de cette thèse rédigée.