Apprentissage incrémental de la structure d’un réseau bayésien à partir de flux de données
Auteur / Autrice : | Amanullah Yasin |
Direction : | Philippe Leray |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2013 |
Etablissement(s) : | Nantes |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et mathématiques (Nantes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) |
Jury : | Président / Présidente : Marc Gelgon |
Examinateurs / Examinatrices : Philippe Leray, Marc Gelgon, Florent Masseglia, Ioannis Tsamardinos, Pierre-François Marteau, Karim Tabia | |
Rapporteur / Rapporteuse : Florent Masseglia, Ioannis Tsamardinos |
Mots clés
Mots clés contrôlés
Résumé
Dans la dernière décennie, l’extraction du flux de données est devenue un domaine de recherche très actif. Les principaux défis pour les algorithmes d’analyse de flux sont de gérer leur infinité, de s’adapter au caractère non stationnaire des distributions de probabilités sous-jacentes, et de fonctionner sans relecture. Par conséquent, les techniques traditionnelles de fouille ne peuvent s’appliquer directement aux flux de données. Le problème s’intensifie pour les flux dont les domaines sont de grande dimension tels que ceux provenant des réseaux sociaux, avec plusieurs centaines voire milliers de variables. Pour rester a jour, les algorithmes d’apprentissage de réseaux Bayésiens doivent pouvoir intégrer des données nouvelles en ligne. L’état de l’art en la matiere implique seulement plusieurs dizaines de variables et ces algorithmes ne fonctionnent pas correctement pour des dimensions supérieures. Ce travail est une contribution au problème d’apprentissage de structure de réseau Bayésien en ligne pour des domaines de haute dimension, et a donné lieu à plusieurs propositions. D’abord, nous avons proposé une approche incrémentale de recherche locale, appelée iMMPC. Ensuite, nous avons proposé une version incrémentale de l’algorithme MMHC pour apprendre la structure du réseau. Nous avons également adapté cet algorithme avec des mécanismes de fenêtre glissante et une pondération privilégiant les données nouvelles. Enfin, nous avons démontré la faisabilité de notre approche par de nombreuses expériences sur des jeux de données synthétiques.