Thèse soutenue

Apprentissage incrémental de la structure d’un réseau bayésien à partir de flux de données

FR  |  
EN
Auteur / Autrice : Amanullah Yasin
Direction : Philippe Leray
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
Jury : Président / Présidente : Marc Gelgon
Examinateurs / Examinatrices : Philippe Leray, Marc Gelgon, Florent Masseglia, Ioannis Tsamardinos, Pierre-François Marteau, Karim Tabia
Rapporteur / Rapporteuse : Florent Masseglia, Ioannis Tsamardinos

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Dans la dernière décennie, l’extraction du flux de données est devenue un domaine de recherche très actif. Les principaux défis pour les algorithmes d’analyse de flux sont de gérer leur infinité, de s’adapter au caractère non stationnaire des distributions de probabilités sous-jacentes, et de fonctionner sans relecture. Par conséquent, les techniques traditionnelles de fouille ne peuvent s’appliquer directement aux flux de données. Le problème s’intensifie pour les flux dont les domaines sont de grande dimension tels que ceux provenant des réseaux sociaux, avec plusieurs centaines voire milliers de variables. Pour rester a jour, les algorithmes d’apprentissage de réseaux Bayésiens doivent pouvoir intégrer des données nouvelles en ligne. L’état de l’art en la matiere implique seulement plusieurs dizaines de variables et ces algorithmes ne fonctionnent pas correctement pour des dimensions supérieures. Ce travail est une contribution au problème d’apprentissage de structure de réseau Bayésien en ligne pour des domaines de haute dimension, et a donné lieu à plusieurs propositions. D’abord, nous avons proposé une approche incrémentale de recherche locale, appelée iMMPC. Ensuite, nous avons proposé une version incrémentale de l’algorithme MMHC pour apprendre la structure du réseau. Nous avons également adapté cet algorithme avec des mécanismes de fenêtre glissante et une pondération privilégiant les données nouvelles. Enfin, nous avons démontré la faisabilité de notre approche par de nombreuses expériences sur des jeux de données synthétiques.