Thèse soutenue

Algorithmes d’apprentissage machine appliqués au contexte dynamique de l’internet des objets

FR  |  
EN
Auteur / Autrice : Dihia Boulegane
Direction : Albert Bifet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/09/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Jesse Read
Examinateurs / Examinatrices : Jesse Read, Antoine Cornuéjols, Rosanna Verde, Georges Hébrail, Vincent Lemaire, Raja Chiky, Giyyarpuram Madhusudan
Rapporteur / Rapporteuse : Antoine Cornuéjols, Rosanna Verde

Résumé

FR  |  
EN

La croissance rapide de l’Internet des Objets (IdO) ainsi que la prolifération des capteurs ont donné lieu à diverses sources de données qui génèrent continuellement de grandes quantités de données et à une grande vitesse sous la forme de flux. Ces flux sont essentiels dans le processus de prise de décision dans différents secteurs d’activité et ce grâce aux techniques d’intelligence artificielle et d’apprentissage automatique afin d’extraire des connaissances précieuses et les transformer en actions pertinentes. Par ailleurs, les données sont souvent associées à un indicateur temporel, appelé flux de données temporel qui est défini comme étant une séquence infinie d’observations capturées à intervalles réguliers, mais pas nécessairement. La prévision est une tâche complexe dans le domaine de l’IA et vise à comprendre le processus générant les observations au fil du temps sur la base d’un historique de données afin de prédire le comportement futur. L’apprentissage incremental et adaptatif est le domaine de recherche émergeant dédié à l’analyse des flux de données. La thèse se penche sur les méthodes d’ensemble qui fusionnent de manière dynamique plusieurs modèles prédictifs accomplissant ainsi des résultats compétitifs malgré leur coût élevé en termes de mémoire et de temps de calcul. Nous étudions différentes approches pour estimer la performance de chaque modèle de prévision individuel compris dans l’ensemble en fonction des données en introduisant de nouvelles méthodes basées sur le fenêtrage et le méta-apprentissage. Nous proposons différentes méthodes de sélection qui visent à constituer un comité de modèles précis et divers. Les prédictions de ces modèles sont ensuite pondérées et agrégées. La deuxième partie de la thèse traite de la compression des méthodes d’ensemble qui vise à produire un modèle individuel afin d’imiter le comportement d’un ensemble complexe tout en réduisant son coût. Pour finir, nous présentons ”Real-Time Machine Learning Competition on Data Streams”, dans le cadre de BigDataCup Challenge de la conférence IEEE Big Data 2019 ainsi que la plateforme dédiée SCALAR.