Algorithmes d’apprentissage machine appliqués au contexte dynamique de l’internet des objets
Auteur / Autrice : | Dihia Boulegane |
Direction : | Albert Bifet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 01/09/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Jesse Read |
Examinateurs / Examinatrices : Jesse Read, Antoine Cornuéjols, Rosanna Verde, Georges Hébrail, Vincent Lemaire, Raja Chiky, Giyyarpuram Madhusudan | |
Rapporteur / Rapporteuse : Antoine Cornuéjols, Rosanna Verde |
Mots clés
Résumé
La croissance rapide de l’Internet des Objets (IdO) ainsi que la prolifération des capteurs ont donné lieu à diverses sources de données qui génèrent continuellement de grandes quantités de données et à une grande vitesse sous la forme de flux. Ces flux sont essentiels dans le processus de prise de décision dans différents secteurs d’activité et ce grâce aux techniques d’intelligence artificielle et d’apprentissage automatique afin d’extraire des connaissances précieuses et les transformer en actions pertinentes. Par ailleurs, les données sont souvent associées à un indicateur temporel, appelé flux de données temporel qui est défini comme étant une séquence infinie d’observations capturées à intervalles réguliers, mais pas nécessairement. La prévision est une tâche complexe dans le domaine de l’IA et vise à comprendre le processus générant les observations au fil du temps sur la base d’un historique de données afin de prédire le comportement futur. L’apprentissage incremental et adaptatif est le domaine de recherche émergeant dédié à l’analyse des flux de données. La thèse se penche sur les méthodes d’ensemble qui fusionnent de manière dynamique plusieurs modèles prédictifs accomplissant ainsi des résultats compétitifs malgré leur coût élevé en termes de mémoire et de temps de calcul. Nous étudions différentes approches pour estimer la performance de chaque modèle de prévision individuel compris dans l’ensemble en fonction des données en introduisant de nouvelles méthodes basées sur le fenêtrage et le méta-apprentissage. Nous proposons différentes méthodes de sélection qui visent à constituer un comité de modèles précis et divers. Les prédictions de ces modèles sont ensuite pondérées et agrégées. La deuxième partie de la thèse traite de la compression des méthodes d’ensemble qui vise à produire un modèle individuel afin d’imiter le comportement d’un ensemble complexe tout en réduisant son coût. Pour finir, nous présentons ”Real-Time Machine Learning Competition on Data Streams”, dans le cadre de BigDataCup Challenge de la conférence IEEE Big Data 2019 ainsi que la plateforme dédiée SCALAR.