Découverte de nouvelles classes dans les données tabulaires : une application au diagnostic de pannes des réseaux
Auteur / Autrice : | Colin Troisemaine |
Direction : | Sandrine Vaton |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/10/2024 |
Etablissement(s) : | Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et le numérique |
Partenaire(s) de recherche : | Laboratoire : Equipe Math & Net - Département Informatique - Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance |
Entreprise : Orange (entreprise) | |
Jury : | Président / Présidente : Éric Fabre |
Examinateurs / Examinatrices : Sandrine Vaton, Michèle Sebag, Pascale Kuntz-Cosperec, Catherine Lepers, Stéphane Gosselin, Alexandre Reiffers-Masson | |
Rapporteur / Rapporteuse : Michèle Sebag, Pascale Kuntz-Cosperec |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse porte sur la découverte de nouvelles classes dans le contexte de données tabulaires. Le problème de Novel Class Discovery (NCD) consiste à extraire d’un ensemble étiqueté de classes déjà connues des connaissances qui permettront de partitionner plus précisément un ensemble non étiqueté de nouvelles classes. Bien que le NCD ait récemment fait l’objet d’une grande attention de la part de la communauté, il est généralement résolu sur des problèmes de vision par ordinateur et parfois dans des conditions irréalistes. En particulier, le nombre de nouvelles classes est souvent supposé étant connu à l’avance, et leurs étiquettes sont parfois utilisées pour ajuster les hyperparamètres. Les méthodes qui reposent sur ces hypothèses ne sont pas applicables aux scénarios du monde réel. C’est pourquoi dans cette thèse nous nous concentrons sur la résolution de découverte dans les données tabulaires lorsqu’aucune connaissance a priori n’est disponible. Les méthodes développées au cours de la thèse sont appliquées à un cas réel : le diagnostic automatique des pannes dans les réseaux de télécommunication, spécifiquement les réseaux d’accès à fibre optique. Le but est d’avoir une gestion efficace des pannes, en particulier au stade du diagnostic lorsque des pannes inconnues (nouvelles classes) peuvent apparaitre.