Vers une meilleure efficacité et généralisation en apprentissage par imitation : une perspective causale
| Auteur / Autrice : | Mohamed Khalil Jabri |
| Direction : | Gilles Coppin, Javen Shi |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 04/12/2024 |
| Etablissement(s) : | Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire en cotutelle avec University of Adelaide (Australie) |
| Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et le numérique |
| Partenaire(s) de recherche : | Laboratoire : Equipe Robot interaction, Ambient system, Machine learning, Behaviour, Optimization - Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance (Brest ; 2012-....) |
| Jury : | Président / Présidente : David Daney |
| Examinateurs / Examinatrices : Gilles Coppin, Javen Shi, François Charpillet, Mehdi Khamassi, Aurélie Clodic, Gilles Le Chenadec | |
| Rapporteurs / Rapporteuses : François Charpillet, Mehdi Khamassi |
Résumé
L'apprentissage par imitation, ou apprentissage à partir de démonstrations, est devenu une alternative pratique à l'apprentissage par renforcement en contournant les défis liés à la conception des fonctions de récompense, mais il reste limité par des problèmes d'efficacité en termes d'échantillons et de généralisation. La reconnaissance croissante du rôle de la causalité dans l'amélioration des approches d'apprentissage a conduit à des avancées récentes dans ce domaine. Cette thèse explore des méthodes inspirées par la causalité pour surmonter ces obstacles. D'abord, elle propose un cadre utilisant des modèles causaux structurels (SCMs) et des données contrefactuelles pour améliorer l'estimation des fonctions de récompense dans l'apprentissage par imitation conditionné sur des objectifs, avec moins de données. Ensuite, elle présente une méthode pour identifier des caractéristiques causales invariantes à travers divers environnements sans supervision de domaine, améliorant ainsi la capacité du modèle à être généralisé. Les résultats empiriques valident l'efficacité de ces approches basées sur la causalité, tout en offrant des perspectives plus larges sur l'intégration de ce concept dans les approches de prise de décision.