Thèse soutenue

Système d'apprentissage par auto-observation : Application au jeu de go

FR
Auteur / Autrice : Tristan Cazenave
Direction : Jacques Pitrat
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1996
Etablissement(s) : Paris 6

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Cette thèse dècrit un système d'apprentissage par auto-observation, Introspect, qui crée automatiquement, pour un domaine donné, les connaissances qui font des coupes dans les arbres de recherche développés dans ce domaine. Introspect utilise une représentation des connaissances à base de logique des prédicats. Il représente ses connaissances de façon différente suivant qu'il veut apprendre de nouvelles connaissances ou qu'il veut utiliser les connaissances qu'il a apprises. Dans la phase d'apprentissage il utilise une représentation générale qui lui permet d'apprendre des règles générales en utilisant peu d'exemples. Il possède un mécanisme de compilation logique qui lui permet de filtrer les règles apprises rapidement. Introspect utilise l'évaluation partielle de certaines prémisses des règles pour pouvoir filtrer les règles apprises encore plus rapidement lorsqu'il les utilise dans un autre but que l'apprentissage. De plus, afin de pouvoir s'auto-observer en phase d'apprentissage, Introspect résout les problèmes avec une représentation qu'il peut manipuler. Il interprète ses règles et mémorise leurs déclenchements. Ceci n'est plus utile en phase d'utilisation, c'est pourquoi il compile ses règles en programmes C++ pour pouvoir les utiliser efficacement. Une extension de la théorie combinatoire des jeux à des valeurs inconnues est définie qui permet de représenter des connaissances partielles sur des jeux complexes. Introspect ne possède au départ qu'une définition simple et concise des buts qu'il doit atteindre et un ensemble de règles décrivant les conséquences directes d'une action. A partir des exemples qu'il rencontre, il se spécialise automatiquement en un autre programme qui permet de prévoir efficacement à long terme les conséquences de ses actions sur l'achévement des buts définis. La combinaison de ces diverses méthodes m'a permis d'écrire en une année un programme de go qui a sa place dans les compétitions mondiales de programmes de go. Ma méthode d'apprentissage est générale et peut être appliquée à d'autres domaines que celui du jeu de go. Je donne des exemples d'applications pour le jeu d'abalone et pour la prévision en gestion. Dans ces domaines aussi, Introspect remplace la recherche combinatoire par le filtrage d'une base de règles apprises.