Contributions to unsupervised domain adaptation : Similarity functions, optimal transport and theoretical guarantees - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Contributions to unsupervised domain adaptation : Similarity functions, optimal transport and theoretical guarantees

Contributions à l'adaptation de domaine non supervisée : Fonctions de similarité, transport optimal et garanties théoriques

Résumé

The surge in the quantity of data produced nowadays made of Machine Learning, a subfield of Artificial Intelligence, a vital tool used to extract valuable patterns from them and allowed it to be integrated into almost every aspect of our everyday activities. Concretely, a machine learning algorithm learns such patterns after being trained on a dataset called the training set, and its performance is assessed on a different set called the testing set. Domain Adaptation is an active research area of machine learning, in which the training and testing sets are not assumed to stem from the same probability distribution, as opposed to Supervised Learning. In this case, the two distributions generating the training and testing data correspond respectively to the source and target domains. Our contributions focus on three theoretical aspects related to domain adaptation for classification tasks. The first one is learning with similarity functions, which deals with classification algorithms based on comparing an instance to other examples in order to decide its class. The second is large-margin classification, which concerns learning classifiers that maximize the separation between classes. The third is Optimal Transport that formalizes the principle of least effort for transporting probability masses between two distributions. At the beginning of the thesis, we were interested in learning with so-called (epsilon,gamma,tau)-good similarity functions in the domain adaptation framework, since these functions have been introduced in the literature in the classical framework of supervised learning. This is the subject of our first contribution in which we theoretically study the performance of a similarity function on a target distribution, given it is suitable for the source one. Then, we tackle the more general topic of large-margin classification in domain adaptation, with weaker assumptions than those adopted in the first contribution. In this context, we proposed a new theoretical study and a domain adaptation algorithm, which is our second contribution. We derive novel bounds taking the classification margin on the target domain into account, that we convexify by leveraging the appealing Optimal Transport theory, in order to derive a domain adaptation algorithm with an adversarial variation of the classic Kantorovich problem. Finally, after noticing that our adversarial formulation can be generalized to include several other cases of interest, we dedicate our last contribution to adversarial or minimax variations of the optimal transport problem, where we demonstrate the versatility of our approach.
L'explosion de la quantité de données produites chaque jour a fait de l' l'Apprentissage Automatique un outil vital pour extraire des motifs de haute valeur à partir de celles-là. Concrètement, un algorithme d'apprentissage automatique apprend de tels motifs après avoir été entraîné sur un jeu de données appelé données d'entraînement, et sa performance est évaluée sur échantillon différent, appelé données de test. L'Adaptation de Domaine est une branche de l'apprentissage automatique, dans lequel les données d'entraînement et de test ne sont plus supposées provenir de la même distribution de probabilité. Dans ce cas, les deux distributions des données d'entraînement et de test correspondent respectivement aux domaines source et cible. Nos contributions se focalisent sur trois aspects théoriques en relation avec l'adaptation de domaine pour les tâches de classification. Le premier est l'apprentissage avec des fonctions de similarité, qui traite les algorithmes de classification basés sur la comparaison d'une instance à d'autres exemples pour décider sa classe. Le deuxième est la classification à vaste marge qui concerne l'apprentissage d'un classifieur maximisant la séparation entre classes. Le troisième aspect est le Transport Optimal qui formalise un principe d'effort minimal pour le transport de masses de probabilité entre distributions. Au début de cette thèse, nous nous intéressions à l'apprentissage avec ce que l'on appelle fonctions de similarités (epsilon,gamma,tau)-bonnes dans le cadre de l'adaptation de domaine, puisque ces fonctions ont été introduites dans la littérature dans le cadre classique de l'apprentissage supervisé. C'est le sujet de notre première contribution dans laquelle nous étudions théoriquement la performance d'une fonction de similarité sur une distribution cible, étant donné qu'elle est adéquate pour la source. Puis, nous abordons plus généralement le thème de la classification à vaste marge pour l'adaptation de domaine, avec des hypothèses de départ plus faibles que celles adoptées dans la première contribution. Dans ce contexte, nous proposons une nouvelle étude théorique et un algorithme d'adaptation de domaine, ce qui constitue notre deuxième contribution. Nous dérivons de nouvelles bornes prenant en compte la marge de classification dans le domaine cible, que nous convexifions en tirant profit de la théorie du Transport Optimal, en vue de dériver un algorithme d'adaptation de domaine présentant une variation adversariale du problème classique de Kantorovitch. Finalement, nous dédions notre dernière contribution aux variations adversariales ou minimax du problème du transport optimal, où nous démontrons l'adaptabilité de notre approche.
Fichier principal
Vignette du fichier
these.pdf (49.73 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03199646 , version 1 (15-04-2021)

Identifiants

  • HAL Id : tel-03199646 , version 1

Citer

Sofiane Dhouib. Contributions to unsupervised domain adaptation : Similarity functions, optimal transport and theoretical guarantees. Artificial Intelligence [cs.AI]. Université de Lyon, 2020. English. ⟨NNT : 2020LYSEI117⟩. ⟨tel-03199646⟩
209 Consultations
34 Téléchargements

Partager

Gmail Facebook X LinkedIn More