Thèse en cours

Apprentissage automatique et analyse de données alternatives pour l'investissement quantitatif

FR  |  
EN
Auteur / Autrice : Yuyang Zhao
Direction : Mathieu RosenbaumEduardo Abi jaber
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/09/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques (Palaiseau, Essonne ; ....-2004)
Equipe de recherche : Mathématiques financières (X)

Résumé

FR  |  
EN

Dans cette thèse, nous voulons étudier l'application de l'apprentissage automatique et l'utilisation de données alternatives dans l'investissement quantitatif. Plus précisément, nous étudierons les grandes questions suivantes. - Pour les données alternatives, quelle est la valeur ajoutée de l'apprentissage automatique par rapport aux modèles de régression linéaire ou logistique ? - Quels sont les modèles d'apprentissage automatique et les techniques d'ingénierie des caractéristiques les plus appropriés pour les données alternatives ? - Comment savoir si les prédictions faites par les modèles d'apprentissage automatique sont intuitivement et fondamentalement raisonnables ? - Comment éviter l'ajustement excessif dans les études empiriques ? - Pourquoi les modèles d'apprentissage automatique sont-ils si puissants qu'ils ont surpassé la prise de décision humaine dans diverses circonstances ? Avec la demande croissante du secteur de l'investissement et la baisse du coût des calculs et des données, les sources de données disponibles sur les marchés financiers deviennent de plus en plus abondantes et diversifiées. Il existe des sources de données traditionnelles telles que les états financiers, les appels de bénéfices et les offres d'actions. En outre, il existe également des types de données générées par des capteurs et des individus, au lieu d'être générées par l'entreprise. C'est ce qu'on appelle les données alternatives, par exemple les transactions par carte de crédit, l'imagerie satellitaire et les sentiments exprimés dans les médias sociaux. Elles se sont avérées utiles pour évaluer le crédit, prédire l'évolution du cours des actions et surveiller la santé d'une entreprise. Malgré son large éventail d'applications, l'utilisation de données alternatives pose encore quelques problèmes. Elles sont moins bien formatées et manquent parfois de structure. Un certain degré de normalisation est nécessaire pour mettre les données alternatives à la disposition du commerce. Un autre défi lié à l'adoption de données alternatives dans le domaine financier est la qualité de l'information. Par exemple, certains participants peuvent manipuler le marché en soumettant de faux ordres et en vantant les mérites d'une action particulière sur les médias sociaux. Il est donc nécessaire de mettre en place un processus de contrôle de la qualité des données. C'est pourquoi nous avons besoin de l'apprentissage automatique. La littérature actuelle a démontré empiriquement la puissance de l'apprentissage automatique dans l'accomplissement de tâches telles que la redéfinition du risque de crédit (Roa et al., 2021), la découverte de nouveaux indicateurs des prix des actions (Jansen, 2020) et la prédiction des difficultés des entreprises (Jiang, 2018). Les données alternatives se caractérisent généralement par leur 1) hétérogénéité, 2) nature non numérique, 3) myriade et 4) déséquilibre. Cela nécessite une compréhension approfondie des algorithmes d'apprentissage automatique et des méthodes d'ingénierie des caractéristiques. - Une quantité considérable de données alternatives n'est pas numérique, par exemple les commentaires des médias sociaux et les photos satellites. Pour contribuer à ce corpus de littérature ou d'images, nous avons l'intention d'utiliser des algorithmes d'apprentissage automatique spécifiés plus avancés, comme des modèles de traitement du langage naturel, par exemple, Bidirectional Encoder Representations from Transformers (BERT) (Devlin et al., 2018), et des modèles de vision par ordinateur, par exemple, Convolutional Neural Networks (CNN) (Kunihiko Fukushima, 1980). Grâce à ces modèles, nous espérons pouvoir effectuer une classification plus fine et une analyse de similarité sur les données. - Le champ d'application des sources de données alternatives s'est considérablement élargi (Monk et al., 2019). La manière d'extraire des informations précieuses de la myriade de données devient cruciale. La capacité de l'apprentissage automatique à identifier les dépendances non linéaires dans les grands ensembles de données en a fait la méthodologie de pointe pour détecter des modèles complexes et sélectionner les meilleures variables explicatives parmi les données. En outre, la révolution des capacités de calcul, par exemple les GPU (unités de traitement graphique) et l'informatique en nuage, a rendu possibles les calculs à grande échelle requis par les algorithmes d'apprentissage automatique. Dans le monde des affaires, le développement du marché financier (qui nous fournit un volume considérable de données historiques) et l'émergence de données lisibles par machine (telles que XBRL, le langage extensible Business Reporting Language, depuis 2012) ont permis l'application de l'apprentissage automatique sur des données alternatives. - Les données alternatives, lorsqu'elles sont utilisées comme étiquettes pour des problèmes de classification, sont souvent déséquilibrées. En outre, les fonctions d'utilité des décideurs ne sont pas toujours uniformes et confrontées au même degré de profit et de perte. Pour résoudre ces problèmes, nous prévoyons 1) utiliser des techniques comme le suréchantillonnage, le sous-échantillonnage et la technique de suréchantillonnage des minorités synthétiques (SMOTE) (Chawla, 2009) comme dans Perols et al. (2017) ; 2) personnaliser la fonction de perte pour mieux modéliser l'utilité asymétrique du décideur. L'une des questions les plus fréquemment abordées à propos de l'apprentissage automatique est celle de son interprétabilité. Les gens se demandent en particulier si le mécanisme de prédiction de la machine est fondamentalement logique et s'il ne s'agit pas d'une simple exploration de données. Nous avons l'intention de répondre à cette préoccupation par des approches multiples. - Nous étudierons les modèles arborescents en raison de leur interprétabilité et de leurs performances supérieures. L'arbre de décision ressemble à la procédure de prise de décision d'un décideur sophistiqué. En outre, nous utiliserons l'apprentissage d'ensemble pour améliorer les performances du modèle. L'arbre de regroupement, tel que la forêt aléatoire (Breiman, 2001), modélise le processus de vote d'un groupe de décideurs, tandis que l'arbre de renforcement, tel que les arbres de décision de renforcement du gradient (Friedman, 2001), modélise le processus d'apprentissage d'un seul décideur. Par conséquent, les modèles d'arbres ont un plus grand potentiel d'interprétation intuitive. - Après avoir construit le modèle, nous voulons effectuer une analyse de sensibilité pour vérifier si le changement dans les prédictions par rapport aux prédicteurs est cohérent avec les études antérieures. Par exemple, les résultats théoriques (Stigler, 1963) et empiriques (Fama et French, 2000) ont démontré la propriété de retour à la moyenne de la rentabilité. Il est donc essentiel de vérifier l'effet de la rentabilité retardée sur la prédiction faite par un modèle d'apprentissage automatique. - Pour aller plus loin, nous voulons étudier systématiquement le mécanisme de prédiction du modèle. Pour ce faire, nous essaierons de faire pousser des arbres moins profonds et d'examiner comment ils ont été divisés par l'algorithme. En outre, nous pouvons utiliser des outils créés par des informaticiens tels que inTrees (Deng, 2019) pour décoder les modèles d'arbres d'ensemble. Un autre problème de l'apprentissage automatique est l'ajustement excessif. La littérature récente a reconnu l'importance de distinguer les ensembles d'apprentissage et de test. Cependant, il existe toujours un risque de surajustement implicite qui est plus difficile à détecter. Les chercheurs peuvent ne pas raisonner (ou ne raisonner que partiellement) la spécification du modèle ou les valeurs des hyperparamètres (Hunt et al., 2019, Fu et al., 2018). Dans ce scénario, il n'est pas convaincant d'affirmer qu'un certain modèle est plus performant, car cela peut simplement être dû à un meilleur ensemble d'hyperparamètres par hasard. Pire encore, des personnes peuvent tricher en recherchant et en biaisant de manière opportuniste les hyperparamètres sans divulguer leurs actions. Pour résoudre le problème de l'ajustement excessif, nous combinerons nos connaissances en mathématiques et notre maîtrise des algorithmes d'apprentissage automatique pour sélectionner le modèle le plus approprié. Ensuite, pour régler les hyperparamètres, nous séparerons rigoureusement les ensembles d'entraînement, de test et de validation sans parti pris prospectif. Pour réaliser cette tâche plus efficacement, nous avons l'intention d'utiliser des algorithmes tels que l'optimisation bayésienne (Frazier, 2018). En outre, nous testerons la sensibilité du modèle concernant les hyperparamètres afin de mieux comprendre comment ils affectent les performances du modèle. En conclusion, l'utilisation de données alternatives est devenue plus courante dans la gestion des investissements, et nous espérons que l'application de l'apprentissage automatique dans ce domaine pourra nous aider à mieux comprendre les marchés financiers. REFERENCES Breiman L, Random forests. Machine Learning, 45(1):5–32, 2001. Chawla V. Data mining for imbalanced datasets: An overview. Data Mining and Knowledge Discovery Handbook, pages 875–886, 2009. Deng H. Interpreting tree ensembles with intrees. International Journal of Data Science and Analytics, 7(4):277–287, 2019. Devlin J, Chang MW, Lee K, and Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. Fama F and French K. Forecasting profitability and earnings. The Journal of Business, 73(2):161–175, 2000. Ferri F, Pudil P, Hatef M, and Kittler J. Comparative study of techniques for large-scale feature selection. Machine Intelligence and Pattern Recognition, volume 16, pages 403–413. Elsevier, 1994. Frazier P. A tutorial on bayesian optimization. arXiv preprint arXiv:1807.02811, 2018. Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics, pages 1189–1232, 2001. Fu X, Du J, Guo Y, Liu M, Dong T and Duan X. A machine learning framework for stock selection. arXiv preprint arXiv:1806.01743, 2018. Hansen, K. B., & Borch, C. Alternative data and sentiment analysis: Prospecting non-standard data in machine learning-driven finance. Big Data & Society, 9(1), 2022. Huerta R, Corbacho F and Elkan C. Nonlinear support vector machines can systematically identify stocks with high and low future returns. Algorithmic Finance, 2(1):45–58, 2013. Hunt, J, Myers, J, and Myers, L. Improving earnings predictions with machine learning. Unpublished working paper, 2019. Jiang Y and Stewart J. Corporate distress prediction in China: a machine learning approach. https://doi.org/10.1111/acfi.12432, 2018. Monk A, Marcel P and Rook D. Rethinking alternative data in institutional investment. The Journal of Financial Data Science 1(1): 14–31, 2019. Perols, Johan. Financial statement fraud detection: An analysis of statistical and machine learning algorithms. Auditing: A Journal of Practice & Theory, 30(2):19–50, 2011. Roa L, Rodriguez-Rey A, Correa-Bahnsen A and Valencia C. Supporting Financial Inclusion with Graph Machine Learning and Super-App Alternative Data. arXiv preprint arXiv:2102.09974, 2021. Stigler, Capital. Rates of Return in Manufacturing Industries. Princeton: Princeton University Press, 1963.