Une méthodologie polyvalente pour évaluer la consommation électrique et l'empreinte environnementale de l'entraînement de l'apprentissage machine : des supercalculateurs aux équipements embarqués
Auteur / Autrice : | Mathilde Jay |
Direction : | Denis Trystram, Laurent Lefevre |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 15/10/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale mathématiques, sciences et technologies de l'information, informatique |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique de Grenoble |
Jury : | Président / Présidente : Claudia Roncancio |
Examinateurs / Examinatrices : Denis Trystram, Emma Strubell, Aurelie Bugeau, Laurent Lefevre, Sylvain Bouveret, Claude Lepape, Anne-laure Ligozat | |
Rapporteur / Rapporteuse : Aurelie Bugeau, Anne-laure Ligozat |
Mots clés
Résumé
Le nombre d'applications basée sur l'intelligence artificielle (IA) développées et déployées ne cesse d'augmenter. L'impact de ces activités sur la biosphère, notamment sur le dérèglement climatique, attire l'attention depuis 2019, mais les méthodes d'évaluation nécessitent encore des améliorations. Des méthodes d'évaluation plus avancées et une meilleure compréhension de ces impacts sont nécessaires pour minimiser l'impact environnemental de l'intelligence artificielle. En mettant l'accent sur la phase d'entraînement, cette thèse étudie l'impact du machine learning (ML) sur l'environnement. Dans un premier temps, une étude est menée pour évaluer la consommation électrique des infrastructures informatiques en comparant les compteurs d'électricité actuellement utilisés, en se concentrant sur les unités de traitement graphique (GPU). La comparaison est étayée par de nombreuses expériences et repose sur des critères quantitatifs classiques, ainsi que sur des critères qualitatifs tels que la facilité d'utilisation, la configurabilité et la qualité de la documentation. Ces résultats sont utilisés pour analyser l'électricité nécessaire à l'entraînement de modèles sélectionnés à partir du benchmark MLPerf sur différentes infrastructures d'apprentissage automatique, allant d'un appareil embarqué à un supercalculateur. Des mesures fines et des expériences reproductibles offrent des perspectives distinctes sur chaque infrastructure informatique. La méthodologie proposée permet une comparaison équitable de la quantité d'électricité consommée par différentes installations. Enfin, la thèse s'oriente vers l'évaluation des impacts environnementaux plus généraux du ML, en se basant sur une estimation des impacts liés à l'extraction des matériaux, à la fabrication, au transport et à la fin de vie de chaque composants des infrastructures de calcul. Ces impacts sont répartis sur chaque entraînement de modèle, permettant une comparaison avec les impacts de la consommation d'électricité. Si de nombreux indicateurs d'impact environnemental du ML existent, cette étude se concentre sur la consommation d'énergie primaire, le potentiel de réchauffement climatique et le potentiel d'épuisement abiotique des minéraux et des métaux. En conclusion, cette thèse propose une méthodologie permettant une évaluation multi-critères reproductible de l'impact de l'entraînement du machine learning sur l'environnement et pouvant être appliquée à différentes infrastructures de ML, permettant ainsi une comparaison équitable et des choix éclairés.