Thèse soutenue

Méthodes D'Analyse Sémantique De Corpus De Décisions Jurisprudentielles

FR  |  
EN
Auteur / Autrice : Gildas Tagny Ngompe
Direction : Stéphane MussardJacky Montmain
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/01/2020
Etablissement(s) : IMT Mines Alès
Ecole(s) doctorale(s) : École doctorale Risques et Société (Nîmes ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de génie informatique et d'ingénierie de production (1994-2020) - Laboratoire de Génie Informatique et Ingénierie de Production / LGI2P
Jury : Président / Présidente : Françoise Seyte
Examinateurs / Examinatrices : Stéphane Mussard, Jacky Montmain, Sandra Bringay, Mohand Boughanem, Sébastien Harispe, Guillaume Zambrano, Fabrice Muhlenbach
Rapporteurs / Rapporteuses : Sandra Bringay, Mohand Boughanem

Résumé

FR  |  
EN

Une jurisprudence est un corpus de décisions judiciaires représentant la manière dont sont interprétées les lois pour résoudre un contentieux. Elle est indispensable pour les juristes qui l'analysent pour comprendre et anticiper la prise de décision des juges. Son analyse exhaustive est difficile manuellement du fait de son immense volume et de la nature non-structurée des documents. L'estimation du risque judiciaire par des particuliers est ainsi impossible car ils sont en outre confrontés à la complexité du système et du langage judiciaire. L'automatisation de l'analyse des décisions permet de retrouver exhaustivement des connaissances pertinentes pour structurer la jurisprudence à des fins d'analyses descriptives et prédictives. Afin de rendre la compréhension d'une jurisprudence exhaustive et plus accessible, cette thèse aborde l'automatisation de tâches importantes pour l'analyse métier des décisions judiciaires. En premier, est étudiée l'application de modèles probabilistes d'étiquetage de séquences pour la détection des sections qui structurent les décisions de justice, d'entités juridiques, et de citations de lois. Ensuite, l'identification des demandes des parties est étudiée. L'approche proposée pour la reconnaissance des quanta demandés et accordés exploite la proximité entre les sommes d'argent et des termes-clés appris automatiquement. Nous montrons par ailleurs que le sens du résultat des juges est identifiable soit à partir de termes-clés prédéfinis soit par une classification des décisions. Enfin, pour une catégorie donnée de demandes, les situations ou circonstances factuelles où sont formulées ces demandes sont découvertes par regroupement non supervisé des décisions. A cet effet, une méthode d'apprentissage d'une distance de similarité est proposée et comparée à des distances établies. Cette thèse discute des résultats expérimentaux obtenus sur des données réelles annotées manuellement. Le mémoire propose pour finir une démonstration d'applications à l'analyse descriptive d'un grand corpus de décisions judiciaires françaises.