Indexation et extraction de termes-clés pour la recherche d'information

par Mounia Haddoud

Thèse de doctorat en Informatique

Sous la direction de Thierry Lecroq et de Aïcha Aïssani-Mokhtari.


  • Résumé

    Dans cette thèse, je me suis intéressée à deux problèmes de fouille de textes : l’extraction automatique de termes-clés dans des documents textuels et la classification de textes. Pour le problème d’extraction automatique de termes-clés, j’ai défini une nouvelle mesure, le DPM-index, qui discrimine les phrases (n-grammes) qui se chevauchent dans un document. J’ai aussi développé un nouveau système d’extraction de termes-clés basé sur l’apprentissage supervisé qui combine 18 descripteurs statistiques. J’ai expérimentalement comparé mes résultats à ceux de 21 méthodes d’extraction de termes-clés sur le corpus d’articles scientifiques SemEval-2010/Task-5. Ma méthode augmente d’un taux de 13 % la reconnaissance des termes-clés mesurée par le F-score. En particulier, le DPM-index augmente la reconnaissance de mon système d’extraction de termes-clés de 9%. Je montre également que quel que soit le paradigme d’apprentissage supervisé (boosting, bagging et régression) sur ces données pour combiner les 18 descripteurs mon système obtient les meilleurs performances. Pour le problème de classification de textes dans des catégories prédéfinies, j’ai proposé 80 métriques de pondération de termes jamais utilisées pour ce problème et je les ai comparé à 16 métriques de la littérature. Alors que de nombreux travaux antérieurs ont montré l’intérêt d’utiliser une métrique particulière, mes expérimentations suggèrent que les résultats obtenus par ces métriques peuvent être fortement dépendants de la distribution des documents dans les catégories et des mesures de performances utilisées. La solution que j’ai proposée consiste à combiner les métriques proposées afin d’améliorer la qualité de la classification. Plus précisément, j’ai montré sur trois types de corpus différents (ayant des distributions catégorielles différentes) que l’utilisation d’un classifieur SVM qui combine les sorties de classifieurs SVM (qui utilisent chacun une métrique de pondération différente) classe mieux les documents quel que soit le type corpus et quelles que soit les mesures de performance utilisées. La seconde contribution principale apportée au problème de classification est une représentation étendue des termes d’un document dans un espace vectoriel qui permet d’améliorer la prédiction de mon classifieur de textes.

  • Titre traduit

    Indexing and keyphrase extraction for information retrieval


  • Résumé

    In this thesis, I focused on two text mining problems : automatic keyphrase extraction in text documents and texts classification. For the automatic keyphrase extraction problem, i define the document phrase maximality index (DPM-index), a new measure to discriminate overlapping keyphrase candidates in a text document. As an application i developed a supervised learning system which uses 18 statistical features, among them the DPMindex and 5 other new features. I experimentally compare my results to those of 21 keyphrase extraction methods on SemEval-2010/Task-5 scientific articles corpus. When all the systems extract 10 keyphrases per document, my method enhances by 13% the F-Score of the best system. In particular, the DPM-index feature increases the F-Score of my keyphrase extraction system by a rate of 9%. This makes the DPM-index contribution comparable to that of the well-known TFIDF measure on such a system. For the text classification problem, i propose 80 metrics never used for the term weighting problem and compare them to 16 functions of the literature. A large number of these metrics were initially proposed for other data mining problems : feature selection, classification rules and term collocations. While many previous works have shown the merits of using a particular metric, my experience suggests that the results obtained by such metrics can be highly dependent on the label distribution on the corpus and on the performance measures used (microaveraged or macroaveraged F1-Score). The solution I propose consists in combining the metrics in order to improve the classification. More precisely, i show that using a SVM classifier which combines the outputs of SVM classifiers that utilize different metrics performs well in all situations. The second main contribution is an extended term representation for the vector space model that improves significantly the prediction of the text classifier.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (105 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 135 références

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Disponible pour le PEB
  • Cote : 16/ROUE/S010
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.