Accès à l'information dans les grandes collections textuelles en langue arabe

Abdelkader El Mahdaouy

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Accès à l'information dans les grandes collections textuelles en langue arabe

FR |

EN

Auteur / Autrice :	Abdelkader El Mahdaouy
Direction :	Éric Gaussier, Saïd Ouatik El Alaoui
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 16/12/2017
Etablissement(s) :	Université Grenoble Alpes (ComUE) en cotutelle avec Université Sidi Mohamed ben Abdellah (Fès, Maroc). Faculté des sciences
Ecole(s) doctorale(s) :	École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de Grenoble
Jury :	Président / Présidente : Mohammed Ouçamah Cherkaoui Malki
	Examinateurs / Examinatrices : Brahim Ouhbi
	Rapporteurs / Rapporteuses : Mohand Boughanem, Pierre Zweigenbaum

Mots clés

FR |

EN

Mots clés contrôlés

Linguistique -- Informatique

Arabe (langue)

Analyse automatique (linguistique)

Mots clés libres

Recherche d'Information

Traitement Automatique de la Langue Arabe

Dépendance de Termes

Termes Complexes

Disparité des mots

Représentations Distribuées des Mots

Résumé

FR |

EN

Face à la quantité d'information textuelle disponible sur le web en langue arabe, le développement des Systèmes de Recherche d'Information (SRI) efficaces est devenu incontournable pour retrouver l'information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la représentation par sac de mots et l'indexation des documents et des requêtes est effectuée souvent par des mots bruts ou des racines. Ce qui conduit à plusieurs problèmes tels que l'ambigüité et la disparité des termes, etc.Dans ce travail de thèse, nous nous sommes intéressés à apporter des solutions aux problèmes d'ambigüité et de disparité des termes pour l'amélioration de la représentation des documents et le processus de l'appariement des documents et des requêtes. Nous apportons quatre contributions au niveau de processus de représentation, d'indexation et de recherche d'information en langue arabe. La première contribution consiste à représenter les documents à la fois par des termes simples et des termes complexes. Cela est justifié par le fait que les termes simples seuls et isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Ainsi, nous avons proposé une méthode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propriétés linguistiques et des modèles statistiques. Le filtre linguistique repose à la fois sur l'étiquetage morphosyntaxique et la prise en compte des variations pour sélectionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d'association permettant de combiner l'information contextuelle avec les degrés de spécificité et d'unité. La deuxième contribution consiste à explorer et évaluer les systèmes de recherche d’informations permettant de tenir compte de l’ensemble des éléments d’indexation (termes simples et complexes). Par conséquent, nous étudions plusieurs extensions des modèles existants de RI pour l'intégration des termes complexes. En outre, nous explorons une panoplie de modèles de proximité. Pour la prise en compte des dépendances de termes dans les modèles de RI, nous introduisons une condition caractérisant de tels modèle et leur validation théorique. La troisième contribution permet de pallier le problème de disparité des termes en proposant une méthode pour intégrer la similarité entre les termes dans les modèles de RI en s'appuyant sur les représentations distribuées des mots (RDMs). L'idée sous-jacente consiste à permettre aux termes similaires à ceux de la requête de contribuer aux scores des documents. Les extensions des modèles de RI proposées dans le cadre de cette méthode sont validées en utilisant les contraintes heuristiques d'appariement sémantique. La dernière contribution concerne l'amélioration des modèles de rétro-pertinence (Pseudo Relevance Feedback PRF). Étant basée également sur les RDM, notre méthode permet d'intégrer la similarité entre les termes d'expansions et ceux de la requête dans les modèles standards PRF. La validation expérimentale de l'ensemble des contributions apportées dans le cadre de cette thèse est effectuée en utilisant la collection standard TREC 2002/2001 de la langue arabe.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Accès à l'information dans les grandes collections textuelles en langue arabe

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Accès à l'information dans les grandes collections textuelles en langue arabe

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses