systemedinformationarabe
TRANSCRIPT
Mémoire de fin d’études
Présenté pour l’obtention du :
Diplôme de Master Systèmes d’Information Réseaux
et Multimédia
Discipline : Informatique
Spécialité : Systèmes d’Information Multimédias et Décisionnels/ Réseaux et Systèmes
Présenté par : LATIF Mounaim
Sous la direction du : Pr : Lechger Abd El Mounaim
Système de recherche d’information Arabe
Université Sidi Mohamed Ben Abdellah
Faculté des Sciences Dhar Mehraz – Fès (FSDM)
Master Systèmes d’Information Réseaux et Multimédia (SIRM)
Système de recherche d’information arabe
1
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Résumé
La recherche d’information reste toujours un sujet d’actualité malgré les diverses
solutions qui existe, on cherche toujours des améliorations pour la pertinence des résultats,
l’une des pistes intéressante dans ce cadre est le traitement des langues complexes et leurs
influencent sur les systèmes de recherche d’information. Dans notre travail on va étudier la
recherche d’information appliquée à la langue arabe qui est considérée comme l’une des
langues avec une grande complexité morphologique.
Ce travail est réalisé dans le laboratoire LISQ (Laboratoire d’informatique, statistique
et qualité) au sein de la Faculté des Sciences Dhar Mehraz sous la direction du Pr
Abdelmonaime LACHKAR (ENSA-Fès). Il s’inscrit dans le cadre de l’amélioration de la
recherche d’information arabe. On va traiter d’abord les différents aspects théoriques et
algorithmiques (lemmatisation, classification etc ...) de la recherche d’information puis on
passera à la mise en œuvre avec un prototype de SIRA (Système de recherche d’information
arabe)
Mots Clés : Système de Recherche d’information, Langue Arabe, Lemmatisation, Clustering.
Système de recherche d’information arabe
2
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Abstract
Seeking information is still a hot topic, despite the various existing solutions, we
always seek improvements to the results pertinence. One interesting track in this context is the
treatment of complex languages and their influence on information retrieval systems. In this
work we will study the retrieval of information in Arabic language which is considered one of
the complex morphology languages.
This work is done in the CLSQ (Computing laboratory, statistics and quality)
laboratory, in the Faculty of Sciences Dhar Mehraz under the direction of Professor
Abdelmonaime LACHKAR (ENSA-Fès). It is part of improving Arabic information
retrieval. We will treat first the different theoretical and algorithmic aspects of research
(lemmatisation, classification etc ...), then we proceed to the implementation of a prototype
with AIRS (Arabic information retrieval system)
Keywords: Arabic information retrieval, Stemming , Arabic Langue , clustering
Système de recherche d’information arabe
3
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
مــــلخص هناك عدد قليل فقط نسبيالكن .العربية هي واحدة من اللغات األكثر انتشارا في العالم اللغة
.العربية المعلومات وتصنيف النصوص عن في مجال البحث دراساتمن ال
كلية بتبر علوم الكمبيوتر واإلحصاء والجودة( مخ( LISQ في مختبر هذا العملتم قد و
رسة االمدب . ذ اعبد المنعم لشقر أست ذ ااألست فشرا إ حثت ظهر المهراز بفاسالعلوم
البحث عن المعلومات، وبشكل عموما في مجال يدخل هوو. فاسب ةقييالتطب م لوللع يةطنوال
تقنيات تصنيف و البحث عن الجذر و الجذع أساليب نجاعة دراسةمجال في دقةأكثر
.للغة العربيةبا المعلوماتمردودية أنظمة البحث عن في تحسينالنصوص
Système de recherche d’information arabe
4
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Remerciement
Au terme de ce travail, j’ai l’honneur d’exprimer mes vifs remerciements,
non seulement par nécessité, mais par respect et profonde gratitude, à mes
encadrants, Messieurs ABDELMOUNAIME LACHKAR et SAID
OUATIK EL ALAOUI pour leur aide précieuse et leurs conseils qu’ils m’ont
fourni au cours de ce projet, et aussi pour tout le temps qu’ils m’ont octroyé.
Je remercie également mes parents, pour leur soutien et leur compagnie,
qui m’ont permis de réaliser le projet dans les meilleures conditions possibles.
je ne peux oublier mes amis Youssef Dehbi EL ALAOUI, Jalal Triak,
Amine Essamri ,Imadeddine Mountasser et Selouane Mohammed. Pour leurs
soutiens et leurs aides.
Un sincère remerciement aussi à tout le corps professoral et
administratif de la Faculté des Sciences Dhar ElMahraz de Fès.
Système de recherche d’information arabe
5
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Introduction Générale
L’objectif principal de la recherche d’information c’est de donner à l’utilisateur un
accès simple à l’information, un système de recherche d’information traite l’information
d’une manière adéquate, puis fournit à l’utilisateur le résultat qui doit correspondre à son
besoin exprimé par une requête. Dans certaines langues, telles que l’arabe, les moyens
déployés pour la recherche d’information ne semblent avoir les mêmes performances que
dans d’autres langues. Cette carence est probablement due à l’introduction tardive de
l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part c’est la
complexité de la langue qui influence négativement les résultats dans un système de recherche
d’information.
Ce sujet s’inscrit dans le cadre de la recherche d’information appliqué à la langue
arabe. L’objectif de notre travail c’est d’abord de donner une vue détaillée sur le traitement
automatique de la langue arabe et les différentes éléments qui compose un système de
recherche d’informations puis de réaliser un prototype pour le SRIA.
Organisation du mémoire
Ce travail se compose de 5 chapitres :
- Le premier chapitre présente un état de l’art sur la langue arabe et la recherche
d’informations.
- Le second chapitre comporte une étude morphologique de la langue arabe.
- Le troisième définit la phase de prétraitement.
- Le quatrième définit la notion de clustering avec quelques algorithmes.
- Et le dernier, consacré pour les détails du prototype de SIRA réalisé ainsi la discussion
des résultats.
Système de recherche d’information arabe
6
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Table des Matières
Chapitre 1 : Etat de l’art ................................................................................................................ 9
1 - Introduction .................................................................................................................................. 10
2 - Motivation et Problématique ....................................................................................................... 11
3 - La Recherche D’informations ....................................................................................................... 12
3.1 – Processus de recherche d’informations ................................................................................ 13
3.2 - Prétraitement et La Lemmatisation ...................................................................................... 13
1.1 - Les Modèles de Recherche d’information ............................................................................ 14
1.2 - Classification et Clustering des Documents .......................................................................... 15
2 – Exemple de SRI (Moteur de recherche)....................................................................................... 16
3 - Conclusion .................................................................................................................................... 17
Chapitre 2 : La langue Arabe et l’analyse morphologique .............................................................18
1 - Introduction .................................................................................................................................. 19
2 - La langue Arabe et ses variantes .................................................................................................. 20
3 - Grammaire et caractéristique de l’arabe .................................................................................... 21
3.1 Voyellation ............................................................................................................................... 23
3.2 Flexion ..................................................................................................................................... 23
3.3 Agglutination ........................................................................................................................... 24
3.4 Pro-drop (= à sujet pronominal vide) ...................................................................................... 25
4 - Les parties de discours en arabe ................................................................................................. 25
4.1 Les parties de discours classiques ........................................................................................... 25
4.2 Classification récentes des unités lexicales de l’arabe ............................................................ 26
5 - Ressources linguistiques : état des lieux ..................................................................................... 27
5.1 Lexiques ................................................................................................................................... 28
5.2 Corpus ...................................................................................................................................... 28
6 – Conclusion ................................................................................................................................... 31
Chapitre 3 : Prétraitement des documents arabe .........................................................................33
1 – Introduction ................................................................................................................................. 34
2 – Représentation des documents................................................................................................... 34
3 – Prétraitent et La Lemmatisation .................................................................................................. 38
3.1 – Prétraitement nécessaires .................................................................................................... 38
3.2 – Lemmatisation (Stemming) .................................................................................................. 39
4 – Conclusion ................................................................................................................................... 43
Système de recherche d’information arabe
7
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 4 : Regroupement des documents (Clustering) ...............................................................44
1 - Introduction .................................................................................................................................. 45
2 - Différentes approches en clustering ............................................................................................ 46
2.1 - Structures des résultats de clustering ................................................................................... 46
2.2 – Les Méthode de clustering ................................................................................................... 48
2.3 – Analyse Sémantique Latente ............................................................................................... 56
2.4 - Critères d’évaluation de la qualité d’un clustering ............................................................... 59
3 – Conclusion ................................................................................................................................... 61
Chapitre 5 : Prototype d’un Système de recherche d’information Arabe .......................................63
1 – Introduction ................................................................................................................................. 64
2 – Architecture Fonctionnelle du système ..................................................................................... 64
2.1 - Module de Prétraitement Lemmatisation ............................................................................. 65
3 – Analyse est conception ................................................................................................................ 69
3.1 - Diagramme de cas d’utilisation ........................................................................................... 69
3.2 – Diagramme de classe et analyse .......................................................................................... 70
4 – Fonctionnalités du système et résultats ...................................................................................... 73
4.1 – Description du Système ........................................................................................................ 73
4.2 Discutions des résultats ........................................................................................................... 75
5 - Conclusion .................................................................................................................................... 77
Système de recherche d’information arabe
8
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Table des Figures
FIGURE 1.1 : SYSTÈME DE RECHERCHE D’INFORMATION .......................................................................................... 13
FIGURE 2.1 : AMBIGUÏTÉ CAUSÉE PAR L’ABSENCE DE VOYELLES POUR LES UNITÉS LEXICALES كتب ET 23 ............... مدرسة
FIGURE 2.2 : EXEMPLE DES FLEXIONS DANS LA LANGUE ARABE ................................................................................ 24
FIGURE 2.3 : EXEMPLE REPRÉSENTE L’AGGLUTINATION DANS LA LANGUE ARABE ...................................................... 24
FIGURE 2.4 : CLASSIFICATION DES UNITÉS LEXICALES PROPOSÉE PAR [2] ................................................................. 27
FIGURE 2.5 COMPOSITION DU CORPUS NEMLAR .................................................................................................... 31
FIGURE 3.1 : APPROCHE « ROOT-BASED » POUR LA LEMMATISATION ........................................................................ 42 FIGURE 4.1 : EXEMPLE D’UN JEU DE DONNÉES DÉCRITES PAR DEUX ATTRIBUTS ET CONTENANT TROIS CLUSTERS
IDENTIfiABLES VISUELLEMENT. ........................................................................................................................ 45
FIGURE 4.2 : EXEMPLE DE RÉSULTAT HIÉRARCHIQUE. ............................................................................................. 48
FIGURE 4.3 : REPRÉSENTATION GRAPHIQUE D’UN EXEMPLE DE DÉROULEMENT DE L’ALGORITHME K-MEANS. ........... 49
FIGURE 4.4 : ALGORITHME DE K-MEDOIDES ........................................................................................................... 52
FIGURE 4.5 : ALGORITHM PAM (PARTITIONING AROUND MEDOIDS) ...................................................................... 52
FIGURE 4.6 : ILLUSTRATION DES DIFFÉRENTES STRATÉGIES DE REGROUPEMENT DE CLUSTERS EN CLUSTERING
HIÉRARCHIQUE. .............................................................................................................................................. 54
FIGURE 4.7 : FONCTION DE SIMILARITÉ POUR LE SUFFIX TREE CLUSTERING ............................................................ 55
FIGURE 4.8 : DÉCOMPOSITION EN VALEURS SINGULIÈRES -Y EST L'APPROXIMATION DE X ......................................... 58
FIGURE 4.9 : ALGORITHME DE LINGO CLUSTERING ............................................................................................... 59
FIGURE 4.10 : ILLUSTRATION DU CALCUL DU COEFFICIENT SILHOUETTE POUR CHAQUE OBJET D’UN CLUSTERING. .... 61
FIGURE 5.1 : ARCHITECTURE FONCTIONNELLE DU SYSTÈME .................................................................................... 65
FIGURE 5.2 : STRUCTURE D’INDEX DE LUCENE ....................................................................................................... 68
FIGURE 5.3 DIAGRAMME DE CAS D’UTILISATION ...................................................................................................... 70
FIGURE 5.4 : DIAGRAMME DE CLASSE D’UN ARABIC ANALYSER BASÉ SUR LE LEMMATISEUR ASSOUPLIT ..................... 71
FIGURE 5.5 : DIAGRAMME DE CLASS DU MODULE D’INDEXATION .............................................................................. 72
Table des Formules
FORMULE 4.1 : SOMME DES COEFFICIENTS DANS FUZZY C-MEANS ............................................................................ 50
FORMULE 4.2 : DEGRÉ D’APPARTENANCE DANS FUZZY C-MEANS ............................................................................. 50
FORMULE 4.3 : CALCULE DU CENTROÏDE DANS FUZZY C-MEANS. ............................................................................. 50
FORMULE 4.4 : DEGRÉ D’APPARTENANCE NORMALISÉ DANS FUZZY C-MEANS ........................................................... 51
FORMULE 4.5 : STRATÉGIE SIMGLE-LINK POUR CALCULE DE SIMILARITÉ ................................................................... 53
FORMULE 4.6 : STRATÉGIE COMPLETE-LINK POUR CALCULE DE SIMILARITÉ.............................................................. 54
FORMULE 4.7 : STRATÉGIE AVERAGE-LINK POUR CALCULE DE SIMILARITÉ ................................................................ 54
FORMULE 4.8 : SOMME DES ERREURS AU CARRÉ ...................................................................................................... 60
FORMULE 4.9 : COEFFICIENT SILHOUETTE POUR UN OBJET ..................................................................................... 61
FORMULE 4.10 : COEFFICIENT SILHOUETTE POUR UN CLUSTERING .......................................................................... 61
Système de recherche d’information arabe
9
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 1 : Etat de l’art
Système de recherche d’information arabe
10
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
1 - Introduction
Depuis plusieurs décennies déjà, des recherches sont poursuivies dans le cadre du
traitement automatique de la langue arabe. L’un des premiers théoriciens de ce domaine,
David Cohen propose un essai d’analyse automatique dès 1961 (Cohen, 1961/1970). Partant
d’une analyse morphologique minimaliste, basée sur le principe que toute forme linguistique
arabe se traduit en schème et racine, les recherches vont se développer depuis les premiers
travaux sur le lexique et la morphologie jusqu’à la mise au point d’analyseurs automatiques,
de systèmes d’indexation, de correcteurs, etc. De nombreux projets sont en cours et il existe
des bases de données disponibles proposant des corpus divers sous forme électronique, traités
automatiquement. Un traitement automatique de l’arabe est donc non seulement possible,
mais réalisé et en cours de perfectionnement (notamment dans le domaine de la traduction
automatique).Cependant, dans le cadre bien précis de nos recherches, nous avons été amenés
à créer notre propre programme de lemmatisation. Après un exposé du problème, nous
présenterons ce logiciel, ainsi que la réflexion méthodologique qui a présidé à son élaboration.
Les premiers résultats obtenus et surtout les développements envisagés seront ensuite décrits.
Maintenant L’évolution très rapide d’Internet a conduit à révéler la RI au grand jour,
notamment par le biais des moteurs de recherche. La profusion de données numériques
disponibles a rendu indispensables des moyens de recherche performants et automatiques,
permettant à tout un chacun de trouver une information précise. Un système de recherche
d’information (SRI) doit faire face à trois types de défis à savoir, la gestion d’un volume
important d’informations, la présence de multiples supports et, finalement, le caractère
plurilingue de la Toile qui représente un enjeu considérable. Dans ce contexte, l’importance
grandissante d’autres langues que l’anglais a suscité le développement d’outils et de
techniques automatiques afin de permettre leur traitement informatique. Ce besoin n’est pas
marginal. En septembre20071, la proportion d’internautes naviguant en langue arabe était
estimée à 17,4 %. Sur cette base, nous estimons que l’utilisation de la langue arabe sur le Web
va atteindre des valeurs comparables à celle des langues européennes.
En comparaison de l’anglais ou d’autres langues indo-européennes, la langue arabe présente
des caractéristiques singulières. Ainsi, son traitement automatique doit faire face à :
Système de recherche d’information arabe
11
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité
lexicale véhiculent plusieurs informations morphosyntaxiques.
la richesse flexionnelle de l’arabe
l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène
entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre
doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses
de certains traits morphosyntaxiques comme la déclinaison, le mode, le cas.
1 - Motivation et Problématique
Dans la plupart des recherches précédentes en RI, les pionniers dans ce domaine ont
concentré leurs efforts au développement d'outils de RI sur des collections en anglais. Ensuite
graduellement, ils se sont intéressés à étudier les langues européennes et les langues
asiatiques, notamment le chinois, le japonais et le coréen. Néanmoins, toute une famille de
langues telle que l'arabe, n'a connu que peu d'intérêt par la communauté de recherche
d'information. Parallèlement, la vulgarisation de l'Internet a de plus en plus permis l'accès à
d'autres langues moins connues comme l'arabe. C'est dans cette optique que nous avons
trouvé l'intérêt de notre travail de recherche dont l'objectif est de trouver les meilleures
solutions pour améliorer la recherche de l’information arabe.
La langue arabe présente plusieurs défis au traitement automatique des langages
naturels, en grande partie, dus à sa morphologie très riche et variable. Dans cette langue, le
traitement morphologique devient particulièrement important pour la recherche d'information,
parce que la RI doit déterminer une forme appropriée d'index à partir des mots. La plupart des
études faites dans le contexte de la lemmatisation concluent que l'utilisation des termes
obtenus à partir d'une analyse morphologique est plus efficace que l'utilisation des mots sans
transformation. L'arabe, de son coté, n'a pas échappé à ce fait. La lemmatisation des mots
arabes a été une problématique majeure pour plusieurs travaux dans la RI arabe. Dans ces
travaux, des approches pour lemmatiser les mots arabes sont proposées, certaines plus souples
et d'autres plus sévères. Malgré ces études, il est encore peu clair quel type de lemmatisation
est approprié pour la recherche d'information arabe. D'une part, une lemmatisation assouplie
peut empêcher de grouper deux mots différents, mais elle court également le risque de ne pas
grouper deux mots sémantiquement semblables, menant à un rappel plus faible. D'autre part,
Système de recherche d’information arabe
12
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
une lemmatisation plus sévère peut grouper incorrectement des mots sémantiquement non
similaires dans un même index, menant à une précision plus faible.
2 - La Recherche D’informations
Le but de la recherche d’information (RI) est de développer des systèmes capables de
retrouver parmi un ensemble de documents ceux qui répondent au mieux à la requête d’un
utilisateur. Pour cela, il est important de constituer une représentation du contenu du
document et de la requête afin de procéder à un appariement plus pertinent entre eux.
L’approche souvent adoptée en RI textuelle est plutôt de chercher des représentants qui
correspondent généralement, dans le cadre de l’indexation automatique, à un ensemble
d’unités lexicales extraits des documents et requêtes, nommés termes d’indexation, pour la
langue arabe ce traitement est très complexe vu la complexité morphologique de la langue
arabe. Après il ne reste qu’à associer à chaque document (ou à chaque requête) un descripteur
(également nommé index) formé de l’ensemble des termes d’indexation extraits de son
contenu. Pour établir une correspondance entre documents et requêtes, représentés par des
descripteurs, les SRI se basent sur des modèles de RI. Ils permettent :
- d’offrir une interprétation aux descripteurs en donnant une représentation interne des
textes et des questions basée sur les termes d’indexation.
- de définir les stratégies à adopter pour comparer les représentations des documents et
des requêtes. Leur comparaison donne lieu à un score qui traduit leur degré de
ressemblance.
- de proposer éventuellement des méthodes de classement des résultats retournés à
l’utilisateur. Une fois les représentations des documents et des requêtes mises en
correspondance, le système retourne à l’utilisateur la liste des documents répondant à
sa requête. Ainsi, des méthodes et des mesures d’évaluation sont nécessaires pour
estimer la validité des résultats retournés par le système.
Système de recherche d’information arabe
13
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
2.1 – Processus de recherche d’informations
Le processus de RI a pour but d’établir une correspondance pertinente entre
l’information recherchée par l’utilisateur, représentée généralement par le biais d’une requête,
et l’ensemble des documents disponibles. Il s’articule autour de deux étapes essentielles : les
phases d’indexation et de recherche. Le processus complet est représenté en figure suivante.
L’étape d’indexation se base sur l’analyse des documents et des requêtes afin de créer une
représentation de leur contenu textuel qui soit utilisable par le SRI. Chaque document (et
requête) est alors associé à un descripteur représenté par l’ensemble des termes d’indexation
extraits. La phase de recherche a pour objectif d’apparier les documents et la requête de
l’utilisateur en comparant leurs descripteurs respectifs. Elle se base sur un formalisme précis
défini par un modèle de RI. Les documents présentés en résultat à l’utilisateur, et considérés
comme les plus pertinents, sont ceux dont les termes d’indexation sont les plus proches de
ceux de la requête.
Figure 1.1 : Schéma général Système de recherche d’information
2.2 - Prétraitement et La Lemmatisation
Il y a une autre façon pour rendre les termes d'un document plus utiles pour une
recherche efficace. Cette voie consiste en l'élimination des différences morphologiques non
significatives sémantiquement. L'idée est de fusionner les termes ayant un sens similaire avec
de petites différences sur la forme morphologique. On peut remarquer facilement que
beaucoup de mots ont des formes légèrement différentes, mais leur sens reste le même ou très
similaire. C'est notamment le cas des mots conjugués ou dérivés. Par exemple, les mots
Système de recherche d’information arabe
14
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
suivants ont des sens très similaires: informer, informés, informent, information, informateur.
Si tous ces mots sont traités séparément, le rappel de recherche sourira parce que cette
différence de forme empêche le système de retrouver un texte dans lequel un mot similaire
apparaît. Ainsi, l'idéal est d'éliminer toutes ces différences non significatives et ramener tous
ces mots à une forme identique qu'on appellera le lemme (stem) ou la racine. L'idée de
lemmatisation/troncature est d'éliminer ces indices de forme ou terminaisons à partir des
termes et de ne garder que la racine ou le lemme.
Pour la langue arabe la méthode de lemmatisation qui donne les meilleurs résultats
jusqu’ maintenant dans un système de recherche d’information c’est la lemmatisation
assouplie, il est inspiré par le processus de lemmatisation de langue anglaise, cet algorithme
se base sur l’élimination d’un ensemble de suffixes et de préfixes. Il commence par la
suppression de la lettre (و) si elle est la première lettre du mot, puis il procède à une
élimination des préfixes (فال ,كال ,وال ,ال لل , , بال ) et des suffixes (ها, ين, ون ان ,ات , ي , ة , ه , يية , يه ).
1.1 - Les Modèles de Recherche d’information
On distingue plusieurs familles de modèles de recherche d’information : les modèles basés
sur la théorie des ensembles, les modèles basés sur des principes algébriques et les modèles
basés sur les probabilités.
Les modèles booléens apparus dans les années 1950 se basent sur la théorie des
ensembles. Ainsi, un tel modèle renvoyant un ensemble de documents jugés pertinents sans en
proposer un ordonnancement est écarté. Les modèles vectoriels reposent sur des principes
algébriques.
Le premier système vectoriel de recherche d’information apparaît dans les années 1970
avec le système SMART [19]. Dans le modèle vectoriel, des vecteurs de poids représentent
document et requête. Chaque poids dans le vecteur désigne l'importance du terme
correspondant dans le document ou dans la requête. Pour qu'un vecteur prenne une
signification, il faut préalablement définir un espace vectoriel. L'espace vectoriel se définit par
l'ensemble de termes que le système a rencontré durant l'indexation, c’est-à-dire l’ensemble
des termes de la collection de documents.
Système de recherche d’information arabe
15
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Le premier modèle probabiliste apparaît au début des années 1960 avec Maron et Kuhns
[17]. Le principe consiste à présenter les résultats de recherche d’un système de recherche
d’information dans un ordre basé sur la probabilité de pertinence d’un document vis-à-vis
d’une requête. Trois paramètres entrent dans le modèle probabiliste : la requête Q, le
document D et la pertinence R. Le modèle classique de Robertson est fondé sur le ratio de
vraisemblance entre P(R=1 | D,Q) et P(R=0 | D,Q). Ces deux probabilités signifient
respectivement : si on retrouve le document D, quelle est la probabilité d’obtenir une
information pertinente et si on retrouve le document D, quelle est la probabilité d’obtenir une
information non pertinente [Nie, 2007].Le principe s’appuie sur la détection de termes à la
fois présents dans le document et la requête. Une pondération binaire des termes est utilisée, 0
ou 1, ce qui correspond à l’absence ou la présence d’un terme dans le document ou la requête.
Pour une requête donnée, on cherche à déterminer P(R=1 | D) et P(R=0 | D). Le calcul de ces
probabilités permet le classement des documents entre eux selon leur pertinence par rapport à
la requête.
1.2 - Classification et Clustering des Documents
La classification automatique de texte implique l’attribution de documents texte dans
la collection de données tests à une classe ou catégorie prédéfinie basé sur leurs contenus.
Contrairement à la classification manuelle, qui consume le temps et exige une grande
précision, la classification automatique permet au processus de classification d’être plus
rapide et efficace puisqu’elle catégorise les documents automatiquement. Le but de la
classification est d’attribuer des étiquettes de classe à des documents non étiquetés. Chaque
document peut être dans de multiple, exactement une, ou aucune catégorie. Dans notre cas on
se concentrera dans le cas d’attribution d’une seule étiquette.
Le Clustering (regroupement) des documents vise à mettre les documents similaires
ensemble. En ce faisant, on veut atteindre un des buts suivants:
Le nombre de clusters, par rapport au nombre de documents, est beaucoup plus
petit. Ainsi, on peut accélérer le processus de recherche.
Système de recherche d’information arabe
16
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Si un document est pertinent à une requête, alors les documents similaires ont
plus de chance à être pertinents aussi. Ainsi, les Cluster peuvent être aussi vus
comme un moyen d'expansion.
Finalement, les réponses du système peut être regroupées, plutôt qu'être mises
dans une liste individuellement. L'avantage de cette présentation de résultats
est que l'utilisateur peut avoir une idée globale des résultats que le système a
trouvés assez rapidement.
Avec le progrès rapide sur les matériels d'informatique, le premier avantage semble
beaucoup moins important maintenant. Les deux autres restent toujours d'actualité.
On peut deviser les méthodes de Clustering en deux groupe : Hiérarchique et non-
Hiérarchique Le premier type d'algorithme essaie de créer une hiérarchie des clusters, les
documents les plus similaires sont regroupés dans des clusters aux plus bas niveaux, tandis
que les documents moins similaires sont regroupés dans des clusters aux plus haut niveaux.
Selon comment la hiérarchie est créée, ce type d'algorithmes peut encore se diviser en deux:
divisif ou agglomératif. En partition, on tente de diviser un grand cluster en 2 plus petits
(approche descendante). En regroupement, on tente de regrouper 2 clusters en un plus grand
(approche ascendante). Le deuxième type d'algorithmes ne crée pas une hiérarchie. Les
clusters sont au même niveau.
Il est important de déterminer le cluster à découper ou les clusters à regrouper dans une
approche hiérarchique, et de déterminer une fonction de similarité dans une approche non-
hiérarchique. Les mesures utilisées varient. Quelques mesures souvent utilisées sont:
Similarité de clusters: elle est définie comme la similarité- entre les centroïdes de
ces clusters (le centroïde est le vecteur moyen de tous les éléments dans le cluster).
ou bien entre les medoïdes de ces clusters (le medoïde est l'élément le plus au
centre du cluster).
2 – Exemple de SRI (Moteur de recherche)
Un moteur de recherche peut être défini comme un outil de recherche sur le web
constitué de « robots », encore appelés spiders, crawlers ou agents qui parcourent les sites à
intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue
des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes
(qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page
Système de recherche d’information arabe
17
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à
partir de mots-clés.
Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales :
1. L'exploration ou crawl : le web est systématiquement exploré par un robot
d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les
ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot,
comme une page d'annuaire web.
2. L'indexation des ressources récupérées, consiste à extraire les mots considérés
comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots
extraits sont enregistrés dans une base de données organisée comme un gigantesque
dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage,
qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme
significatif donné.
3. La recherche, correspond à la partie requêtes du moteur, qui restitue les résultats. Un
algorithme est généralement appliqué pour donner un poids variable aux
correspondances, afin de pouvoir présenter les résultats des recherches par ordre de
pertinence supposée.
L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe,
hyperlien...) et de la ressource (ressources liées, popularité du site...)
3 - Conclusion
Ce premier chapitre donne une idée générale sur la recherche d’information arabe et
les différents concepts de lemmatisation, classification et de clustering. Dans le chapitre
suivant on va détailler la morphologie de la langue arabe à cause de sa nature très
complexe par rapport à d’autre langue et vue qu’elle a une influence directe sur la qualité des
résultats dans un système de recherche d’information.
Système de recherche d’information arabe
18
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 2 : La langue Arabe et
l’analyse morphologique
Système de recherche d’information arabe
19
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
1- Introduction
L’arabe (alarabiya en transcription traditionnelle) est la langue parlée à l’origine par les
Arabes. C’est une langue sémitique (comme l’akkadien et l’hébreu). Au sein de cet ensemble,
elle appartient au sous-groupe du sémitique méridional. Du fait de l’expansion territoriale au
Moyen Âge et par la diffusion du Coran, cette langue s’est répandue dans toute l’Afrique du
nord et en Asie mineure. Dire langue arabe, c’est donc parler d’un ensemble complexe dans
lequel se déploient des variétés écrites et orales répondant à un spectre très diversifié d’usages
sociaux, des plus savants aux plus populaires. Mais au-delà de cette diversité, les sociétés
arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène. Elles
sont farouchement attachées à l’intégrité de leur langue, d’où l’importance de l’ASM qui
constitue le terrain commun pour cette large population. Par ses propriétés morphologiques et
syntaxiques, le traitement automatique doit faire face à :
la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité
lexicale1 véhiculent plusieurs informations morphosyntaxiques.
la richesse flexionnelle de l’arabe.
l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène
entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre
doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses
de certains traits morpho-syntaxiques comme la déclinaison, le mode, le cas.
En outre des propriétés linguistiques, l’arabe recense un nombre de ressources
linguistiques comprenant des lexiques monolingues et multilingues ainsi que des corpus de
langue générale et des corpus de spécialité consacrés à une situation de communication ou à
un domaine de la connaissance. L’arabe compte aussi un certain nombre d’outils linguistiques
à savoir les analyseurs morphologiques ainsi que les racineurs basés essentiellement sur une
procédure de dé-suffixation qui consiste à supprimer les suffixes qui différencient les flexions
des unités lexicales (les formes conjuguées d’un verbe par exemple).
Système de recherche d’information arabe
20
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Dans ce chapitre, nous introduisons la langue arabe. La section (2) est consacrée à son
statut géographique, à ses diverses variantes et celle qui sera l’objet de l’étude. Dans la
section (3) nous présentons les caractéristiques linguistiques et la classification des unités
lexicales de l’arabe. Finalement, dans les sections (5), (6) nous aborderons les ressources
linguistiques de l’arabe ainsi que les outils pour son traitement.
2 - La langue Arabe et ses variantes
L’arabe est une langue parlée par plus de 200 millions de personnes. Elle est langue
officielle d’au moins 22 pays. C’est aussi la langue de référence pour plus d’un milliard de
musulmans. Comme son nom l’indique, la langue arabe est la langue parlée à l’origine par le
peuple arabe. C’est une langue sémitique (comme l’hébreu, l’araméen et le syriaque). Au sein
de cet ensemble, elle appartient au sous-groupe du sémitique méridional.
Le développement de la langue arabe a été associé à la naissance et la diffusion de
l’islam. L’arabe s’est imposée, depuis l’époque arabo-musulmane, comme langue religieuse
mais plus encore comme langue de l’administration, de la culture et de la pensée, des
dictionnaires, des traités des sciences et des techniques. Ce développement s’est accompagné
d’une rapide et profonde évolution (en particulier dans la syntaxe et l’enrichissement lexical).
L’arabe peut être considéré comme un terme générique rassemblant plusieurs variétés :
l’arabe classique : la langue du Coran, parlée au VIIe siècle.
l’arabe standard moderne (l’ASM) : une forme un peu différenciée de l’arabe
classique, et qui constitue la langue écrite de tous les pays arabophones. L’ASM reste
le langage de la presse, delà littérature et de la correspondance formelle, alors que
l’arabe classique appartient au domaine religieux et est pratiqué par les membres du
clergé.
les dialectes arabes : malgré l’existence d’une langue commune, chaque pays a
développé son propre dialecte. Issus de l’arabe classique, leurs systèmes
grammaticaux respectifs affichent de nettes divergences avec celui de l’ASM. On peut
regrouper ces dialectes en quatre grands groupes :
1. les dialectes arabes, parlés dans la Péninsule Arabique : dialectes du Golfe,
dialecte du najd, yéménite.
2. les dialectes maghrébins : algérien, marocain, tunisien, hassaniya de
Mauritanie.
Système de recherche d’information arabe
21
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
3. les dialectes proche-orientaux : égyptien, soudanais, syro-libano-palestinien,
irakien (nord et sud).
4. la langue maltaise est également considérée comme un dialecte arabe.
L’arabe est un ensemble complexe dans lequel s’étendent des variétés écrites et orales
répondant à un spectre très varié d’usages sociaux. Mais au-delà de cette variété, les sociétés
arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène, d’où
l’importance de l’ASM qui forme un terrain commun pour cette large population. L’ASM est
la langue des médias officiels, de la communication écrite et de tout type de communication
non spontanée. Elle se distingue des dialectes arabes par son système grammatical partagé
avec l’arabe classique. L’ASM, quoique qu’elle soit considérée comme le symbole le plus
puissant de l’unité arabe, possède des variations régionales. Nous reconnaissons un texte
marocain vis-à-vis d’un texte égyptien ou d’un texte provenant des pays du Golfe. Cette
variation est du eaux différences qui ont lieu dans la formation de nouveaux vocabulaires.
Mais elle est aussi la conséquence de l’histoire coloniale différente des régions impliquées.
Les pays du Maghreb, par exemple, ont une tendance naturelle à regarder des exemples
français, et le texte est largement influencé par la langue française même au niveau de la
syntaxe et de la stylistique. Nous trouvons, par exemple االول الوزير (de : le premier ministre
français) au lieu du terme fréquent الوزراء رئيس (le président des ministres). Dans les pays
arabes sans un passé colonial français, l’anglais remplace le français en tant que langue
fournissant les modèles syntaxiques et stylistiques.
3- Grammaire et caractéristique de l’arabe
La grammaire traditionnelle se divise en deux branches :
1. La morphologie, اَلَصرف qui comprend :
Morphologie dérivationnelle, qui étudie la construction des unités lexicales et
leur transformation selon le sens voulu. Ainsi, la dérivation morphologique est
décrite sur une base morphosémantique: d’une même racine, se dérivent
différentes unités lexicales selon des schèmes qui sont des adjonctions et des
manipulations de la racine. La racine [KTB] épouse plusieurs schèmes selon
qu’on veut exprimer un procès accompli (c1 a c2 a c3 a) [kataba] ou
inaccompli (y a c1 c2 u c3 u) [yaktubu], un nom d’agent (c1 a : c2 i c3 u n)
[ka:tibun], un nom de patient (ma c1 c2 u : c3 u n) [maktu:bun], etc.
Système de recherche d’information arabe
22
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Morphologie flexionnelle concerne le marquage casuel pour le nom et
l’adjectif ou la conjugaison du verbe, appelé «اََلعَراب».
2. La Syntaxe « النحو » qui étudie la formation correcte des phrases garantit la
grammaticalité de la phrase en analysant :
a. La position des unités lexicales les unes par rapport aux autres,
déterminant ainsi l’ordre des unités lexicales.
b. Le marquage casuel des unités lexicales de la phrase. Ainsi, la fonction
syntaxique de l’unité lexicale est déterminée en s’appuyant sur la
morphophonologie.
Pour la reconnaissance des unités lexicales dans les textes, nous sommes confrontés à
l’ambiguïté provoquée surtout par la voyellation partielle, l’agglutination et l’ordre
relativement libre des unités lexicales.
Par exemple l’unité lexicale ferme, est hors contexte, un substantif, un adjectif ou un
verbe. Alors que l’unité lexicale arabe RaLaKa « ََغلَق» est un verbe à la 3ème personne
masculin singulier de l’accompli actif, par contre sa forme non « غلق » dans l’exemple donné
ne sont représentées que les consonnes RLK) admet quatre catégories grammaticales :
Substantif masculin singulier (RaLKun : une fermeture).
Verbe à la 3è personne masculin singulier de l’accompli actif (RaLaKa : il a
fermé ou RaLLaKa il a fait fermer).
Verbe à la 3è personne masculin singulier de l’accompli passif (RuLiKa : il a
été fermé).
Verbe à l’impératif 2ème
personne masculin singulier (RaLLiK: fais
fermer).Une autre difficulté de l’arabe est l’agglutination par laquelle les
composantes de l’unité lexicale sont liées les unes aux autres. Nous décrivons
ci-dessous les propriétés linguistiques de la langue arabe, à savoir la
voyellation, la flexion et l’agglutination.
Une autre difficulté de l’arabe est l’agglutination par laquelle les composantes de
l’unité lexicale sont liées les unes aux autres. Nous décrivons ci-dessous les propriétés
linguistiques de la langue arabe, à savoir la voyellation, la flexion et l’agglutination.
Système de recherche d’information arabe
23
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
3.1 Voyellation
La langue arabe s’écrit et se lit de droite à gauche, son alphabet compte 28 consonnes
adoptant différentes graphies selon leur position (au début, au milieu ou à la fin d’une unité
lexicale).
Une unité lexicale arabe s’écrit avec des consonnes et des voyelles. Les voyelles sont
ajoutées au-dessus ou au-dessous des lettres. Elles sont nécessaires à la lecture et à la
compréhension correcte d’un texte et elles permettent de différencier des unités lexicales
ayant la même représentation.
Pour mieux comprendre prenons l’exemple «كتب » du tableau 4.2.1. Le dictionnaire
nous renvoie les voyellations lexicales suivantes :
Figure 2.1 : Ambiguïté causée par l’absence de voyelles pour les unités lexicales كتب et مدرسة
3.2 Flexion
Une langue flexionnelle est une langue dans laquelle les unités lexicales varient en
nombre et en flexion (soit le nombre des noms, soit le temps verbal) suivant les rapports
grammaticaux qu’ils entretiennent avec les autres unités lexicales. L’ensemble des formes
différentes d’une même unité lexicale fléchie constitue son paradigme. D’après cette
définition, l’arabe se classe comme une langue à morphologie extrêmement riche :
Le système flexionnel affiche un marquage varié. Par exemple, l’arabe contient trois
cas : le nominatif(NOM), qui est le cas par défaut, l’accusatif (ACC) pour les compléments
verbaux et le génitif (GEN) pour le dépendant d’une préposition. Les morphes sont divisés
dans la translittération par le symbole"+" :
Système de recherche d’information arabe
24
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 2.2 : Exemple des flexions dans la langue arabe
3.3 Agglutination
L’arabe montre une forte tendance à l’agglutination : l’ensemble des morphèmes
collés les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations
morphosyntaxiques. Ces unités lexicales sont souvent traduisibles par l’équivalent d’une
phrase en français. La structure d’une unité lexicale arabe est donc décomposable en cinq
éléments : proclitique, préfixe, base, suffixe et enclitique. La base est une combinaison de
lettres radicales (le plus souvent trois) et d’un schème. La base – avec préfixe et suffixe -
forme le noyau lexical, éventuellement entouré d’extensions [36]. Comme le montre
l’exemple suivant : «لِيَضِربُهَا ََ « َو
Figure 2.3 : Exemple représente l’agglutination dans la langue arabe
Système de recherche d’information arabe
25
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Cet exemple révèle la complexité morphologique de l’arabe. Il s’agit du verbe « يَضِرب»
employé au présent du subjonctif, 3ème personne du masculin pluriel, la base verbale est /
Le pronom sujet n’est pas réalisé. En position proclitique, on ./« ضرب » / et la racine / َضَربَ
utilise la conjonction de coordination "wa" « و » la conjonction "li" « ل ». En position
enclitique, on utilise le pronom complément d’objet 3ème personne du féminin singulier
"haA" «هَا » "elle".
3.4 Pro-drop (= à sujet pronominal vide)
L’ASM néglige systématiquement la réalisation morphologique du pronom sujet.
Cependant, le verbe s’accorde en personne, en genre et en nombre avec le pronom omis,
comme l’affiche l’exemple suivant: / هُمُ / لُ اكَ vs / هُن / اكلَن / Le pronom correspondant est mis
entre / / :
Akalu /homo/ vs Akalnna /honna/
(V)PASSE.3.MASC.PL vs (V)PASSE.3.FEM.PL
ont mangé /ils/ vs ont mangé /elles/
"Ils ont mangé" vs "Elles ont mangé"
4 - Les parties de discours en arabe
Les unités lexicales qui composent le discours sont regroupées par catégories selon les
caractéristiques qu’ils ont en commun. Ces différentes catégories s’appellent les parties du
discours. Cette section donne une classification des unités lexicales de la langue arabe. Dans
un premier temps, nous présentons la classification traditionnelle des unités lexicales (sous-
section 4.1), ensuite des tentatives de classification plus récentes (sous-section 4.2).
4.1 Les parties de discours classiques
La grammaire traditionnelle compte trois classes: le nom, le verbe et la lettre. La
catégorie nominale rassemble toutes les unités lexicales n’ayant pas de sens lié au temps et
regroupe les catégories du substantif et de l’adjectif. La catégorie verbale comprend toutes les
unités lexicales référant à un état ou à une action au passé, au présent ou au futur. La classe
lettre, quant à elle, se répartit d’une part, en lettres de l’alphabet, littéralement les lettres de
construction , المعاني حروف , qui s’unissent pour former des unités lexicales, et d’autre part, en
lettres de signification, المباني حروف , dont le sens n’est complet que si elles sont utilisées avec
un nom ou un verbe. La grammaire traditionnelle recense presque quatre-vingts particules,
dont l’identification de la classe syntaxique exige d’étudier séparément les propriétés
distributionnelles de chaque lettre.
Système de recherche d’information arabe
26
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Sur critères morphologiques, la classe du nom se répartit en deux groupes :
Noms variables comprenant les deux propriétés suivantes :
o Ils acceptent les changements morphologiques et comprennent des
variantes numérales (singulier, duel et pluriel). Cette sous-catégorie
contient les déverbaux (PY tel le nom d’agent, le nom de patient, le
nom de résultat, et le nom d’instrument).
o Ils ont des formes dérivées adjectivales et diminutives. Ils se
répartissent en noms dérivés du paradigme verbal et noms non dérivés.
Ces derniers se subdivisent aussi, sur une base de distinction
conceptuelle, en noms abstraits, relatifs à l’espace mental, et noms
concrets, relatifs à l’espace physique.
Noms invariables regroupant des lexèmes tels que le pronom, le démonstratif,
l’interrogatif, le relatif et certains numéros. Ces noms sont dits invariables car
la marque casuelle n’est pas identifiée phonologiquement. Cependant, ces
lexèmes exercent les fonctions d’un nom.
4.2 Classification récentes des unités lexicales de l’arabe
A notre connaissance, les études qui ont cherché à classifier des unités lexicales en
arabe selon les parties de discours sont très peu nombreuses [21]. Les démarches récentes de
classification des unités lexicales se répartissent en deux approches. Certaines consistent en
une classification identifiée pour les langues indo-européennes sans prendre en considération
l’existence possible d’une classe n’existant pas dans ces langues, ou bien l’inverse. D’autres
ont conservé la classification traditionnelle arabe tout en lui suggérant des raffinements. Nous
présentons une classification assez récente réalisée dans le cadre du développement d’un
étiqueteur morphosyntaxique [2] qui a servi de référence pour d’autres recherches comme [1].
[2] présente un étiquetage basé sur la classification traditionnelle et raffinée par les
subdivisions proposées par [3].Selon cette classification, les unités lexicales se répartissent en
cinq classes : nom, verbe, particule, résiduel et ponctuation. Certaines sont raffinées en sous
classes illustrées sur la figure suivante :
Nous avons présenté une description succincte de la grammaire arabe et avons décrit
ses propriétés linguistiques :
Une langue voyellée qui avec l’absence de voyellation entraîne une ambiguïté à
différencier des unités lexicales ayant la même représentation.
Système de recherche d’information arabe
27
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 2.4 : Classification des unités lexicales proposée par [2]
Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en
flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports
grammaticaux qu’ils entretiennent avec les autres unités lexicales.
une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et
constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques.
Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en
français.
Une langue pro-drop où elle néglige systématiquement la réalisation morphologique
du pronom sujet.
Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et
particule-, puis nous avons décrit une classification structurale récente des unités lexicales en
arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et
ponctuation.
5- Ressources linguistiques : état des lieux
Les ressources linguistiques (RL) jouent un rôle essentiel dans les applications de la
technologie des langues. Ainsi, d’une part les RL alimentent les différents processus des
systèmes de TAL, d’autre part, elles sont de plus en plus exploitées pour accompagner le
travail de modélisation linguistique par des méthodes statistiques [4].
Système de recherche d’information arabe
28
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Les RL à grande échelle connaissent une diffusion croissante, notamment grâce à des
structures le LDC 5 (Linguistic Data Consortium) aux Etats-Unis et l’ELRA 6 (European
Language Ressources Association) en Europe. Nous donnons un aperçu des ressources
linguistiques existantes pour l’arabe. Nous nous limitons à celles utiles pour l’analyse
automatique des corpus textuels.
5.1 Lexiques
Un lexique se constitue d’une liste d’entrées lexicales auxquelles peuvent être
associées des informations linguistiques relevant la morphologie, la syntaxe, ou la sémantique
ainsi que sa fréquence d’usage, des exemples d’emploi, etc.
Toutes ces informations peuvent être regroupées en deux groupes distincts, les
informations intra-lexicales et inter-lexicales. Les informations intra-lexicales (constituant la
microstructure du lexique) tandis que, les informations inter-lexicales (constituant la
macrostructure du lexique) sont celles qui lient les unités lexicales entre eux dans le lexique.
Nous distinguons différents types de liens :
les liens morphologiques permettent de lier l’unité lexicale à sa forme de base. Ils
regroupent les informations flexionnelles et dérivationnelles (lien entre une forme
fléchie et son lemme).
les liens sémantiques lient l’entrée lexicale avec ses informations sémantiques.
Nous présentons quelques-uns des lexiques électroniques de l’arabe, en abordant d’une
part les lexiques monolingues et d’autre part les lexiques multilingues.
5.2 Corpus
Le corpus se définit de fait comme l’objet concret auquel s’applique le traitement,
qu’il s’agisse d’une étude qualitative ou quantitative. Le corpus est défini par [5] comme «
l’ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène
linguistique ». Mais les données ont un nom trompeur : elles ne s’imposent pas, elles sont
construites. Certes, il y a un existant, directement sous forme de textes électroniques par
exemple, et donc l’analyste n’a pas une totale liberté d’inventer ses données, il part d’une
réalité, mais il reste des décisions du type : faut-il considérer tout ce qui est disponible ou en
extraire un sous-ensemble plus significatif et équilibré ; comment éventuellement l’adapter au
traitement envisagé. Ainsi, selon [6] le corpus doit vérifier trois types de conditions : des
conditions de signifiance, des conditions d’acceptabilité, et des conditions d’exploitabilité.
Système de recherche d’information arabe
29
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Conditions de signifiance : un corpus est constitué en vue d’une étude déterminée,
portant sur un objet particulier, une réalité telle qu’elle est perçue sous un certain
angle de vue. Les documents retenus doivent être adéquats comme source
d’information pour correspondre à l’objectif qui suscite l’analyse.
Conditions d’acceptabilité : le corpus doit apporter une représentation fidèle, sans
être parasité par des contraintes externes. Il doit avoir une ampleur et un niveau de
détail adaptés au degré de finesse et à la richesse attendue en résultat de l’analyse.
Conditions d’exploitabilité : les textes qui forment le corpus doivent être
commensurables. Le corpus doit apporter suffisamment d’éléments pour pouvoir
repérer des comportements significatifs (au sens statistique du terme).
Dans notre cas, nous distinguons deux grandes catégories de corpus : les corpus de
spécialités tentent de refléter l’usage de la langue dans un domaine particulier (corpus
techniques, médicaux), tandis que les corpus généralistes s’intéressent à l’ensemble d’une
langue et rassemblent souvent des textes plus diversifiés, représentatifs de sa diversité.
5.2.a – Corpus général
Le corpus de langue générale est consacré à une langue naturelle. Il tend à représenter
la diversité des usages de la langue choisie. A ce titre, il est constitué d’un ensemble de
données dont les conditions de production et de réception sont représentatives d’une grande
variété de situations de communication (orale : monologue, interview, écrite : lettre, roman...),
et de types textuels (exposé scientifique, fiction narrative, reportage...). Il permet la
constitution de sous corpus en registre 7 pour des analyses contrastives par exemple. En outre,
le corpus de langue générale est souvent ouvert, c’est-à-dire que son contenu est sans cesse
augmenté de nouvelles données, ce qui autorise à terme des analyses diachroniques
(néologismes, emplois morphologiques privilégiés). Enfin, le corpus de langue générale est de
grande taille, il dépasse aujourd’hui plusieurs millions d’occurrences. Al-Hayat Le corpus Al-
Hayat est distribué par l’organisme ELRA, il a été développé dans le cadre d’un projet de
recherche de l’Université d’Essex, en collaboration avec Open University. Ce corpus est
constitué d’articles extraits du journal Al-Hayat, qui ont été utilisés dans les campagnes
TREC. Les données sont réparties dans sept rubriques, suivant les critères de répartition des
sujets du journal Al-Hayat : rubrique Générale, rubrique Automobile, rubrique Informatique,
rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.
Système de recherche d’information arabe
30
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Le balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés.
La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591
articles. An-Nahar Le corpus de textes du quotidien libanais An-Nahar distribué par ELRA,
est constitué d’articles en arabe standard de 1995 à2000, stockés sous la forme de fichiers
HTML sur CD-ROM. Chaque année contient 45 000 articles et24 millions de mots. Chaque
article contient des informations telles que le titre, le nom du quotidien, la date, le pays, le
type, la page, etc. NEMLAR : Network for Euro-Mediterranean Language Resources Ce
corpus a été produit dans le cadre du projet NEMLAR 8. Le corpus écrit NEMLAR est
constitué de 500 000 unités lexicales regroupés en 13 catégories différentes, visant à obtenir
un corpus bien équilibré qui offre une représentation de la variété de traits syntaxiques,
sémantiques et pragmatiques de la langue arabe moderne. Les différentes catégories sont
illustrées dans la table 2.5.
Le corpus est fourni sous la forme de 4 versions différentes:
Texte brut
Texte entièrement voyellée
Texte comprenant une analyse lexicale de l’arabe
Texte enrichi linguistiquement avec les parties du discours Agence France Presse
L’Agence France Presse (http://www.afp.com/arabic/home/) est l’un des plus gros
diffuseurs européen de dépêches en langues Arabe.
Le corpus est constitué de 383 872 documents. Il a été encodé en utilisant le SGML et a
été transcodé à Unicode (UTF-8). Le corpus inclut des articles journalistiques du 13 mai 1994
au 20 décembre 2000 avec approximativement 76 millions d’unité lexicale. Les données sont
réparties dans six rubriques, suivant les critères de répartition des sujets du journal Agence
France Presse : rubrique Générale, rubrique Informatique, rubrique Actualités, rubrique
Economie, rubrique Sciences, et rubrique Sport. Chaque article contient des informations
telles que le titre, la date, le pays, la page, etc. Corpus arborés Un corpus arboré est un corpus
annoté par des informations de nature interprétative [22]. Les différents type d’annotation
dont parle J. Véronis sont : l’annotation grammaticale, sémantique, multilingue ainsi que
l’annotation phonétique. Il existe deux types d’annotation grammaticale. Le premier consiste
à effectuer un étiquetage des catégories grammaticales et des informations
morphosyntaxiques associées. Le deuxième est un marquage de structures syntaxiques,
Système de recherche d’information arabe
31
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 2.5 Composition du corpus NEMLAR
6 – Conclusion
Le but de ce chapitre était de présenter la langue arabe, de décrire plus particulièrement
ses propriétés linguistiques :
Une langue voyellée qui avec l’absence de voyellation entraîne une ambigüité à
différencier des unités lexicales ayant la même représentation.
Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en
flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports
grammaticaux qu’ils entretiennent avec les autres unités lexicales.
une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et
constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques.
Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en
français.
Une langue pro-drop où elle néglige systématiquement la réalisation morphologique
du pronom sujet.
Système de recherche d’information arabe
32
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et
particule-, puis nous avons décrit une classification structurale récente des unités lexicales en
arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et
ponctuation. Et finalement nous avons donné un aperçu sur les différentes ressources
linguistiques disponibles en arabe, à savoir les lexiques monolingues et multilingues, et les
corpus bruts et annotés.
Dans le chapitre suivant on va attaquer la phase de prétraitement des documents arabe
qui représente une phase très importante pour la recherche d’informations avec influence
directe sur la performance et la qualité des résultats.
Système de recherche d’information arabe
33
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 3 : Prétraitement des
documents arabe
Système de recherche d’information arabe
34
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
1 – Introduction
Après avoir donné un aperçu général sur les systèmes de recherche d’information, et
donner des spécificités de la langue arabe et ça complexité morphologique. On va présenter
dans ce chapitre d’abord les différentes méthodes de la représentation des documents pour un
traitement automatique .puis on va définir la notion de lemmatisation avec les différentes
approche qui existes
2 – Représentation des documents
La phase de représentation est très importante et comporte deux choix qui affectent
souvent les performances : le choix de termes (mot, lemme, stem ou n-grammes) et le choix
des poids associés à ces termes (absence/présence, nombre d’occurrences, fréquence, ... etc.).
2.1.a – Modèle Vectorielle
À chaque fois qu’il est question de définir un problème de façon à assurer un
traitement automatique, il est impossible de passer outre l’étape où il faut choisir la façon dont
on va représenter le problème. Dans le cas de la classification automatique de textes, on doit
opter pour une façon efficace de représenter les instances à traiter, soit les textes. Un grand
nombre de chercheurs dans le domaine ont choisi d’utiliser une représentation vectorielle [10]
dans laquelle chaque texte est représenté par un vecteur de n termes pondérés. À la base, les n
termes sont tout simplement les n différents mots apparaissant dans les textes de l’ensemble
d’entraînement. Cette approche est aussi appelée «bag-of-words». On peut utiliser d’autres
types d’attributs pour caractériser les vecteurs dont certains seront présentés plus loin. Il
existe aussi plusieurs façons d’associer un poids à un terme. Il peut être tout simplement
binaire (1 si le mot est présent dans le texte, 0 sinon). Il peut aussi représenter le nombre
d’occurrences du mot dans le texte. Cependant, en procédant ainsi, on donne une importance
trop grande aux termes qui apparaissent très souvent à travers toutes les classes et qui sont peu
représentatifs d’une classe en particulier. Une façon largement utilisée de calculer le poids
d’un terme est la fonction TFIDF (acronyme pour «term frequency inverse document
frequency»). Issue du monde de la recherche d’information [23], celle-ci donne plus
d’importance aux mots qui apparaissent souvent à l’intérieur d’un même texte, ce qui
correspond bien à l’idée intuitive que ces mots sont plus représentatifs du document. Mais sa
particularité est qu’elle donne également moins de poids aux mots qui appartiennent à
plusieurs documents, pour refléter le fait que ces mots ont un faible pouvoir de discrimination
entre les classes.
Système de recherche d’information arabe
35
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Le poids d’un terme tk dans un document dj est calculé avec la formule suivante :
Pour avoir des poids entre 0 et 1, on peut appliquer une normalisation, ce qui est
souvent le cas. La fonction TFIDF a démontré une bonne efficacité dans des tâches de
catégorisation de textes, et, en plus, son calcul est simple. Il faut savoir que d’autres méthodes
plus sophistiquées peuvent aussi être utilisées [25]. Malgré la grande popularité de l’approche
«bag-of-words» pour représenter les textes, plusieurs chercheurs ont expérimenté l’utilisation
des modes de représentation alternatifs. Une des motivations est que cette approche met de
côté une quantité considérable d’information contenue dans le document original. Les
paragraphes, les phrases et l’ordre des mots sont complètement écartés. Toute l’information
sur les structures syntaxiques est perdue. La question est bien sûr de savoir si la qualité de la
classification automatique des textes va être affectée négativement par cette façon d’agir. Est-
ce que tout ce qui est mis à l’écart au profit d’une représentation «bag-of-words» est
véritablement pertinent lors de l’assignation d’un texte à une catégorie ? La question à savoir
si les mots pris séparément représentent toujours des unités sémantiques atomiques n’est plus
à débattre. Il est clair que ce n’est pas le cas. Personne ne peut contredire le fait que les mots
«apprentissage» et «automatique» ensemble ont une sémantique différente que lorsque pris
séparément. On peut donc oser croire que des modes de représentation conservant
l’information sur les liens entre les mots pourraient améliorer la classification de textes,
sachant que cette tâche est directement liée au sens du message véhiculé par le texte, c’est-à-
dire à sa sémantique. En particulier, [12] ont essayé une dizaine de façons de représenter les
textes sur un classificateur ayant comme base l’apprentissage de règles (RIPPER). Ils ont
d’abord considéré les groupes nominaux, en extrayant des suites de noms et d’adjectifs pour
construire les termes de l’espace vectoriel. L’utilisation d’une application analysant la nature
grammaticale des mots du texte a été nécessaire à la mise en place de ce mode de
représentation. Puis, en utilisant une approche plutôt statistique que syntaxique, ils ont
également considéré les groupes-clés, c’est-à-dire les groupes de mots ayant le plus de sens
dans un document. En parallèle, ils ont aussi évalué l’impact de regrouper les mots
- #( tk, dj) est le nombre d’occurrences de tk dans dj
- |Tr| est le nombre de documents d’entraînements
- #( tk) est le nombre de documents d’entraînements dans
lesquels tk apparaît au moins une fois
Système de recherche d’information arabe
36
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
synonymes en un même méta-attribut. Dans le même ordre d’idées, la notion d’hyperonymes
a été mise à l’épreuve pour regrouper des mots de la même façon. Malheureusement, aucun de
ces modes alternatifs n’a produit de résultats équivalents ou supérieurs à l’approche «bag-of-
words».
2.1.b – Représentation par concept
Une autre méthode de représentation [2], bien qu’il se base aussi sur le formalisme
vectoriel pour représenter les documents, reste fondamentalement différente. Les dimensions
de l’espace vectoriel ne sont pas associées ici à des termes d’indexation mais à des concepts.
Pour permettre une telle représentation des documents, il est nécessaire de pouvoir projeter
n’importe quelle lexie du dictionnaire sur l’espace généré par l’ensemble des concepts
prédéfinis. Comme espace de concepts on cite le thésaurus Larousse composé de 873
concepts hiérarchisés en 4 niveaux. Par exemple, le mot “mélodie”, défini par les concepts
741, 781 et 784 (phrase, musique et chant) du thésaurus, sera représenté par un vecteur de
dimension 873 dont toutes les composantes seront nulles sauf celles associées aux concepts
741, 781 et 784 qui seront identiques. Le thésaurus Larousse sera donc défini comme un
ensemble de couple appartenant à avec L correspondant à l’ensemble des lemmes
du thésaurus.
Système de recherche d’information arabe
37
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
2.1.c – Représentation Mixte
L’avantage de la représentation conceptuelle est en particulier, de réduire les effets
synonymiques du vocabulaire. Par exemple, “pic”, “cime”, “sommet”, “crête” possèdent des
sens en commun. Lors d’une représentation statistique (représentation vectorielle), chaque
mot sera associé à une dimension. Il n’y aura donc aucune ressemblance entre des textes
utilisant ces différents mots. L’avantage de la représentation conceptuelle est que des mots
synonymes partagent au moins un concept. Cependant, l’inconvénient majeur de la
représentation conceptuelle est que les noms propres du document ne sont pas pris en compte.
En effet les noms propres, étant sémantiquement vides par définition, ne possèdent pas de
représentation au sein du thésaurus. Par exemple les mots “Ferrari” et “Montpellier” sont
définis comme des vecteurs “nuls” alors qu’ils peuvent être utile lors d’un processus de
catégorisation, notamment pour des catégories de type : “Automobile” ou “Langedoc-
Roussillon”. L’idée de la représentation mixte [2] est donc d’allier, à une représentation
conceptuelle pure, une dimension statistique supplémentaire. Cette double représentation des
textes a pour avantage de fournir deux informations différentes et complémentaires à un
processus de catégorisation. En effet, la représentation statistique permet de mettre en
évidence le vocabulaire discriminant tandis que la représentation conceptuelle permet quant à
elle, d’obtenir une vision plus globale du texte en projetant ce dernier sur un ensemble de
concepts. Cette projection permet d’en déduire le “champs sémantique” du texte en question.
Chaque document dans le processus de catégorisation mixte sera représenté par un vecteur
défini comme la concaténation des deux vecteurs suivants :
- La première moitié du vecteur mixte correspondra au vecteur statistique.
- La seconde moitié du vecteur mixte correspondra au vecteur conceptuel. Comme les
deux vecteurs ne sont pas obligatoirement uniformes, le vecteur mixte final est
normalisé :
Système de recherche d’information arabe
38
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
3 – Prétraitent et Lemmatisation
3.1 – Prétraitement nécessaires
3.1.a - Encodage :
L'arabe est encodé sur le Web suivant plusieurs formats d'encodage comme Unicode,
ISO-8859-6 et CP1256. Les textes recherchés et les requêtes peuvent être encodés
différemment, ce qui les rend incomparables.
Par exemple, notre corpus de test provient de la collection « ». Les documents sont
représentés en Unicode (UTF-8) et les requêtes, en ISO-8859-6. Un autre encodage (Windows
CP1256) est utilisé sur le Web pour représenter les textes arabes. Afin d'apparier les
documents avec les requêtes, nous devons réutiliser des outils de conversion entre différents
encodages en utilisant des tables de l'alphabet arabe. Ainsi, tout a été transformé en format
Unicode dans notre cas.
3.1.b - Tokenisation :
La tokenisation consiste à identifier les mots dans une séquence de lettres. Pour la
tokenisation des textes arabes, en plus des mêmes ponctuations présentes dans les textes
européennes, nous avons ajouté d'autres signes de ponctuation arabe (encodés en arabe)
comme la virgule, le point-virgule et le point d'interrogation et nous les avons considérés
comme des séparateurs. Ainsi, tous ces signes agissent comme séparateurs de mots arabes.
3.1.c - Normalisation orthographique :
Dans l'arabe écrit, les voyelles sont souvent omises dans les textes et un lecteur
familier avec ce langage ne trouvera pas vraiment de difficulté pour lire correctement un texte
sans voyelles. Néanmoins, on peut parfois trouver quelques voyelles présentes avec les mots
dans les textes. Ainsi, l'élimination de ces voyelles est nécessaire pour fin de normalisation.
D'autre part, certaines lettres subissent une légère modification dans l'écriture qui n'influe pas
considérablement sur le sens du mot. Mais l'encodage de ces lettres change d'un mot à un
autre. On peut citer à titre d'exemple la lettre « أ ». Au début des mots, elle peut être
représentée par « أ » comme (أكل), par « إ » comme (إستخدم) ou encore « آ » comme dans (آالت).
Une autre raison pour ce prétraitement est qu'on a tendance fréquemment à mal écrire ces
différentes formes de hamza. Ce genre d'erreurs est très répandu dans les textes arabes. Afin
Système de recherche d’information arabe
39
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
de tenir compte de toutes ces spécificités de ce langage et de remédier au problème de
variation de représentation des caractères arabes dans les textes comme dans les requêtes, il
est nécessaire d'adopter et d'appliquer quelques méthodes de normalisation sur le corpus avant
la lemmatisation :
Remplacer les hamzas (أ, إ, آ) par (ا).
Remplacer (ى) par (ي) à la fin des mots.
Remplacer (ة) par (ه) encore à la fin des mots.
Remplacer la séquence (ئ) par ( ي).
Eliminer le caractère « tatweel » et « kashida » ( _ ) utilisé pour l'esthétique dans les
textes arabes.
Eliminer les diacritiques (voyelles) et la « chedda ».
Cette étape de normalisation améliore clairement la performance de la recherche quand
lors de sa mise en place dans un système de RI.
3.1.d - Construction de Stoplist (Liste des mots outils) :
Comme pour d'autres langues, l'arabe contient aussi des mots fonctionnels (ou mots
outils) qui ne partagent pas un sens particulier utile pour la recherche d'information. Nous
éliminons ainsi ces mots outils avant la phase de lemmatisation. Cette table de mots outils
renferme presque toutes les prépositions et les particules de l'arabe et les traductions de
quelques mots outils (stopwords) anglais qu'on peut trouver dans les requêtes.
Plusieurs tables de mots outils ont été conçues pour l'arabe. La plus répandue, et
largement reprise par d'autres travaux dans ce domaine, est celle de Khoja renfermant 168
entités [24].
3.2 – Lemmatisation (Stemming)
Un des traitements les plus importants pour la langue arabe, en vue de la recherche
d'information et de la catégorisation des documents est la lemmatisation des mots. L'objectif
de la lemmatisation est de trouver la forme représentative d'index d'un mot à partir de sa
forme représentée dans le document et réduire son espace caractéristique par l'application de
la troncature des affixes.
Système de recherche d’information arabe
40
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Comme nous l'avons introduit précédemment, un mot arabe est formé généralement par une
séquence de {antéfixe, préfixe, noyau, suffixe, postfixe}. Ainsi un mot arabe peut avoir une
forme plus compliquée si tous ces affixes sont attachés à sa forme standard. De telles
situations se présentent fréquemment dans la morphologie arabe.
La lemmatisation des mots arabes a été une problématique majeure dans plusieurs
travaux dans la recherche d'information arabe. Alors, notre étude permet d’identifier
l’ensemble des méthodes qui s’adresse au problème d’extraction d’information à partir d’un
document texte arabe.
Nous avons constaté que ces méthodes peuvent être divisées en quatre classes, « Root
Extractor », « Light Stemming », « Statistical Approach » et finalement « Hybrid Approach ».
La première catégorie se base essentiellement sur une connaissance approfondie de la langue
arabe, sa morphologie et ses variations. Alors que la seconde classe consiste à éliminer
l’ensemble des fréquents suffixe et préfixes.
La troisième catégorie regroupe l’ensemble des techniques d’extraction non linguistiques qui
ne dépendent guère des caractéristiques de langue arabe et se base sur une étude statistique
d’extraction d’information indépendamment de la complexité de la langue.
Notre dernière classe est la résultante d’un mélange regroupant l’ensemble des approches des
différentes classes déjà citées.
3.2.a – 1ére approche « Stem-based »
Plusieurs algorithmes de lemmatisation des règles prédéfinies pour éliminer
l’ensemble des affixes (suffixes, infixes, préfixes…) du mot en s’arrêtant au niveau du
lemme.
Cette catégorie permet de récupérer des informations remarquablement bonnes sans
passer par une analyse morphologique correcte.
Plusieurs algorithmes ont été développés en se basant sur cette approche en conservant la
sémantique du mot car il ne cherche pas à extraire la racine, mais il essaie d’éliminer les
suffixes et les préfixes les plus fréquemment utilisés dans la langue arabe. Jusqu’à maintenant,
il n’y a pratiquement pas d’algorithme standard pour la lemmatisation des textes arabes à base
des lemmes.
Système de recherche d’information arabe
41
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Les travaux déjà réalisés Al Ameed et al. (2005), Larkey et al. (2002), Chen & Gey
(2002), Kadri & Nie (2006), utilisent un ensemble de règles afin d’enlever des affixes sachant
que jusqu’à maintenant aucune listes prédéfinies des préfixes et suffixes n’est disponible.
Une phase de normalisation est appliquée avant l’application de ces algorithmes. Par
exemple, on doit remplacer (أ), (إ) et (آ) par « Alif » (ا), même chose pour (ى), on la
remplace par (ي) à la fin du mot.
Light stemming ou lemmatisation assouplie comme les francophones l’appellent est
une approche proposée et développée par Larkey et al. (2002), inspiré par le processus de
lemmatisation de langue anglaise, cet algorithme se base sur l’élimination d’un ensemble de
suffixes et de préfixes. Il commence par la suppression de la lettre (و) si elle est la première
lettre du mot, puis il procède à une élimination des préfixes (فال ,كال ,وال ,ال لل , , بال ) et des
suffixes (ها, ين, ون ان ,ات , ي , ة , ه , يية , يه ).
3.2.b – 2éme approche « root-extractor »
Bien évidemment plusieurs algorithmes de lemmatisation qui se basent sur les patrons
et les affixes ont été développés afin d’extraire les racines de longueur trois, quatre et cinq à
partir des formes verbales, des noms et des adjectifs dérivant des verbes. La plupart de ces
travaux [1] [2] [3] [4] [5] [6] dont le but est d’extraire la racine afin de diminuer l’espace
caractéristique des termes, se base essentiellement sur le processus de correspondance entre
les termes et les patrons.
S.Khoja et R.Garside (1999) [1] ont proposé une méthode impliquant l’élimination
des voyelles, de la ponctuation, les nombres, les articles définis (ال), conjonction de
coordination (و) et les « stopwords » ainsi que les plus fréquents suffixes et préfixes.
Pour ce faire, il procède à une analyse morphologique qui compare le terme à une liste
de patrons et de racines pour déterminer si la forme sans affixes peut être obtenue en
appliquant un certain patron sur une racine connue. S’il ya une correspondance, les caractères
représentants la racine dans le patron sont extraits. La Figure suivante illustre le mécanisme
d’extraction de la racine en se basant sur la correspondance d’un patron avec le mot, par
exemple le mot (أحالم) correspond au patron (أفعال) et nous donne la racine )حلم(.
Système de recherche d’information arabe
42
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 3.1 : Approche « root-based » pour la lemmatisation
3.2.c – Approche statistique
Toutes les approches statistiques se basent essentiellement sur les techniques N-gram,
cette technique nous permet d’avoir la capacité de décider à partir des structures de caractères
que deux mots sont sémantiquement similaires ou non. Similaire signifie que les deux mots
possèdent plusieurs sous-chaînes de N caractères communes entre eux.
Cette approche possède plusieurs avantages, elle est applicable à toutes les langues car
elle ne nécessite pas une connaissance préalable de la langue à traiter, elle n’exige pas
l’application d’un ensemble de règles prédéfinis et la construction d’une base de vocabulaires.
L’application de cette technique a donné des bons résultats en plusieurs langues,
même sur la langue arabe en utilisant les 3-gram et les 4-gram et surtout sur les cas appelés
« noisy-texts » qui sont des textes contenant des erreurs typographiques.
Cette méthode statistique peut être divisée en deux sous catégories :
- N-gram basé sur le coefficient de similarité de Dice’s : développée par W.Adamson
George et J.Boreham (1974), elle était la première technique de classification qui se
base sur la structure des caractères des mots. Le coefficient de Dice’s est calculé par le
nombre de correspondance des bi-grams (2-gram) des paires de chaines de caractères.
- N-gram basé sur la technique des fréquences statistiques : proposé par L.Khriesat
(2006), cette technique utilise une mesure de non similarité appelée « Manhattan
distance ». Après une étape de normalisation, du prétraitement qui élimine la
ponctuation, les diacritiques, les nombres et les « stopwords », il calcule les N-gram
(N=3) de chaque mot et la sauvegarde dans un fichier. Pour chaque mot en compare la
fréquence du profile avec l’ensemble des fréquences de profile des autres mots.
Système de recherche d’information arabe
43
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Malgré que les systèmes de n-grammes aient été utilisés pour de nombreuses langues
différentes, on ne s'attendrait pas à de bons résultats lors de lemmatisation dans des langues
comme l'arabe. Toutefois, il y a des systèmes développés qui combine le mot et ses 6-
grammes et qui a donné des résultats remarquables pour plusieurs langues y compris l’arabe.
3.2.d – 4éme approche « hybrid approche »
Comme vous avez remarqué, chaque approche a ses propres avantages et
inconvénients, il y a celle qui nécessite la présence d’un ensemble des pré-requis et d’une
analyse morphologique et qui dépend totalement à la langue traitée, une autre qui se base sur
des règles linguistiques et il y a des techniques de lemmatisation qui ne dépend pas de la
langue traité et qui se base sur des formules statistiques et produisant des index de tailles
énormes. Donc, chaque technique doit être adaptée individuellement pour être approprié à
l’usage et résoudre ses propres problèmes.
Pour remédier à ces problèmes et augmenter la performance de l’étape de
lemmatisation, plusieurs chercheurs ont essayé de regrouper les différentes techniques de
chaque approche, les fusionner et les adapter pour avoir les meilleurs résultats possibles.
Plusieurs travaux ont été réalisés concernant ce sujet et ils ont donné des bons résultats
par rapport aux autres lemmatiseurs, car dans l’approche « Hybride », on essaie résoudre les
problèmes et les lacunes de chaque lemmatiseur en introduisant un autre.
4 – Conclusion
La lemmatisation a montré un grand effet sur la recherche d’information en arabe.
Mais il y a d’autres facteurs qui peuvent influencer positivement les résultats de la recherche.
Dans le chapitre suivant, on va aborder le concept de clustering qui représente une des
méthodes pour améliorer la recherche d’informations.
Système de recherche d’information arabe
44
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 4 : Regroupement des
documents (Clustering)
Système de recherche d’information arabe
45
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
1 - Introduction
La classification (clustering) est une méthode mathématique d’analyse de données :
pour faciliter l’étude d’une population d’effectif important (animaux, plantes, malades, gènes,
etc...), on les regroupe en plusieurs classes de telle sorte que les individus d’une même classe
soient le plus semblables possible et que les classes soient le plus distinctes possibles. Pour
cela il y a diverses façons de procéder (qui peuvent conduire à des résultats différents...).
Pour réaliser cette opération de regroupement, on fait fréquemment appel à la notion
de similarité entre les objets dans les données. En effet, cette notion de similarité prend tout
son sens en clustering car il s’agit d’évaluer à quel point deux éléments sont similaires (ou
dissimilaires) pour les regrouper ou les séparer. Le choix de la mesure de similarité permettant
de comparer les objets entre eux va induire la façon de les regrouper. En utilisant deux
définitions de similarité déférentes, les objets ne seront pas comparés, et de fait regroupés ou
non, de la même façon.
Cette notion de similarité est une première étape pour définir un algorithme permettant
de regrouper les objets, mais n’est pas suffisante. En effet, il est nécessaire de décrire la
stratégie utilisant cette similarité et permettant la construction explicite des clusters. Plusieurs
stratégies peuvent être mises en place en utilisant une même mesure de similarité. Ces
premiers constats sont déjà une explication du nombre important de méthodes de clustering
existantes.
Figure 4.1 : Exemple d’un jeu de données décrites par deux attributs et contenant trois clusters
identifiables visuellement.
Système de recherche d’information arabe
46
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
2 - Différentes approches en clustering
Loin de vouloir faire un état de l’art exhaustif de toutes les méthodes existantes, nous
présentons dans cette section les concepts clefs du clustering. Il est ainsi possible de regrouper
les approches selon des caractéristiques communes.
La première distinction à faire concerne le type de résultat obtenu. Suivant les
méthodes, les clusters obtenus peuvent être des ensembles durs ou flous. Certains objets
peuvent ne pas être classés, et certains clusters peuvent se recouvrir. De plus, le résultat n’est
pas forcément plat, et peut se présenter sous la forme d’une hiérarchie.
Les algorithmes de clustering diffèrent également par la stratégie mise en place pour
construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est
utilisée par une part importante des approches. Cependant, d’autres méthodes à base de
densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la
section 2.2.a.
Les algorithmes de clustering diffèrent également par la stratégie mise en place pour
construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est
utilisée par une part importante des approches. Cependant, d’autres méthodes à base de
densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la
section 2.1.
Table 4.1 : Exemple des degrés d’appartenance des objets aux clusters pour un résultat dur, dou et
flou
2.1 - Structures des résultats de clustering
Le résultat d’un algorithme de clustering peut se présenter sous différentes formes selon
qu’il est possible ou non que deux clusters se chevauchent, c’est-à-dire qu’un objet puisse
appartenir ou non à plusieurs clusters en même temps.
Système de recherche d’information arabe
47
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Le résultat le plus simple et le plus souvent rencontré est le clustering dur (hard
clustering).Dans un clustering dur, chaque élément appartient à un et un seul cluster.
L’ensemble des données X est divisé en un ensemble de K clusters, C = {C1 , . . . , CK },
formant une partition de X, c’est-à-dire ∪K Ck = X.(k=1).
Ce type de résultat est le plus courant et le plus facilement interprétable par l’expert.
Cependant il peut être nécessaire de donner plus de flexibilité aux clusters. En effet, il peut
arriver que certains objets se distinguent de manière trop significative des autres objets, et leur
affecter un cluster peut perturber le processus de clustering. Il arrive que ces objets soient
rejetés et qu’aucun cluster ne leur soit affecté dans le résultat final. On parle alors de
clustering dur partiel, c’est-à-dire que chaque objet appartient à un ou aucun cluster.
De plus, la frontière entre les clusters peut être difficile à définir, et il arrive que
certains objets soient à la frontière de plusieurs clusters. Pour pouvoir refléter ce type
d’appartenance, le clustering doux (soft clustering) permet à chaque objet d’appartenir à un ou
plusieurs clusters. On peut alors parler de clustering doux partiel si dans le résultat, un
élément peut appartenir à aucun, un ou plusieurs clusters.
L’appartenance à plusieurs clusters est cependant difficile à interpréter pour l’expert.
En effet, plus les objets vont appartenir à de nombreux clusters, plus le résultat va perdre en
précision et va rendre difficile son interprétation. La clustering flou apporte alors une solution,
en permettant à chaque élément d’appartenir à chacun des clusters selon un certain degré
d’appartenance. Il est toujours possible de revenir à un clustering dur en sélectionnant pour
chaque objet le cluster dont l’appartenance est maximale. Le tableau 2.1 présente une
illustration des degrés d’appartenance d’objets aux clusters pour un résultat dur, doux et flou.
Clustering hiérarchique : La majorité des méthodes proposent un résultat sous la forme
d’une structure plate, c’est-à-dire sans lien entre les clusters. Il est cependant naturel pour
certaines applications de représenter le résultat sous la forme d’une hiérarchie de clusters. On
peut facilement imaginer des groupes relativement grossiers situés à un niveau élevé dans la
hiérarchie, qui vont se spécialiser plus on descendra dans cette hiérarchie. Plus un cluster sera
bas dans la hiérarchie plus il contiendra un faible nombre d’objets mais qui seront plus
similaires. Dans un clustering hiérarchique, un cluster peut être divisé en sous clusters,
l’ensemble des clusters étant généralement représenté par un arbre. Un objet appartient à une
et une seule feuille dans la hiérarchie, mais également à son nœud père, et ainsi de suite
jusqu’à la racine. Les méthodes de clustering hiérarchique permettent d’obtenir ce type de
Système de recherche d’information arabe
48
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
résultats. Deux grands types d’approches de clustering hiérarchique existent : les approches
par agglomération (ou ascendantes) et les approches par division (ou descendantes).
Figure 4.2 : Exemple de résultat hiérarchique.
Dans les approches par agglomération, l’algorithme part des objets et ceux-ci sont
ensuite regroupés jusqu’à obtenir un cluster unique contenant tous les objets. Les approches
divisives partent elles, de l’ensemble des données, et les divisent en clusters qui sont ensuite
divisés à leur tour de manière récursive. La figure 4.2 montre un exemple de résultat de
clustering hiérarchique à 4 clusters.
2.2 – Les Méthode de clustering
Les méthodes de clustering peuvent être divisées comme suit:
Méthodes de Partitionnement, qui permettent de construire plusieurs partitions puis
les évaluer selon certains critères
Méthodes hiérarchiques, qui créent une décomposition hiérarchique des objets selon
certains critères
Méthodes basés sur la densité : basés sur des notions de densité ou de connectivité
Méthodes de grille : basés sur une structure de granularité à multi-niveaux a plusieurs
niveaux.
2.2.a - Méthodes à partitionnement
Les Méthodes à partitionnement consistent à : Construire une partition à k clusters
d’une base D de n objets, et les k clusters doivent optimiser le critère choisi.
On distingue : Le Global optimal: qui considère toutes les k-partitions , Le Heuristic methods:
Algorithmes k-means , Fuzy C-means et k-medoids , Pour le k-means (MacQueen’67):
Système de recherche d’information arabe
49
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chaque cluster est représenté par son centre Et le k-medoids ou PAM (Partition around
medoids) (Kaufman & Rousseeuw’87): Chaque cluster est représenté par un de ses objets.
a.1 - La méthode des k-moyennes (K-Means) :
L’algorithme k-means est en 4 étapes :
1. Choisir k objets formant ainsi k clusters
2. (Ré) Affecter chaque objet O au cluster Ci de centre Mi tel que distance(O,Mi)
(la distance ici ça peut être par exemple la distance euclidienne ou autre
mesures que nous allons exposés dans ce chapitre) est minimal
3. Recalculer Mi de chaque cluster (le barycentre)
4. Aller à l’étape 2 si on vient de faire une affectation
Figure 4.3 : Représentation graphique d’un exemple de déroulement de l’algorithme K-means.
a.2 - La méthode de Fuzzy C-Means (FCM)
L’algorithme fuzzy c-means est très similaire à k-means. Dans le fuzzy clustering,
basé sur la logique floue, tout point (document) a un degré d’appartenance à un cluster,
Système de recherche d’information arabe
50
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
contrairement à la classification simple où un point appartient uniquement à un seul cluster. A
chaque point x, on a un coefficient donnant le degré d’appartenance au cluster i par
Couramment, la somme de ces coefficients pour un point donné est égale à 1.
Formule 4.1 : Somme des coefficients dans fuzzy c-means
Le degré d’appartenance de x au cluster i est donné par l’inverse de sa distance au centroide
de ce cluster : (center i étant le centroide du cluster i)
Formule 4.2 : Degré d’appartenance dans Fuzzy c-means
Dans fuzzy c-means, le centroide d’un cluster est la moyenne de tous les points pondérés par
leurs degrés d’appartenance à ce cluster.
Formule 4.3 : Calcule du centroïde dans Fuzzy c-means.
- m: est un réel supérieur à 1 utilisé pour normaliser les coefficients pour que leur Somme soit
égale à 1
- n: est le nombre de documents de la collection
Système de recherche d’information arabe
51
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Formule 4.4 : Degré d’appartenance normalisé dans Fuzzy c-means
L’algorithme fuzzy c-means est très similaire à k-means:
- Choisir un nombre k de clusters.
- Assigner aléatoirement à chaque point des coefficients d’appartenance aux clusters.
- Répéter jusqu’à ce que l’algorithme converge (le changement des coefficients en deux
itérations ne doit pas dépasser un seuil ε donné) :
- Calculer le centroîde de chaque cluster selon la Formule 4.3
- Pour chaque point, calculer ses coefficients d’appartenance aux clusters selon la
Formule 4.4
En plus du nombre de clusters à choisir, le problème de fuzzy c-means est le choix des
coefficients initiaux.
a.3 – La méthode des K-Medoids (PAM)
Cette méthode consiste à :
Trouver des objets représentatifs (medoïdes) dans les clusters au lieu de la moyenne.
Un cluster est représenté par un de ses objets appelés medoides qui minimise la somme des
distances à d’autres objets dans le même cluster.
Min ∑ d(Ms,Xi) , Xi € S.
Avec, S : cluster ; Mi : medoide, Xi : un élément de medoide
Le principe est de commencer avec un ensemble de medoïdes puis itérativement remplacer un
par un autre si ça permet de réduire la distance globale. Il est efficace pour des données de
petite taille.
Système de recherche d’information arabe
52
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 4.4 : Algorithme de k-Medoides
Figure 4.5 : Algorithm PAM (Partitioning Around Medoids)
2.2.b - Méthodes hiérarchiques
Les méthodes hiérarchiques construisent une hiérarchie de clusters, c’est-à-dire un
arbre de clusters pouvant se présenter sous la forme d’un dendrograme. Chaque nœud contient
Système de recherche d’information arabe
53
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
ses clusters enfants, et les nœuds frères partitionnent les objets contenus dans leurs parents.
Ce type d’approche permet d’explorer les données à différents niveaux de granularité. Les
méthodes de clustering hiérarchique sont décomposées en deux types d’approches, les
approches ascendantes et les approches descendantes. Dans les approches ascendantes,
l’algorithme part d’un grand nombre de clusters et ceux-ci sont ensuite fusionnés jusqu’à
n’obtenir plus qu’un unique groupe contenant tous les objets du jeu de données. Les
approches descendantes partent, de l’ensemble des données, et le divisent en clusters qui sont
ensuite divisés récursivement.
Dans les approches ascendantes, il est nécessaire de définir un critère de similarité
entre les clusters, qui permet à chaque étape de l’algorithme de choisir les deux clusters à
fusionner. Une hypothèse importante est l’hypothèse de monotonie. La monotonie signifie
que si s1, s2, . . ., sn sont les similarités des clusters fusionnés au cours du clustering
hiérarchique alors s1 ≥ s2 ≥ . . . ≥ sn .Un clustering hiérarchique non monotone contient au
moins une inversion si < si+1 ce qui contredit l’hypothèse fondamentale de fusionner les deux
meilleurs clusters candidats à chaque étape.
Le clustering hiérarchique ascendant ne nécessite pas de prédéfinir un nombre de
clusters. Cependant, si un clustering plat des données est nécessaire, il est possible d’effectuer
une coupe dans la hiérarchie au niveau qui propose le nombre de clusters demandé. Il est
également possible de définir un niveau de similarité entre les clusters au-delà duquel on ne
souhaite plus fusionner les clusters. Un certain nombre d’heuristiques existent pour choisir à
quel niveau de la hiérarchie il est judicieux d’effectuer une coupe pour obtenir le meilleur
partitionnement des données.
Il existe plusieurs stratégies pour calculer la similarité entre les clusters, les plus
connues étant : single-link, complete-link et average-link. La stratégie single-link compare les
deux clusters en con-sidérant la distance minimale entre les objets des deux clusters :
Formule 4.5 : Stratégie simgle-link pour calcule de similarité
La stratégie complete-link considère la distance maximale entre les objets des deux clusters :
Système de recherche d’information arabe
54
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Formule 4.6 : Stratégie complete-link pour calcule de similarité
Enfin, la stratégie average-link considère la moyenne des distances des objets des deux clusters :
Formule 4.7 : Stratégie average-link pour calcule de similarité
La figure suivante illustre graphiquement ces différentes stratégies.
Figure 4.6 : Illustration des différentes stratégies de regroupement de clusters en clustering
hiérarchique.
On prend comme exemple d’algorithme utilisant la méthode hiérarchique l’algorithme
STC (Suffix Tree Clustering) [18], STC ne cherche pas à ranger chaque document dans un
groupe précis. Au contraire, un document peut appartenir à plusieurs groupes. Contrairement
aux autres approches, STC ne représente pas un document par la liste non ordonnée des mots
qu’il contient. STC s’intéresse aux phrases communes aux documents. La méthode se déroule
ainsi :
- nettoyage du document comme d’habitude : stoplist, mots fréquents (ceux qui
apparaissent dans plus de 40% des documents ou dans moins de 3%)
- lemmatisation rapide (plusieurs, préfixes et suffixes courants : voir l’algorithme de
Light Stemmer Remarquez que le lien entre une forme lemmatisée et sa forme
d’origine est gardée : quand on montre les mots à l’utilisateur, on peut ainsi utiliser la
forme originale et non la forme lemmatisée
- les phrases de chaque document sont identifiées.
- création d’un index inversé des phrases : à chaque phrase (et chaque morceau de
phrase) on associe la liste des documents dans laquelle elle apparaît. Pour créer
rapidement cet index, utilise une structure de donnée appelée Suffix Tree.
- Pondération de chaque phrase : le score d’une phrase dépend du nombre de mots
qu’elle contient ainsi que du nombre de documents dans lesquels elle apparaît. Chaque
Système de recherche d’information arabe
55
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
phrase constitue un cluster de base. A chaque phrase est associée la liste des
documents dans lesquels elle apparaît. L’étape suivante va consister à fusionner ces
clusters de base. Pour décider quand fusionner deux clusters de base, on définit une
fonction de similarité entre deux clusters. La similarité dépend du nombre de
documents que deux clusters de base ci et cj ont en commun.
Figure 4.7 : Fonction de similarité pour le Suffix Tree Clustering
L’algorithme STC a plusieurs propriétés intéressantes :
- ses résultats ne dépendent pas de l’ordre de présentation des documents
- il est incrémental (on peut ajouter un nouveau document alors que les autres sont déjà
traités et insérés dans l’index inversé des phrases)
- il n’est pas nécessaire de donner le nombre de clusters à l’avance.
2.2.c – Méthodes basés sur une Grille
Les méthodes à base de grille sont fondées sur le principe de la discrétisation de
l’espace des données. Celui-ci est décomposé en un ensemble de cellules qui forment l’unité
de la grille. Ces méthodes ont été proposées pour réduire l’explosion combinatoire des
méthodes à base de densité qui fait suite à l’augmentation des nombres d’objets. La densité
d’une cellule est basée sur le rapport entre le nombre de points présents dans cette cellule et
son volume. Ainsi, la relation de voisinage qui servait dans les méthodes à base de densité est
remplacée par le voisinage entre les cellules, ce qui permet de réduire le nombre d’objets à
regrouper.
Le processus de clustering dans les méthodes à base de grille consiste à regrouper les
cellules denses les plus proches. L’algorithme bang [7] effectue ce regroupement de manière
hiérarchique, en partant de la grille et en fusionnant successivement les cellules denses
voisines dont la différence de densité ne dépasse pas un certain seuil. L’algorithme clique [8]
est une méthode très populaire basée sur les grilles. Il consiste à partir des cellules, et à ne
considérer que les cellules dont la densité est supérieure à un seuil. La particularité de clique
est d’explorer plusieurs sous-espaces, c’est-à-dire de considérer plusieurs sous-ensembles des
attributs qui décrivent les objets. La grille et les densités sont calculées dans ces sous-espaces,
Système de recherche d’information arabe
56
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
ce qui permet d’effectuer une sélection d’attributs de manière implicite. Ceci permet de ne
conserver que les attributs faisant ressortir la densité des cellules, et donc les clusters.
L’utilisation de grilles adaptatives dans ces algorithmes consiste à considérer des grilles
non-uniformes, c’est-à-dire dont les cellules n’ont pas toutes la même géométrie. En effet,
dans le cas où les clusters ont des densités différentes, il peut être intéressant d’avoir des
cellules n’ayant pas la même résolution dans tout l’espace des données. Adapter la grille à la
densité locale permet d’éviter ce problème. L’algorithme mafia [9] propose par exemple une
évolution de clique en créant des grilles adaptatives.
2.3 – Analyse Sémantique Latente
L’analyse sémantique latente (LSA, Latent semantic analysis) ou indexation
sémantique latente (ou LSI, Latent semantic indexation) est un procédé de traitement des
langues naturelles, dans le cadre de la sémantique vectorielle. La LSA fut brevetée en 1988[6]
et publiée en 1990 [10]. Elle permet d'établir des relations entre un ensemble de documents et
les termes qu'ils contiennent, en construisant des « concepts » liés aux documents et aux
termes.
La théorie sur laquelle s'appuie la LSA est la décomposition en valeurs singulières (SVD) qui
permet de décomposer la matrice original de termes des documents du modèle d'espace
vectoriel et de conserver seulement les k plus grandes valeurs singulières de la matrice des
valeurs singulières S0 voir Figure 4.5.
A partir de la collection complète de documents, la matrice mot-document est calculée dans
laquelle chaque entrée consiste à un poids correspondant à un terme spécifique dans un
document spécifique. Le SVD de cette matrice mot-document est ensuite calculée et les
petites valeurs singulières sont éliminées de la matrice des valeurs singulières. Le résultat du
vecteur singulier et la matrice des valeurs singulières sont utilisés pour mapper les vecteurs
basés de terme des documents et des requêtes dans un sous-espace dans lequel les relations
sémantiques de la matrice terme-document sont conservées tandis que les variations de
l’utilisation des termes sont supprimées.
Pour le cas de la recherche d'information, les documents peuvent être classés (recherchés)
dans l'ordre décroissant de la similarité par rapport à une requête donnée par le calcul
normalisé des produits scalaires (similarité cosinus) sur les vecteurs basés des termes (avant le
Système de recherche d’information arabe
57
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
SVD et l'élimination) ainsi que les vecteurs basés des concepts (après le SVD et
l'élimination).
De même, en calculant les similarités entre les paires de documents en utilisant la matrice
original terme-document ainsi que la matrice term-document de rang réduit, nous pouvons
également effectuer le clustering basée sur les termes et le clustering conceptuel,
respectivement.
2.3.a – Composantes du SVD
La matrice terme-document X, a t lignes (une pour chaque terme qui apparaît dans
l'ensemble choisi de documents) et d colonnes (une pour chaque document dans la collection).
Le SVD, X = T0 S0 D0T résulte dans une matrice t x m. T0 représente les colonnes
orthonormées qui sont appelées les vecteurs singuliers de gauche, est une matrice diagonale
m x m. S0, c’est les valeurs singulières positives triées en ordre décroissant, est une matrice m
x d. D0, représente les colonnes orthonormées qui sont appelées les vecteurs singuliers de
droite.
La valeur m est le rang de la matrice X. La figure 4.5, représente le SVD de X. Avec
T0, S0, et D0 sont des matrices, et X peut être reconstituée avec précision. La clé d’innovation
dans les LSI est de ne retenir que les k plus grand valeurs singulières de la matrice S0 et
mettre les autres à zéro. La valeur de k est un paramètre de conception -les petites valeurs sont
généralement choisis.
Après la décomposition, la matrice originale, X est approchée par Y = T S DT, où T est une
matrice t x k avec des colonnes orthonormées. S est une matrice diagonale k x k à valeurs
positives, et D est une matrice d x k avec des colonnes orthonormées. (Voir. Figure 4.5).
Système de recherche d’information arabe
58
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 4.8 : Décomposition en valeurs singulières -Y est l'approximation de X
2.3.b – Exemple d’algorithme basé sur la LSI
La performance d’un algorithme de Clustering est lié a 2 facteurs le premier facteur
c’est la pertinence du cluster c'est-à-dire que les documents du cluster doivent représenter un
concept commun et le 2éme facteur c’est la qualité de la description ou comme on l’appelle
label de cluster, une label insignifiante ne donne pas une idée sur le contenu de cluster,
malheureusement la plupart des algorithmes de Clustering adopte l’approche qui consiste à
choisir le terme qui a la plus grand pondération comme label cependant cette approche ne
donne pas des résultats satisfaisante.
Lingo Clustering [18] présente une nouvelle approche qui consiste en générale a
trouvé d’abord la description la plus significatif pour chaque cluster puis à partir de cette
description trouver les documents de cluster, la figure suivante présente un pseudo code
pour l’algorithme.
Système de recherche d’information arabe
59
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 4.9 : Algorithme de Lingo Clustering
2.4 - Critères d’évaluation de la qualité d’un clustering
L’évaluation de la qualité d’un résultat de clustering est un domaine de recherche actif et de
nombreuses méthodes continuent d’être proposées régulièrement. Ceci est dû au fait que
l’évaluation d’un clustering contient toujours une part de subjectivité et qu’il est impossible de
définir un critère universel qui permettrait une évaluation sans biais de tous les résultats produits par
toutes les méthodes de clustering existantes. Cependant, un certain nombre de critères existent et
sont utilisés de manière récurrente par de nombreux chercheurs pour comparer les résultats
obtenus. Comme il existe un nombre important de résultats de clustering possibles pour un même
jeu de données, l’objectif est d’évaluer si un de ces résultats est meilleur qu’un autre. Cette notion
de meilleur est à définir et est souvent dépendante de la méthode utilisée.
2.4.a - Taxonomie des méthodes d’évaluation
Plusieurs taxonomies des méthodes d’évaluation ont été proposées dans la littérature.
Elles les regroupent principalement en trois familles. La première famille contient les mesures
non supervisées qui utilisent uniquement des informations internes aux données comme par
exemple la distance entre les objets. Ces mesures sont également appelées mesures de qualité
internes. La seconde famille contient les mesures supervisées qui calculent le degré de
correspondance entre le clustering produit par l’algorithme et un partitionnement connu des
Système de recherche d’information arabe
60
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
données. Ces mesures sont aussi connues sous le nom de mesures de qualité externes. Le
dernier groupe contient les mesures dites relatives, qui permettent pour un même algorithme
de comparer les clusterings produits par celui-ci. Les mesures relatives sont donc simplement
l’utilisation de critères internes ou externes pour faire un choix parmi plusieurs résultats
produit par un même algorithme. Dans cette section, nous allons voir les principales mesures
de qualité internes qui permettent d’évaluer un clustering.
2.4.b - Critères d’évaluation non supervisés
Les critères d’évaluation non supervisés [11] se basent sur des informations internes
au clustering comme par exemple la distance entre les objets d’un cluster et le centroïde de
celui-ci. Ces mesures se basent souvent sur la définition la plus simple du clustering qui
définit que les objets d’un même cluster doivent être les plus proches possible entre eux et que
les objets de deux clusters distincts doivent être les plus éloignés possible. Pour évaluer si un
clustering respecte cette définition intuitive, des mesures de distance sont calculées entre les
représentants des clusters et les objets du résultat. Ces mesures non supervisées permettent
d’évaluer la compacité ainsi que la séparabilité des clusters. La définition de la qualité d’un
cluster n’étant pas définie formellement, il existe de nombreux critères évaluant de manière
différente les résultats. Certains de ces critères peuvent être directement utilisés comme
fonction objective et être optimisés par un algorithme de clustering. D’autres sont cependant
trop coûteux à évaluer pour être calculés au cours de l’exécution d’un algorithme et sont par
conséquent destinés à être calculés à l’issue de l’application de celui-ci. Nous présentons dans
la suite quelques exemples de mesures d’évaluation les plus connues.
Somme des erreurs au carré (SSE) : La somme des erreurs au carré est une des
façons la plus simple d’évaluer la qualité d’un résultat. Elle est définie comme :
Formule 4.8 : Somme des erreurs au carré
avec µi le centroïde du cluster Ci , et d’une mesure de distance entre les objets. Plus la valeur
est petite plus les clusters sont compacts.
Coefficient silhouette (CS) : Le coefficient silhouette [11] permet d’évaluer la
compacité des clusters ainsi que la séparabilité de ceux-ci. Il peut être calculé pour chaque
objet, pour chaque cluster et pour le clustering entier. Pour un objet x il est défini comme :
Système de recherche d’information arabe
61
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Formule 4.9 : Coefficient silhouette pour un Objet
avec ax la distance moyenne entre l’objet x et tous les autres objets appartenant au
même cluster que x, et bx la distance moyenne entre x et tous les objets n’appartenant pas à ce
même cluster. Le coefficient CS(x) varie entre -1 et 1. Une valeur positive (ax < bx ) signifie
que les objets appartenant au même cluster que x sont plus proches de x que des objets des
autres groupes. Pour un cluster, le coefficient silhouette est la moyenne des coefficients des
objets appartenant à ce cluster :
Figure 4.10 : Illustration du calcul du coefficient silhouette pour chaque objet d’un clustering.
Enfin, pour un clustering, le coefficient silhouette est égal à la moyenne des coefficients de ses
clusters :
Formule 4.10 : Coefficient silhouette pour un clustering
3 – Conclusion
Le clustering est une tâche dont l’objectif est de trouver des groupes au sein d’un ensemble
d’objets. Dans ce chapitre, nous avons étudié les grands concepts du clustering, les principales
Système de recherche d’information arabe
62
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
méthodes existantes ainsi quelque notions de leurs évaluation et leurs comparaison. Il en
ressort qu’un nombre important de méthodes existent et qu’il est souvent difficile de faire un
choix parmi celles-ci. Ce choix est crucial dans la recherche d’informations et conditionné par
le type de résultat que l’expert veut obtenir. Dans le chapitre suivant on va passer à
l’implémentation d’un prototype pour la recherche d’informations arabe on intégrant
quelque méthode de clustering.
Système de recherche d’information arabe
63
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Chapitre 5 : Prototype d’un Système
de recherche d’information Arabe
Système de recherche d’information arabe
64
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
1 – Introduction
De nos jours, les ressources disponibles sur le web augmentent considérablement.
Dans cet immense entrepôt de données, les systèmes de recherche d’information actuels ne
permettent pas de retourner aux utilisateurs les documents répondant exactement à leurs
besoins exprimés par une requête sur une collection de documents et surtout pour des langues
moins connus comme l’arabe. Cela est dû, en grande partie, à la phase de prétraitement et aux
techniques d’indexation utilisées. Afin d’améliorer la pertinence de la recherche
d’information arabe, nous proposons un système qui se base sur des algorithmes de
lemmatisation pour le traitement morphologique de la langue arabe et d’autre de
Clustering pour améliorer la pertinence des résultats.
2– Architecture Fonctionnelle du système
On peut présenter notre système par un ensemble de module chaque modèle permet
un traitement bien déterminé :
Système de recherche d’information arabe
65
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
2.1 - Module de Prétraitement Lemmatisation
Le processus de Prétraitement comporte la suppression des stops word à l’aide
d’une liste déjà définie puis la tokenization qui consiste à extraire les mots du documents
et enfin on applique un algorithme de stemming arabe , on peut englobé ces opérations
ont une seul phase qu’on va appeler la phase d’analyse morphologique assuré par un
analyseur . Ce traitement sera appliqué pour les documents ainsi que pour les requêtes lors
d’une recherche.
2.1.a – Module d’indexation
L'indexation consiste à donner accès aux documents à partir d'une indication
concernant leur contenu et/ou leur nature (forme, type). On considère souvent que l'indexation
Document
Module d’Indexation
Requête
Module de
Clustering
Module de Prétraitement et Lemmatisation (Analyser)
Ou
Résultats
Ensemble des
documents
pertinents
Résultats
Ensemble des
documents
pertinents
regroupés dans des
clusters
Module de
recherche
(Searcher)
Figure 5.1 : Architecture Fonctionnelle du système
Système de recherche d’information arabe
66
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
(appelée aussi "indexation matière") doit refléter le sens, le contenu du document : il s'agirait
d'un travail de traduction (voir ci-dessous les techniques employées). On peut parler ici d'une
approche sémantique. On peut aussi considérer que l'indexation a d'abord pour but de signaler
les documents et d'orienter le public vers les documents pertinents : dans cette perspective, il
ne s'agit pas seulement de traduire le contenu des documents, il faut aussi donner aux lecteurs
les pistes qui le conduiront vers le document. On peut parler ici d'approche sémiologique :
indexer, c'est pourvoir le document d'un signe, d'une étiquette qui le signale. Par rapport à une
recherche sur les mots des titres (catalogues assez pauvres) ou une recherche en plein texte
(sur internet ou dans un traitement de texte), la recherche sur des documents indexés a de
grands avantages :
les titres ne sont pas toujours significatifs ;
il faut donner accès aux documents en langue étrangère ;
il faut signaler les documents non textuels : images, sons, objets ;
la recherche en plein texte se heurte aux ambiguïtés des langues naturelles :
les homonymes ("vol") et les synonymes ("tiers-monde", "pays sous-
développés", "pays en voie de développement").
On peut décrire le contenu d'un document de manière générale ou plus ou moins
détaillée : tout dépend des besoins du public. Par exemple, si un seul chapitre dans un
livre traite d'un sujet qui intéresse particulièrement les usagers de la bibliothèque, il est
utile d'indexer ce chapitre.
Une indexation idéale doit être :
Pertinente : les mots-clés utilisés doivent rendre compte avec exactitude du
contenu du document. Corollaire de ce principe : les mots choisis doivent être
aussi peu ambigus que possible.
Objective : l'indexeur ne doit pas déformer la pensée de l'auteur (pas toujours si
simple pour des sujets controversés).
Cohérente : les mêmes mots doivent désigner les mêmes notions. Un même
document, dans un même centre de documentation, sera indexé de la même
manière par plusieurs personnes, à dix ans d'intervalle (sauf si le public a
changé).
Système de recherche d’information arabe
67
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Dans notre système de recherche on utilise l’index de l’api lucene (Apache),
Lucene agit en quelque sorte comme une couche intermédiaire entre les données à
indexer et vos programmes. Pour ce faire, il indexera des objets appelés des
documents et, à partir des index, il permettra une recherche rapide et efficace dans
ces documents. Notez ici que le terme document a un sens très large : un document
pourrait être un texte Word, un fichier PDF, un ensemble de fichiers, une page web
sur un serveur distant, des informations stockées dans une base de données, etc.
Lucene n’a qu’une seule exigence : le document original doit pouvoir être converti en
fichier texte.
Un index Lucene est un ensemble indépendant de segments dans lesquels sont
stockées des informations au sujet d'un sous-ensemble de documents indexés. Chaque
segment a son propre dictionnaire de terme, son propre index de dictionnaire de terme,
et son propre stockage de document (valeur de champ stocké) . Toutes les
informations de segments sont stockées dans un fichier _xxxxx.cfs, où xxxxx est le nom
d'un segment. Dès qu'un fichier de segment d'index est créé, il ne peut être mis à jour.
De nouveaux documents sont ajoutés à de nouveaux segments. Les documents
supprimés sont seulement marqués comme supprimés dans un fichier facultatif
<segmentname>.del.
La mise à jour de document est effectuée en tant qu'opérations distincts de
suppression et d'ajout. Ceci simplifie l'ajout de nouveaux documents, et permet de
mettre à jour simultanément à l'aide des opérations de recherche. D'un autre côté,
utiliser plusieurs segments (avoir un document par segment est un cas exceptionnel)
augmente le temps de recherche :
La récupération d'un terme depuis le dictionnaire est effectuée pour chaque
segment.
Le dictionnaire de terme de l'index est pré-chargé pour chaque segment (ce
processus occupe la plupart du temps de recherche pour de simples requêtes et
nécessite aussi de la mémoire supplémentaire).
Si les termes des dictionnaires de recherche atteignent un point de saturation, la
recherche à travers un segment est N fois plus rapide que la recherche à travers N
Système de recherche d’information arabe
68
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
segments dans la plupart des cas. L'optimisation d'index fusionne deux segments ou
plus en un segment unique. Un nouveau segment est ajouté à la liste des segments de
l'index, et les anciens segments sont exclus.
La mise à jour de la liste de segments s'effectue de manière atomique. Ceci donne
la capacité d'ajouter de nouveaux documents simultanément, d'effectuer des
optimisations d'index, et de chercher à travers l'index.
L'auto-optimisation d'index s'effectue après chaque génération de segment. Elle
fusionne l'ensemble des plus petits segments en des segments plus grands, et les
segments plus grands en des segments encore plus grands, si nous avons suffisamment
de segments à fusionner. L'auto optimisation d'index est contrôlé par trois options :
MaxBufferedDocs (Le nombre minimal de documents requis avant que les
documents mis en mémoire tampon soit écrits dans un nouveau segment) ;
MaxMergeDocs (Le plus grand nombre de documents fusionnés par une
opération d'optimisation) ; et
MergeFactor (qui détermine la fréquence à laquelle les indices de segments
sont fusionnés par les opérations d'auto-optimisation).
Si nous ajoutons un document par exécution de script, MaxBufferedDocs n'est
finalement pas utilisé (seul un segment avec un seul document est créé à la fin de
l'exécution du script, moment auquel démarre le processus d'auto-optimisation).
Figure 5.2 : Structure d’index de Lucene
Système de recherche d’information arabe
69
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Les fichiers qui représentent l’index de lucene :
- Segments file (segment_N,segment.gen) : ce sont des fichiers qui
contiennent une référence vers les segments active de l’index
- Lock File (write.lock) : fichier de verrouillage de l’index
- …..
2.1.b – Module de recherche
Ce Module permet une recherche sur l’index, on utilise Le modèle standard espace
vectoriel (VSM). Il a pour but de donner plus d’importance aux termes apparaissant souvent
(term frequency) dans le document, mais qui sont relativement rares dans l’ensemble de la
base de documents. Les documents et requêtes sont représentés comme des vecteurs. Si un
terme apparaît dans un document, sa valeur dans le vecteur est non-nulle. Le vecteur se
présente sous cette formule : V = [w1,w2,….,wn] où w est le poids de chaque terme. La partie
suivante donne plus de compréhension sur les calculs du modèle vectoriel en tf-idf (voir le
chapitre 2.4). Ces informations proviennent de l’ouvrage suivant : Introduction to Information
Retrieval écrit par Christopher D. Manning.
2.1.c– Module de Clustering
Au lieu d’envoyer comme résultats un ensemble de documents le Clustering permet
de structurer les documents en des groupes qui permettent à l’utilisateur une bonne
visibilité des résultats.
Pour ce module on utilise l’api Carrot2 c’est une api qui facilite l’appelle de
clustering avec différents algorithmes
3 – Analyse est conception
3.1 - Diagramme de cas d’utilisation
Le diagramme de cas d’utilisation représente le système d’un point de vue utilisateur
Système de recherche d’information arabe
70
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 5.3 Diagramme de cas d’utilisation
3.2 – Diagramme de classe et analyse
3.2.a – Diagramme de classe du module analyser (LightStemmer)
Recherche avec clustering
Recherche des
documents
Recherche direct
Utilisateur
« extend » « extend »
Configurations de la
recherche
Changer le
lemmatiseur
Changer la
méthode de
clustering
« extend » « extend »
Ajouter un document
dans la base
Système de recherche d’information arabe
71
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 5.4 : Diagramme de classe d’un arabic analyser basé sur le lemmatiseur assouplit
Un analyseur est basé sur des Filters :
- StopFilter permet de vérifier si le mot est un stopword
- ArabicNormalizerFilter Permet d’effectuer les opérations de normalisation d’un mot arabe.
- ArabicStemFilter applique le light stemmer pou un mot
ArabicNormalizer
1.. 1
TokenFilter
1 ..1
ArabicAnalyser
Construct
ArabicNormalizerFilter
ArabicLightStemmer
ArabicStemFilter
StopFilter
Système de recherche d’information arabe
72
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
3.2.b– diagramme de classe du Module indexation
Figure 5.5 : diagramme de class du module d’indexation
- La classe index utilise IndexReader pour lire le contenu de l’index IndexWriter pour
écrire dans l’index
- IndexWriter utilise IndexWriterConfig pour configurer les différents paramètres
d’indexation (stockage de l’index, chemin, , Analayser, etc..)
3.2.c - diagramme de classe du Module Clustering
Index
-Path : String + add docueltn
IndexWriterConfig
IndexWriter
1 .. 1
1 .. 1
1.. 1
Writer
IndexReader
Reader 1 ..1
Config
Analyser
Stemmer
Système de recherche d’information arabe
73
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
- FieldMapper permet de faire un mapping entre les champs d’un document comme il
est défini dans l’api lucene et d’un document carrot2.
- AnalyserWapper Définie l’analyseur qui sera utilisé pour le clustering
- Clustering c’est la classe va utiliser la requête pour lire les documents dans l’index
puis appliquer le clustering avec l’algorithme choisi (les algorithmes de clustering sont
déjà intégré dans l’api carrot2).
4 – Fonctionnalités du système et résultats
4.1 – Description du Système
Le système permet d’effectuer les opérations suivantes :
la configuration de la recherche : à partir de l’interface de configuration (voir figure
5.6) on peut changer le lemmatiseur ou changer la méthode de recherche (avec ou
sans clustering) on peut aussi changer l’algorithme de clustering utilisé dans le cas où
le regroupement est activé. la configuration utilisée est toujours afficher à gauche.
AnalyserWapper
FieldMapper
1 .. 1 1 .. 1
Mapper
Index
index 1 ..1
analyser
Clustering
-ClusteringAlgo : String - Query : String - Clusters : List<Cluster>
« Interface » IFieldMapper
-Map(Query q, Analyser an,….)
-getSearchField() :String []
Système de recherche d’information arabe
74
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 5.6 : Configuration de la recherche dans le système
Envoyer un fichier : on peut envoyer un fichier et l’enregistrer dans la base de
l’index
La recherche : selon la configuration enregistrée la recherche est effectuée à partir
d’une requête, dans le cas de la recherche sans clustering on retourne la liste les
documents les plus similaires à la requête et quand la recherche est avec clustering on
retourne la liste des clusters et leurs documents selon l’algorithme choisi (voir
figure).
Figure 5.7 : Résultat de la requête «الميزانية » sans et avec clustering (Kmeans)
Système de recherche d’information arabe
75
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
4.2 Discutions des résultats
Les résultats des 3 algorithmes de clustering sont différents vu qu’ils adoptent des approches
distinctes :
- le premier algorithme (Lingo clustering) qui utilise la LSI donne des bons résultats
surtout au niveau de qualité des labels (approche description first) mais parfois il est
gravement pénalisé lorsque la phrase (ou le terme) choisie comme label est une phase
fréquent dans la langue arabe (sans aucun sens) et qui ne permet pas de définir un
groupe ou un domaine précis et par conséquent même le contenu du cluster sera
influencer (voir figure).
Figure 5.8 : Résultat de la requête « الزراعة والمباني » avec Lingo Clustering
- Le 2éme algorithme (Bisection K-means clustering) donne un résultat en générale
acceptable (sans oublier les problèmes de Kmeans : d’instabilité, possibilité de non
convergence etc…), mais pour le label il choisit le terme qui a la plus grande
pondération ce qui est considéré comme une mauvaise manière d’affecter le nom du
cluster car dans la plupart des cas le terme avec la plus grande pondération ne donnera
pas une idée sur le contenu du cluster (voir figure).
Système de recherche d’information arabe
76
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 5.9 : Résultat de la requête « الزراعة والمباني » avec bisectiong k-means (k=3)
- Le 3éme algorithme (STC Suffix Tree Clustering) il peut être plus lent avec une
grande base de documents, la pondération des phrases dépond de nombre des termes
inclus et le nombre des documents dans lesquels elle appartient ce qui semble une
bonne solution pour choisir une label cependant on peut avoir le même problème du
lingo clustering , des phase insignifiante peuvent apparaitre comme des labels des
clusters (voir figure).
Système de recherche d’information arabe
77
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Figure 5.10 : Résultat de La requête « الزراعة والمباني » avec STC Algorithme
5 - Conclusion
Le système réalisé ne donne pas bien sur des résultats parfaits cela n’est pas à cause
seulement des algorithmes de clustering c’est aussi à cause de la complexité de la langue
arabe donc il faut penser à des améliorations pour les 2 problèmes.
Système de recherche d’information arabe
78
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Conclusion et Perspective
Un système de recherche d’information (SRI) consiste à retrouver parmi une masse
volumineuse de documents ceux qui répondent précisément au besoin d’un utilisateur formulé
par le biais d’une requête en langage naturel. La principale difficulté c’est de trouver la
correspondance correcte entre l’information recherchée et l’ensemble des documents d’une
collection.
En effet, la phase de recherche consiste à retrouver les documents les plus pertinents
par rapport à une requête donnée. En général, les documents retournés sont représentés dans
un espace vectoriel et à l'aide des mesures de similarité on peut juger la pertinence des
documents par rapport à une requête. La phase d'indexation consiste à construire au préalable
une structure d'accès aux documents qui facilitera la phase de recherche. Plus la phase
d'indexation est sophistiquée, plus la phase de recherche sera rapide.
Dans ce travail on a réussie à définir les différents processus de recherche
d’information et les problèmes liés au traitement automatique de la langue arabe puis on a
réalisé un prototype du système de recherche d’informations maintenant on va viser à trouver
des solutions pour améliorer la recherche à base morphologique arabe et ensuite
concevoir un système de recherche et d’évaluation, ce système donnera la possibilité
d’intégrer et d’évaluer différente algorithmes (de lemmatisation, clustering etc…) qui
représente le cœur du système pour faire l’étude comparatif entre eux, et enfin trouver des
solutions pour intégrer correctement la dimension sémantique a la RI arabe
Système de recherche d’information arabe
79
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
Bibliographie
[1] : M. DIAB, K. HACIOGLU et D. JURAFSKY. Automatic tagging of arabic text: From
raw text to base phrase chunks. In In Proceedings of NAACL-HLT, pages 149–152, Boston,
USA, 2004.
[2]: S. KHOJA. Apt: Arabic part-of-speech tagger. In Proceedings of the Student Workshop
at the Second Meeting of the North American Chapter of the Association for Computational
Linguistics, pages 81–86, Carnegie Mellon University, Pittsburgh, 2001.
[3] J. A. HAYWOOD et H. M. NAHMAD. A new Arabic grammar. Percy Lund Humphries
Publishers
Ltd., London, 1962.
[4] L. ROMARY. Outils d’accés à des ressources linguistiques. Ingénierie des langues,
pages 193–212, 2000.
[5] E. LAPORTE. Mot et niveau lexical. Ingénierie des langues, pages 25–46, 2000.
[6] B. PINCEMIN. Construire et utiliser un corpus : le point de vue d’une sémantique
textuelle interprétative. In Atelier Corpus et TAL : pour une réflexion méthodologique,
Conférence TALN 99, pages 26–36, 1999.
[7] E. Schikuta et M. Erhart. The bang-clustering system: Grid-based data analysis. In
International Symposium on Advances in Intelligent Data Analysis, Reasoning about Data,
pages 513–524, 1997.
[8] C. C. Aggarwal, J. L. Wolf, P. S. Yu, C. Procopiuc, et J. S. Park. Fastalgorithms for
projected clustering. SIGMOD Record, 28(2) :61–72, 1999.
[9] H. S. Nagesh, S. Goil, et A. Choudhary. A scalable parallel subspace
clustering algorithm for massive data sets. In International Conference on Parallel
Processing, pages 477–484, 2000.
Système de recherche d’information arabe
80
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
[10] Scott Deerwester, Susan Dumais, George W. Furnas, Thomas K. Landauer, Richard
Harshman, « Indexing by Latent Semantic Analysis », dans Journal of the Society for
Information Science, vol. 41, no 6, 1990, p. 391-407
[11] M. K. Pakhira, S. Bandyopadhyay, et U. Maulik. Validity index for crisp and fuzzy
clusters. Pattern Recognition, 37(3) :487 – 501, 2004.
[12] L. Kaufman et P. Rousseeuw. Finding Groups in Data An Introduction to Cluster
Analysis. Wiley Interscience, New York, 1990.
[13] Mustapha Baziz, Mohet Boughanem, and Nathalie Aussenac-Gilles. Evaluating a
Conceptual Indexing Method by Utilizing WordNet . In Carol Peters, Fredric C.
Gey, Julio Gonzalo, and Gareth J.F. Jones, editors, Accessing Multilingual Information
Repositories : 6th Workshop of the Cross-Language Evaluation Forum, CLEF
2005, Revised Selected Papers , Vienna, Austria, 21/09/05-23/09/05, pages 238246.
Lecture Notes in Computer Science, Vol. 4022, septembre 2005.
[14] V. CLAVEAU et P. SÉBILLOT. Extension de requêtes par lien sémantique nomverbe
acquis surcorpus. In In Proceedings of 11ème conférence annuelle sur le traitement
automatique des languesnaturelles (TALN), Fez, Maroc, 2004.
[15] Mustapha Baziz, Mohet Boughanem, and Nathalie Aussenac-Gilles. Conceptual
indexing based on document content representation. In CoLIS, pages 171_186, 2005.
[16] R. BESANÇON. Intégration de connaissances syntaxiques et sémantiques dans les
représentations vectorielles des textes, Application au calcul de similarité sémantique dans le
cadre du modèle DSIR. Thèse de Doctorat, Ecole polytechnique fédérale de lausanne, Suisse,
2001.
[17] R. ABBES. La conception et la réalisation de concordancier électronique pour l’arabe.
Thèse de Doctorat, Institut national des sciences appliquées de Lyon, Lyon, France, 2004.
[18] Osinski 2003. An algorithm for clustering of web search results (Lingo).
Système de recherche d’information arabe
81
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e
[19] Salton, G. 1971. The SMART Retrieval System: Experiments in Automatic Document
Processing. Prenctice-Hall, New Jersey: Englenwood Cliffs.
[20] Maron, M. E., & Kuhns, J. (1960). On relevance, probabilistic indexing and information
retrieval. Journal of the Association for ComputingMachinery, 7(3), 216–244.
[21] Jian-Yun Nie, Michel Simard, Pierre Isabelle, and Richard Duret. Cross-language
information retrieval based on parallel texts and automatic mining of parallel texts
from the web. In SIGIR '99 : Proceedings of the 22nd annual international ACM
SIGIR conference on Research and development in information retrieval, pages 74_
81, New York, NY, USA, 1999. ACM.
[22] J. DICHY. Pour une lexicomatique de l’arabe : l’unité lexicale simple et l’inventaire fini
des
spécificateurs du domaine du mot. Meta, XLII, 2:291–306, 1997.
[22] E. DITTERS. The description of modern standard arabic syntax in terms of functions and
categories.Langues et Littératures du Monde Arabe, 2:115–151, 2001.
[23] J. VÉRONIS. Annotation automatique de corpus : état de la technique. Ingénierie des
langues,Hermes, 1(1):52–58, 2000.
[24] V. CLAVEAU. Acquisition automatique de lexiques sémantiques pour la recherche
d’information.
Thèse de Doctorat, Université de Rennes I, Rennes, France, 2003.
[25] J. DICHY, A.F. BRAHAM et S. GHAZALI. La base de connaissances linguistiques
dinaar1. In
Colloque international sur le traitement automatique de l’arabe, pages 45–56, Manouba,
Tunisie,2002.
Système de recherche d’information arabe
82
Syst
ème
de
rech
erch
e d
’in
form
atio
n a
rab
e