actes du colloquewajdiz/cectal2015/actes_cec...présentation 2 :noureddine doumi, ahmed lehireche,...

Colloque pour les Étudiants Chercheurs en

Traitement Automatique du Langage naturel et ses applications

Organisé par

Le groupe de recherche ANLP-RG (Arabic natural Language Processing Group) du Laboratoire MIRACL (Multimedia,

InfoRmation Systems and Advanced Computing Laboratory)

du 23 au 25 Mars 2015 à l’hôtel Royal Kenz Thalasso & Spa, Sousse, Tunisie

Avec la participation

ACTES DU COLLOQUE

3

Préface Après la réussite de sa première édition, le groupe de recherche ANLP (ANLP-RG : Arabic Natural Language Research Group) du laboratoire MIRACL organise la deuxième édition de la conférence CEC-TAL 2015.

CEC-TAL est une conférence internationale réservée aux étudiants des cycles supérieurs (master ou doctorat) ainsi qu’aux jeunes chercheurs travaillant sur le traitement automatique du langage naturel. Cette conférence intéresse particulièrement les étudiants en informatique, en linguistique, sciences cognitives, sciences de l'éducation et tout autre domaine pertinent au TALN.

L'objectif de cette conférence est de rassembler des chercheurs de disciplines connexes (développement de ressources linguistiques, Analyse et génération, traitement automatique du langage naturel, application du TAL) et des spécialistes du monde industriel et des entreprises qui déploient des méthodes d'extraction et de gestion des connaissances, afin de communiquer des travaux de qualité, d'échanger et de fertiliser des idées nouvelles.

CEC-TAL a pour vocation d’offrir aux jeunes chercheurs en Traitement Automatique des Langues l’occasion de présenter leurs travaux et de comparer leurs approches. Cette conférence a un comité de programme, constitué de professeurs, de chercheurs en TALN

4

Comités

Comité d'organisation Lamia HADRICH BELGUITH (FSEGS) [email protected] Fatiha SADAT (UQAM) [email protected] Maher JAOUA (FSEGS) [email protected] Mohamed Mahdi BOUDABOUS (ENIG) [email protected] Amine BAYOUDHI (FSEGS) [email protected] Marwa GRAJA BOUDABOUS (ISIMA) [email protected] Iskander KESKES (ISGG) [email protected]

Comité du programme Abdelmajid Ben Hamadou MIRACL Lab., University of Sfax - Tunisia Lamia Hadrich Belguith ANLP-RG, MIRACL Lab., University of Sfax - Tunisia Chafik Aloulou ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Bilel Gargouri MIRACL Lab., University of Sfax - Tunisia Maher Jaoua ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Faiez Gargouri MIRACL Lab., University of Sfax -Tunisia Mariem Ellouze Khemakhem ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Wajdi Zaghouani Carnegie Mellon University - Qatar Fatiha Sadat GDAC Lab., Université of Québec - Montréal Rim Faiz LARODEC Lab., IHEC, University of Carthage - Tunisia Farah Benamara Zitoune IRIT Lab., University of Paul Sabatier - Toulouse Hatem Ghorbel ISIC Lab., University of Applied Sciences-Switzerland Kais Haddar MIRACL Lab., University of Sfax - Tunisia Youness Bahou MIRACL Lab., University of Kairouan - Tunisia Mohamed Hedi Maaloul ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Karim Bouzouba LARIE Lab., Mohammed Vth University-Morocco Mona Diab CCLS center, Columbia University Imed Zitouni Microsoft, USA Thierry Hamon LIMSI-CNRS & Université Paris 13, France Azzedine Mazroui University Mohammed First, Oujda Morocco Philippe Blache LPL Lab., CNRS & University of Aix-Marseille Paolo Rosso NLE Lab, Universitat Politècnica de València, Spain Khaled Shaalan The British University in Dubai, UAE Almoataz Bellah Elsaid Cairo University - Egypt Mohame Mhiri FSS, University of Sfax - Tunisia Aida Khemakhem MIRACL Lab., University of Sfax - Tunisia Souha Mezghanni IHEC, University of Sfax - Tunisia Héla Fehri ISG, University of Gabes - Tunisia

mailto:[email protected]







5

Sommaire

Construction d’une cascade de transducteurs pour la reconnaissance des dates à partir d’un corpus Wikipédia. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. ………………………..

8

Web Arabic corpus : Construction d’un large corpus arabe annoté grammaticalement à partir du Web. Ghoul Dhaou…………………………………………………………………………………………………

12

La construction automatique d'un lexique d'opinion pour la langue arabe. Abidi Karima and Guiassa Yamina Tlili…………………………………………………………………

17

Acquisition de connaissances multilingues, un espace sémantique comme langage pivot. Boucham Souhila and Aliane Hassina……………………………………………………………………

22

Analyse syntaxique statistique de la langue arabe. Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni……………………..

31

Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe. Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia……………………………………………

40

Construction d’un Wordnet standard pour l’arabe tunisien. Nadia Karmani Ep Ben Moussa and Adel M. Alimi………………..…………………………………..

49

Patents editor in order to automatically construct terminological databases. Chihebeddine Ammar and Kais Haddar………………………………………………………………. ..

59

A Thesaurus-based ontology generation. Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. ……………………………...………………

66

Automatisation de l’encodage des lexiques arabes en TEI. Hajer Maraoui and Kais Haddar………………………………………………………………………....

74

Using finite-state transducers to build lexical resources for Unitex Arabic package. Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater……………………….

83

Development of Arabic particles lexicon using the LMF framework. Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar………………………………

94

6

Programme

Lundi 23 Mars 2015

14h00-16h30 Accueil et Inscription

16h30-17h00 Ouverture de CEC-TAL 2015

17h00-18h30 Session de présentation courte - Chair : Salma Jamoussi (ISIMS)

1. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. "Construction d’une cascade de transducteurs pour la reconnaissance des dates à partir d’un corpus Wikipédia".

2. Ghoul Dhaou. "Web Arabic corpus : Construction d’un large corpus arabe annoté grammaticalement à partir du Web".

3. Mohammed Saidi, Leila Falek, Bachir Boudraa and Hocine Teffahi. "Synthèse de la parole à très Bas Débit".

4. Abidi Karima and Guiassa Yamina Tlili. "La construction automatique d'un lexique d'opinion pour la langue arabe".

19h Dîner

Mardi 24 Mars 2015 08h30-10h00 Conférencier invité - Chair : Abdelmajid Ben Hamadou (ISIMS)

Houda Bouamor (Carnegie Mellon University, Qatar)

10h00-10h30 Pause Café

10h30-12h30 Session orale 1 – Chair : Mariem Ellouze (ESC)

Présentation 1 : Boucham Souhila and Aliane Hassina. "Acquisition de connaissances multilingues, un espace sémantique comme langage pivot".

Présentation 2 : Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni. "Analyse syntaxique statistique de la langue arabe".

Présentation 3 :Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia. "Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe".

Présentation 4 : Nadia Karmani Ep Ben Moussa and Adel M. Alimi. "Construction d’un Wordnet standard pour l’arabe tunisien".

13h00-15h00 Déjeuner

15h00-16h00 Session orale 2 – Chair : Chafik Aloulou (FSEGS)

7

Présentation 1 :Chihebeddine Ammar and Kais Haddar. "Patents editor in order to automatically construct terminological databases".

Présentation 2 : Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. "A Thesaurus-based ontology generation".

16h00-18h30 Programme Social : sortie guidée par train touristique et visite de la Medina.

19h Dîner

Mercredi 25 Mars 2015 08h30-10h00 Conférencier invité - Chair : Lamia Belguith (FSEGS)

Salma Jamoussi (Université de Sfax, Tunisie) - Thématique : L'apprentissage profond pour le TALN

10h00-10h30 Pause Café

10h30-12h00 Session orale 3 – Chair : Houda Bouamor (CMU)

Présentation 1 : Hajer Maraoui and Kais Haddar. "Automatisation de l’encodage des lexiques arabes en TEI".

Présentation 2 :Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. "Using finite-state transducers to build lexical resources for Unitex Arabic package".

Présentation 3 :Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar. "Development of Arabic particles lexicon using the LMF framework"

12h00-13h00 Prix de la meilleure présentation et Clôture de CEC-TAL 2015

13h00-15h00 Déjeuner

15h00-18h00 Programme Social : sortie sur bateau

8

Construction d’une cascade de transducteurs pour la reconnaissance des dates à partir d’un corpus Wikipédia

Fatma Ben Mesmia*, Nathalie Friburger **, Kais Haddar* et Denis Maurel**

*Université de Sfax, Laboratoire MIRACL, Multimedia, InfoRmation Systems and Advanced Computing Laboratory

[email protected], [email protected] ** Université François-Rabelais de Tours, Laboratoire d’Informatique

{nathalie.friburger, denis.maurel}@univ-tours.fr

RÉSUMÉ.Les dates sont souvent des sources d’information et peuvent aussi être incluses dans des entités nommées représentant les lieux et les évènements. Leur reconnaissance doit être intégrée dans le processus de reconnaissance des entités nommées arabes. En conséquence, dans le présent article, nous élaborons une cascade de transducteurs reconnaissant les entités nommées arabes de type Date à partir d’un corpus extrait de Wikipédia. L’implémentation de cette cascade est établie en utilisant l’outil CasSysdisponible sous la plateforme linguistique libre Unitex.

ABSTRACT.The dates often are sources of informationand can beincluded in named entities representing the locations and events. Their recognition mustbe integrated in the process of recognition of Arab named entities.Consequently, in the presentpaper,we develop a cascade of transducers recognizing Arabic named entities withthe type Date from a corpus extracted of Wikipedia. The implementation of this cascade is established by using the tool CasSysavailable under the Unitex free linguistic platform.

MOTS-CLÉS :Cascade de transducteurs, Wikipédia, REN, Unitex, CasSys.

KEYWORDS: Cascade of transducers, Wikipedia, NER, Unitex, CasSys.

1. Introduction La reconnaissance des entités nommées (REN) constitue une piste de recherche encore très innovante. Elle n’est pas une tâche facile car elle dépend en large partie d’un nombre important de ressources à exploiter. Autrement dit, la complexité de la REN peut être justifiée par l’incomplétude de ces ressources.Le critère d’exhaustivité est donc impossible. En contrepartie, le Web devient très exploité dans nos jours. Il fournit un nombre très intéressant des ressources libres sur lequel elles sont publiées. Parmi celles qui sont plus utilisées, citons Wikipédia.En ce sens, la Wikipédia arabe est considérée comme étant une ressource de connaissances pouvant illustrer des phénomènes linguistiques informatisés. Son exploitation offre l’opportunité pour la valorisation del’entité nommée arabe (ENA) de type Date. Les dates apparaissent dans différents textes (date de naissance, évènement…). Cependant, l’extraction des dates peut rencontrer plusieurs problèmes (en particulier l'existence de différentes écritures régionales). C'est dans ce contexte que s’inscrit le présent article. Notre objectif est donc de proposer une démarche baséeune cascade de transducteurs reconnaissant les ENA de type Date. Pour ce faire, nous devons, d’une part, identifier un ensemble de mots déclencheurs permettant le repérage d’ENA et, d’autre part, construire un ensemble de transducteurs agissant sur un corpus avec un ordre prédéfini. La cascade proposée doit résoudre les problèmes d’ambiguïté.

Cet article s’articule autour de quatre sections. La première section permet de présenter les approches existantes pour la REN. La deuxième section est dédiée à la description de la catégorisation des dates à partir de Wikipédia. La troisième section est consacrée à détailler la démarche proposée qui va être expérimentée à l’aide du système CasSys de la plateforme

mailto:[email protected],


mailto:@univ-tours.fr

9

linguistique libre Unitex. Cette expérimentation est présentée et évaluée dans la section quatre.

2. Etat de l’art sur les systèmes de reconnaissance des entités nommées Les approches de REN existantes sontde trois types : symbolique, statistique et hybrides. Les facteurs de distinction entre les trois approches citées sont leur acquisition et leur manipulation, ce n’est pas la nature des informations qui sera étudiées.L’approche symbolique s’appuie spécialement sur l'utilisation de grammaires formelles construites à la main par un linguiste (Friburger et Maurel, 2004 ; Maurel et al., 2011). Elle se fonde sur des règles exploitant des marqueurs lexicaux, des dictionnaires, etc. Parmi les travaux basés sur cette approche, citons :le système NERA développé par (Shaalan et Raza, 2009) reposant sur l’utilisation d’un ensemble de dictionnaires d’EN et sur une grammaire sous forme d'expressions régulières ; le module de repérage des EN à base de règles pour la langue arabe développé par (Zaghouani et al., 2010) en exploitant une première étape de prétraitement lexical qui prépare le texte pour son analyse linguistique ; le système de reconnaissance d’ENA pour le domaine de sportdéveloppé par (Fehri, 2012) à travers un ensemble de dictionnaires, des patrons syntaxiques etle formalisme de transducteurs sur la plateforme linguistique Nooj.L’approche statistiqueutilise des techniques statistiques sur de larges corpus de textes où les entités-cibles ont été étiquetées. Elle utilise aussi un algorithme d’apprentissage permettant d’élaborer automatiquement une base de connaissances.En se basant sur l'approche statistique, une technique d’apprentissage SVM a été conçue par (Benajiba et al., 2008) pour mettre en œuvre un système de reconnaissance d’entités nommées en exploitant les particularités de la langue arabe.L’approche hybride utiliseà la fois des règles écrites manuellement et des règles extraites grâce à des algorithmes d'apprentissage et à des arbres de décisions.Dans ce contexte, se situe le travail de (Shaalan et Oudah. 2014).

3. Catégorisation des dates à partir de Wikipédia La catégorisation des ENA de type Date que nous proposons est basée sur l’étude effectuée sur le corpus Wikipédia d’étude constitué de 17 fichiers textes.De ce corpus, nous avons pu identifier trois formes de dates. Première forme d’ENA de type Date. La première formeest composée par l’année uniquement. Cette formecontient un terme déclencheur qui peut la précéder et/ou la suivre.Par exemple, dans « ھـ 1434عام » (année 1934 hégirienne) le mot عام joue le rôle d’un mot déclencheur permettant d’identifier le nombre 1434 comme étant une année, tandis que le mot ajoute un degré de certitude sur le nombre identifié. C’est un indice que l’année désignée ھـest hégirienne.« 2004في » (en 2004)présente un deuxième exempled’apparition respectant la première forme déjà mentionnée. L’élément brillant est donc l’année. Le mot déclencheur في peut créer une ambiguïté sémantique dans la langue arabe. Il peut être suivi par un nombre désignant l’année (2004) ou suivie d’une suite de caractères indiquant une date. Comme par exemple في21القرن (en 21ème siècle) ou في الربیع (auprintemps).

Deuxième forme de type Date.La deuxième forme décrit le contexte d’apparition d’une date dont le mois est un élément central. Cette date est incomplète car elle est composée à son tour de deux formes. Nous trouvons soit le nom et/ou le nombre du jour et le mois, soit le mois et l’année.D’après l’étude de corpus, nous constatons que certainesdates peuvent être détectées selon leur contexte d’apparition,Lorsqu'elles sont intégrées dans des événements (par ex., ثورة

جانفي14 / La révolution du 14 janvier) ou dans des noms de lieux (par ex,. جانفي برادس 14ملعب / Stade 14 janvier de Rades). Quant aux mois hégiriens,ilsapparaissent généralement dans les évènements religieux (par ex,. شوال 1یوم العید / L’aïd 1er chawal). Les dates peuvent avoir des

10

écritures différentes dans les pays arabes. Par exemple, dans les pays orientaux, les mois syriaques et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d’une façon fréquente dans les pays magrébins. Au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, comme en Algérie,le mois d’août en arabe est « أوت », tandis qu’au Maroc, son appellation est « غشت ».

Troisième forme de type Date. La troisième formeà reconnaitre dans le corpus d’étude concerne une date complète, telle qu’elle composée par le nom et/ou le nombre du jour, le mois, l’année.« 2014أكتوبر 26یوم األحد » (Dimanche 26 octobre 2014)illustre une forme possible d’une date complète figurant dans le corpus d’étude.

4. Démarche proposée pour la reconnaissance des entités nommée de type Date La démarche que nous proposonsest composée par deux étapes : l’identification des ressources nécessaires pouvant cerner les entités nommées à reconnaitre et la création des transducteurs dont chacun possède son propre rôle.

1.1. Identification des ressources nécessaires Les ressources nécessaires sont les dictionnaires, les mots déclencheurs, les règles d’extraction. Un dictionnaire doit être crééstockant les noms de la semaine et les noms du mois selon les différents calendriers.Les règles d’extraction des dates sont identifiées grâce aux mots déclencheurs. Par exemple, les mots déclencheurs حتى,ثورة et لیلةreconnaissent respectivement les formes suivantes : <NB><mois><NB>, <NB> عام <mois><NB> et <NB><mois><NB>.

1.2. Cascade de transducteurs proposée La cascade de transducteurs proposée englobe trois transducteurs principaux. Ces transducteursdoivent être classés selon les trois formes identifiées. Cette décomposition est faite pour éviter les problèmes de chevauchement de certains chemins, d’une part, et les problèmes d’ambigüité, d’autre part.Donnons l’exemple du premier transducteur reconnaissant une date complète (figure 1).

Figure 1. Exemple d'un transducteur reconnaissant une date complète

5. Expérimentation et évaluation La cascade de transducteurs proposée est implémentéesous la plateforme linguistique Unitex. La figure 2 ci-dessous montre la forme de la cascade qui est générée grâce à l’outil CasSys. L’expérimentationeffectuée montre que chaque graphe ajoute ses propres annotationsà l’aide du mode « Merge ». Ce mode permet d’avoir, en sortie, une ENA reconnue entourée par une balise définie au sein des transducteurs.

11

Figure 2. Cascade de transducteurs reconnaissant les dates Dans le but d’effectuer une évaluation nous avons appliqué la cascade implémentée sur le corpus de test. Le corpus est composé de 50 fichiers textes dont sa construction rassemble à celle du corpus d’étude. Le résultat obtenu dépend en grande partie des mots déclencheurs établis précédemment.

Echantillons traités Entités de type Date trouvées Entités détectées parerreur

1260 1248 42 Tableau 1. Tableau récapitulatif des résultats obtenus

Nous avons évalué manuellement la qualité de notre travail sur le corpus de test. Les résultats sont satisfaisants (Tableau 1) car les transducteurs ont pu couvrir la majorité des ENA y figurant.Avec une précision de 0,96 et un rappel de 0,95.Nous constatons donc que la méthode proposée est efficace.

6. Conclusion et perspectives Dans le présent article, nous avons construit un ensemble de transducteurset généré une cascade permettant la reconnaissance des ENA de type Date. La génération de cette cascade est réalisée à l’aide du système CasSys, intégré dans la plateforme linguistique Unitex. Le fonctionnement de la cascade de transducteurs a nécessité la construction d’un dictionnaire et une liste des mots déclencheurs. Dans un futur immédiat, nous tentons decouvrir les autres types (les noms de personnes, les évènements, les noms de lieux, etc.) afin de générer une cascade de transducteurs reconnaissant toutes les ENA. Nous continuons à travailler avec la ressource libre Wikipédia arabeenprofitant de sa richesse pour enrichir nos corpus.

7. Références Benajiba Y. et Rosso P. 2008. Arabic Named Entity Recognition using Conditional Random Fields, In

Proceedings of Workshop on HLT and NLP within the Arabic World, LREC.

Friburger N. et Maurel D. 2004, Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, volume 313 : 94–104.

Fehri H. 2012.Reconnaissance automatique des entités nommées arabes et leur traduction vers le français, thèse de doctorat, Université de Sfax.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I. et Nouvel D. 2011. Cascades de transducteurs autour de la reconnaissance des entités nommées, Traitement automatique des langues, 52(1) :69–961.

Shaalan K. et Raza H. 2009. NERA : Named entity recognition for Arabic, Journal of the American Society for Information Science and Technology, 60(9) :1652–1663.

Khaled Shaalan et Mai Oudah. 2014. A hybrid approach to Arabic named entity recognition. Journal of Information Science, 40(1) : 67–87

Zaghouani W., Pouliquen B., Ebrahim M. et Steinberger R. 2010. Adapting a resource-light highly multilingual named entity recognition system to arabic, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10) 563–567.

12

Web Arabic corpus: Construction d’un large corpus arabe annoté morpho-syntaxiquement à partir du Web

Dhaou Ghoul

Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin 75005 Paris

[email protected]

RÉSUMÉ.Dans ce papier,nous présentons une méthodologie de construction d’un large corpus annoté grammaticalement à partir du Web. Notre objectif est d’avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d’abord nous avonspris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l’analyseur morphosyntaxique « Tree Tagger » pour annoter ces données automatiquement dans le but d’avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus.

MOTS CLÉS :TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage.

KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning.

1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. Denos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l’internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utilesà la construction d’unvaste corpus étiqueté à partir du Web dans le but d’améliorer les différentes applications de TAL pour l’arabe (analyseur morphosyntaxique, extraction d’informations, traduction automatique…). Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de 1Les mots qui n’appartiennent pas au lexique arabe et n’obéissent pas à la dérivation morphologique de l’arabe.


13

l’annotation de notre corpus (catégories grammaticales) et la section 4 décrit l’évaluation de l’annotation de notre corpus. Les conclusions de ce travail feront l’objet de la section 5.

2. Etat de l’art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe :

Le corpus coranique arabe2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d’annotation y compris: la segmentation morphologique, l’étiquetage morphosyntaxique et l’analyse syntaxique en se basant sur la grammaire de dépendance (إعراب القرأن الكریم) et une ontologie sémantique. Le coran contient 77 430 mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L’annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d’étiquettes contient 55 étiquettes.

KALIMAT (El-Haj et Koulali, 2013) est une collection de 20 291 articles à partir du journal Omani Alwatan3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient 18 167 183 mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L’annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d’étiquettes contenant 33 étiquettes.

3. Construction du corpus : différents processus

La réalisation de notre corpus porte sur l’extraction de différents articles à partir d’un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014).

Notre corpus est constitué de 207 356 phrases (nombre approximatif car en arabe on n’utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et 7 653 881 mots (dont 466 623 mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante :

Domaine Nb articles

Nb phrases

Nb mots / Nb mots différents

Nb tokens (mots-outils)

Culture 12 52 984 1 416 583 / 163 456 326 180

Economie 13 50 715 1 605 236 / 122 270 317 374

Religion 12 55 372 3 159 306 / 105 045 762 314

Sports 12 48 285 1 472 756 / 145 839 301 265

Total 49 207 356 7 653 881/466 623 1 707 133

Table 1. Statistiques de notre corpus 2http://corpus.quran.com 3http://www.alwatan.com/

http://corpus.quran.com

http://www.alwatan.com/

14

Notons que nous avons translitéré les textes sous la forme de Buckwalter4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus.

3.1. Segmentation du corpus: La première phase de l’annotation morphosyntaxique d’un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d’être facile en raison de l’agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d’un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d’extraire les prés-bases et les post-bases afin d’obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu’il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l’exemple du mot « ألم » qui peut se découper soit en : لم+أ conjonction d’interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d’annotation afin d’obtenir un corpus étiqueté. Ce travail sera l’objet de la section suivante.

3.2. Annotation du corpus : 3.2.1 Le jeu d’étiquettes :

La plupart des chercheurs ne sont pas d’accord sur ce le choix du jeu d’étiquettes. Quelques études ont été déjà faites sur la taille du jeu d’étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu’on n y trouve pas plus d’informations sur la langue et qu’on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C’est pourquoi, nous avons décidé de créer notre propre jeu d’étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d’étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d’étiquette, nous avons essayé de donner plus d’informations sur l’unité lexicale et surtout les tokens afin de diminuer le taux d’ambiguïté.

3.2.2 Processus d’annotation : L’annotation d’un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d’annotation se compose de deux étapes : D’abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l’apprentissage du modèle. Ensuite nous avons utilisé l’outil « Tree Tagger » (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand,…) et en plus il est gratuit et facile à utiliser sur l’Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus

4http://www.qamus.org/transliteration.htm

http://www.qamus.org/transliteration.htm

15

d’apprentissage contenant 2 685 146 mots et l’a évalué en utilisant un corpus contenant 500 000 mots. Il rapporte un taux de précision de 92.7% d’étiquetage. Notre corpus d’apprentissage contient 105 650 mots repartis sur 2855 phrases (il faut compter environ une minute pour annoter un mot manuellement). Comme nous avons indiqué ci-dessus, l’annotation automatique de notre corpus est effectuée par Tree Tagger. Cet outil utilise deux programmes : train-tree-tagger et tree-tagger. Pour générer le modèle du langage nous avons utilisé le premier programme (train-tree-tagger) qui prend en entrée trois paramètres : notre corpus d’apprentissage, jeu d’étiquettes et un lexique de la langue en question. Notons que nous avons utilisé le lexique qui a été réalisé par (Ghoul, 2013). Après avoir obtenu un modèle du langage, nous avons exécuté le deuxième programme (tree-tagger) qui prend en entrée le reste de notre corpus à annoter et le modèle généré par le premier programme afin de produire notre corpus annoté syntaxiquement.

4. Evaluation de l’annotation et discussion :

L’évaluation de notre annotation est basée sur le calcul de l’accord inter-annotateurs. Pour réaliser ce calcul, nous avons tout d’abord pris une partie de notre corpus d’une façon aléatoire (100 phrases au début, 100 phrases au milieu et 100 à la fin) que nous avons appelé « corpus d’évaluation ». Ce dernier contient 8135 mots repartis sur 300 phrases. Ensuite, deux linguistes arabes A1 et A2 ont annoté manuellement ce corpus. Enfin, à partir de leurs annotations, nous avons calculé l’accord inter-annotateurs AI entre A1 et A2.

Après avoir comparé notre corpus d’évaluation avec les deux annotations d’A1 et A2, nous avons trouvé les résultats suivants : 285 phrases bien annotées par rapport à A1 et 280 par rapport à A2, 15 phrases mal annotées par rapport à A1 et 20 par rapport à A2. A1 et A2 ont été d’accord sur 275 phrases bien annotées soit AI= 0.91%.Notons que nous avons calculé la performance de l’annotation automatique par « Tree Tagger » sur le même échantillon des données afin d’obtenir une précision P=89%. Le taux d’accord AI et de précision P nous permettrons plus ou moins (taille de corpus d’évaluation n’est pas volumineuse) de valider la qualité de l’annotation de notre corpus (Web Arabic Corpus). Pour confirmer la qualité de notre corpus, nous allons par la suite augmenter la taille de corpus d’évaluation et l’annoter par A1 et A2.

5. Conclusion : L’objectif de notre travail, est de construire un vaste corpus annoté grammaticalement pour la langue arabe nommé Web Arabic corpus. Pour ce faire, nous avons utilisé le Web comme ressource de données textuelles. Après avoir récolté, nos données et l’avoir nettoyées nous avons appliqué « Tree Tagger » pour annoter notre corpus automatiquement en nous basant sur un jeu d’étiquettes validées par un linguiste arabe.

Références Abbas M, Smaili K and Berkani D. 2011.Evaluation of Topic Identification Methods on Arabic Corpora, Journal

of Digital Information Management,vol. 9, N 5. Pages 185-192.

Candito M and Seddah D. 2012. Le corpus Sequoia: annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical, In 19e conférence sur le Traitement Automatique des Langues Naturelles, Grenoble, France.

Ghoul D. 2013. Développement de ressources pour l’entrainement et l’utilisation de l’étiqueteur morphosyntaxique TreeTagger sur l’arabe, RECITAL ’13, Conférence TALN- Recital, Sables d’olonnes France, 17-21 Juin 2013.

16

Ghoul D. 2014. Construction d’un corpus arabe à partir du Web dans le but d’identifier les mots-outils ou tokens, JADT’14. Journées internationales d’analyse statistiques des données textuelles, INALCO, Paris France, 3-6 Juin 2014.

Koulali R and Meziane A. 2012.A contribution to Arabic Named Entity Recognition, In ICT and Knowledge Engineering, ICT Knowledge Engineering.Pages 46–52.

Dukes K and Habash N. 2010.Morphological Annotation of Quranic Arabic, Language Ressources and Evaluation Conference (LREC), Valetta, Malta.Pages 2530-2536.

Meftouh K, Smaïli K and Laskri M T. 2007. Constitution d’un corpus de la langue arabe à partir du Web, CITALA ’07, Colloque international du traitement automatique de la langue arabe,Iera, Rabat, Morocco, 17-18 juin 2007.

Schmid H. 1995. Improvements in Part-of-Speech-Tagging with in application to German, Proceeding of the ACL SIGDAT-Workshop. Dublin, Ireland.

Stein A. 2007. Part of Speech Tagging and lemmatization of old French, http://www.uni-stuttgart.de/lingrom/forschung/ressourcen.

Tim Buckwalter. 2002. Buckwalter Arabic Morphological Analyzer version 1.0, Linguistic Data Consortium, University of Pennsylvania.

Toutanova K, Klein D, Manning C D and Singer Y. 2003. Feature-Rich Part-Of-Speech Tagging With a Cyclic Dependency Network, In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology – Volume 1, NAACL ’03. Pages 173– 180.

.Annexe Jeux d’étiquettes : DET: Déterminant, PRP: Préposition, PRMS: Pronom relatif masculin singulier, PRMP : Pronom relatif masculin pluriel, PRFS : Pronom relatif féminin singulier, PRFP : Pronom relatif féminin pluriel, PRMD : Pronom relatif masculin duel, PRFD : Pronom relatif féminin duel, PPIMS : Pronom personnel isolé masculin singulier, PPIFS : Pronom personnel isolé féminin singulier, PPIMP : Pronom personnel isolé masculin pluriel, PPIFP : Pronom personnel isolé féminin pluriel, PPIMD : Pronom personnel isolé masculin duel, PPIFD : Pronom personnel isolé féminin duel, PPAMS : Pronom personnel attaché masculin singulier, PPAFS : Pronom personnel attaché féminin singulier, PPAMP : Pronom personnel attaché masculin pluriel, PPAFP : Pronom personnel attaché féminin pluriel, PPAMD : Pronom personnel attaché masculin duel, PPAFD : Pronom personnel attaché féminin duel, PDMS : Pronom démonstratif masculin singulier, PDFS : Pronom démonstratif féminin singulier, PDMP : Pronom démonstratif masculin pluriel, PDFP : pronom démonstratif féminin pluriel, PDMD : Pronom démonstratif masculin duel, PDFD ; Pronom démonstratif féminin duel, CC : Conjonction de coordination, CS : Conjonction de subordination, ADJE : Adjectif élatif, ADJR : Adjectif relationnel, ADVT : Adverbe du temps, VACC : Verbe à l’accompli, VIN : Verbe à l’inaccompli, VI : Verbe à l’impératif, VOT : Verbe opérateur du temps, CCOR : Conjonction de corroboration, PN : Particule de négation, PREP : Particule de réponse, PMOD : Particule de modification (harf istedraak), NMS : Nom masculin singulier, NFS : Nom féminin singulier, NMP : Nom masculin pluriel, NFP : Nom féminin pluriel, NCA : Nom calendaire, NL : Nom de lieu, NPM : Nom propre masculin, NPF : Nom propre féminin, ADJ : Adjectif, IN :Interjection, CIN : Conjonction d’interrogation, CH : Chiffre, ME : Mot étranger : PC : Particule de comparaison, PRES : Particule de restriction, DETD : Déterminant distributif, CCON : Conjonction conditionnel, Particule accusatif, CRE : Conjonction de reprise, PCER : Particule de certitude, PONC : Ponctuation, SENT : Fin de phrase.

http://www.uni-

17

La construction automatique d'un lexique d'opinion pour la langue arabe

ABIDI Karima 1, Guiassa Yamina Tlili2

1Université Akli Mohand Oulhadj Bouira, École supérieur d’informatique, Alger , Algérie 2Université Badji Mokhtar, Annaba ,Algérie

[email protected], [email protected]

RÉSUMÉ. La recherche présentée dans cet article s’inscrit dans le domaine de la fouille d’opinion, un domaine qui consiste à localiser les passages porteurs d’opinion dans une collection textuelle et les classer selon qu’ils soient objectifs ou subjectifs. Le calcule de la polarité, nécessite un ensemble de ressources et de lexiques qui sont malheureusement rare pour la langue arabe, et sont le plus souvent construit à partir d’un petit nombre de mots. Notre objectif est de proposer un modèle de construction automatique d’un lexique d’opinion (de valence) pour la langue arabe.

ABSTRACT.The research presented in this article is a part of sentiment mining, An area that is to locate opinion holders passages in a text collection and classify them according to whether objective or subjective, calculates the polarity requires a set of resources and lexicons which are unfortunately rare for the Arabic language and are usually constructed from a small number of word, our objective and to develop a model to build an opinion lexicon (valence) to Arabic.

MOTS-CLÉS : lexique de polarité (valence), analyse sémantique latente, opinion mining, PMI.

KEYWORDS: polarity lexicon, Semantic orientation - Latent Semantic Analysis, opinion mining PMI

1. Introduction De nos jours, le développement d’internent et les médias sociaux (tels que les forums web, blogs...Etc.) suscitent la création d'outils de bonne qualité, robustes et efficaces pour fouiller et analyser les avis exprimés par les internautes.

La détection d'opinions et de sentiments dans les textes est devenue un sujet de recherche très important en traitement automatique du langage et de recherche d’information, La tâche classique de ce domaine consiste à déterminer automatiquement la polarité globale (positive, négative, neutre) d’un texte qui définit si l’opinion est favorable ou défavorable.

La classification des textes selon l’opinion qu’ils portent s'appuie sur un lexique dans lequel à chaque entrée est associée une polarité (valence). Le plus souvent, ce lexique est construit à partir d'un petit nombre de mots, choisis arbitrairement. Dans ce travail nous avons appliqué des méthodes très connues du domaine pour construire automatiquement un lexique de valence pour la langue arabe, qui s’agit d’un problème assez difficile en soit surtout pour une langue aussi riche morphologiquement comme l’arabe et qui manque en terme d'outils et de ressources comparé a d’autres langues notamment l’anglais et le français. Après une brève présentation des travaux antérieurs, la section 3 décrit les différentes méthodes comparées dans le cadre de cette étude. Une série d'expériences est proposée dans la section 4 et section 5 dont le but est de déterminer la valence d'un mot arabe.



18

2. Travaux antérieur Plusieurs travaux du domaine de traitement automatique du langage portent sur la construction automatique d’un lexique d’opinion, ils se basent en générale sur deux types d'approches: Les approches qui s'appuient sur des bases de connaissances linguistiques calculent généralement la similarité entre les mots en se basant sur le chemin de la relation (is-a) ou antonymieou bien le contenu informationnel (Haifa et al ,2005) la mise en œuvre de ces méthodes nécessite une base lexicale comme Wordnet1 . Les approches statistiques s'appuient sur des corpus pour calculer la similarité entre les mots (Tyrney et al ,2003) (Tureney et al ,2002)(Bestgen,2012) et( Bestgen ,2002)( Bestgen et al ,2006)ils ont proposé des méthodes qui permettent d’estimer la valence de n’importe quel terme présent dans un corpus. Ils utilisent l'analyse sémantique latente (ASL, Latent Semantic Analysis) pour construire un espace sémantique à partir d'informations statistiques sur les cooccurrences de termes dans des textes. Turney et Littman l'emploient pour estimer la distance sémantique entre des mots donnés et 14 mots germes, 7 positifs (good, nice, excellent, positive, fortunate, correct, superior) et 7 négatifs (bad, nasty, poor, negative, unfortunate, wrong, inferior). Un mot est d'autant plus positif qu'il est plus proche des germes positifs et plus éloigné des germes négatifs.( Bestgen ,2011) a proposé une autre approche dérivée de celles de(Tyrney et al ,2003)et de( Bestgen ,2002)dans laquelle les mots germes originaux, sélectionnés arbitrairement, sont remplacés par des germes optimaux obtenus par une procédure d'apprentissage supervisée basée sur la régression (Fawaz et al ,2014 ) ils se sont basées sur l'apprentissage semi-supervisée pour affecter des scores ( positif , négatif , neutre ) a des mots de l'ArabicWordnet avec l'utilisation des relation du AW (Attia1 et al,2008 ) il ont élaborer un lexique sémantique pour la langue arabe qui permet de récupérer pour chaque mot arabe tous les sens possible .

3. Les méthodes utilisées pour estimer la valence d’un mot L’objectif principal de ce travail est de déterminer automatiquement la valence d’un terme afin de construire un lexique d’opinion pour la langue arabe nous avons choisit quatre méthodes citées dans (Tyrney et al ,2003) ( Bestgen ,2002) et(Noémi,2011) (Bestgen,2012) pour les tester et les adapter à notre langue.

SO-ASL : il s’agit de la méthode proposée par Turney et Littman (Tyrney et al ,2003) pour estimer la polarité des mots, SO-LSA pour "Semantic orientation - Latent Semantic Analysis". Elle est basée sur 14 mots germes(point de repère) choisis en raison de leur valence extrême sur la dimension positive négative. Un mot est d'autant plus positif qu'il est plus proche des points de repère positifs et plus éloigné des points de repère négatifs . la méthode se base sur l'analyse sémantique latente, une technique mathématique qui vise à extraire un espace sémantique de très grande dimension à partir de l'analyse statistique des cooccurrences dans un corpus de textes (Noémi,2011).

DIC-ASL : il s’agit de la méthode proposée par Bestgen ( Bestgen ,2002) (Bestgen,2008)et (Bestgen et al 2012). "DICLSA pour Dictionnary — Latent Semantic Analysis", est très similaire à celles de Turney, La principale différence est que SO-LSA s'appuie sur un dictionnaire de mots dont la polarité a été évaluée par de juges. La polarité inconnue d’un mot correspond à la polarité moyenne de ses 30 plus proches.

1WordNet : une base lexicale disponible sur internet .

19

Le point de départ de l'analyse est un tableau lexical qui contient le nombre d'occurrences de chaque mot dans chaque segment de textes. Ce tableau fait l’objet d’une décomposition en valeurs singulières qui en extrait les dimensions orthogonales les plus importantes. Dans cet espace, le sens de chaque mot est représenté par un vecteur. La valence d’un mot correspond à la somme des cosinus entre ce mot et les germes positifs dont on soustrait la somme des cosinus entre ce mot et les germes négatifs. Quatre mesures, qui ne nécessitent pas le recours à une analyse sémantique latente, ont été testé ils trouvent leur origine dans les travaux de Turney et Littman (Tyrney et al ,2003),ces méthode utilisent une simple analyse des cooccurrences entre deux termes pour déterminer l’orientation sémantique de mot: Mutual Information (DI-PMI) et le classique cosinus (DI-COS), Coefficient de Dice et information Mutuelle au cube qui peuvent être calculés, dans le cas de données binaires, à partir de quatre valeurs: m1= le nombre de segments dans lesquels le mot1 est présent,

m2= le nombre de segments dans lesquels le mot2 est présent, m12= le nombre de segments dans lesquels le mot1 et le mot2 sont simultanément présents

N = le nombre total de segments.

Nm

Nm

Nm

COS21

12

(1)

Nm

Nm

Nm

PMI21

12

2log (2))

)(3(

21

12

Nm

Nm

Nm

Dice

(3) )

*

)((2log3

21

312

Nm

Nm

Nm

MI (4)

4. Les ressources linguistiques pour l’implémentation des méthodes Les différentes méthodes proposées ci-dessus nécessitent des ressources linguistiques spécifiques comme un dictionnaire de synonymes ou une collection de textes pour extraire l'espace sémantique et la norme. Les ressources que nous avons employées sont décrites dans la section qui suit :

4.1.La norme de valence Nous avons choisit 100 adjectifs arbitrairement à partir des deux catégories positive et négative de General Inquirer2 nous les avons traduit par la suite en arabe pour construire une norme arabisée cette dernier a été évalué sur une échelle de 7 points allant de très négative (1) à très positive (7) par plus de 30 juges ( expert de domaine et des linguistes âgé entre (25 est 60 ans)) ( voir Table1 ) . Mot négatif Traduction Valence Mot positif Traduction valence

Courageux 5.43 شجاع Impétueux 1.86 متھور

Calme 5.86 ھادئ Vaniteux 1.71 مغرور

Juste 6.71 عادل Sombre 2.29 مظلم

Merveilleux 7 رائع Poltron 2.30 جبان

Reconnaissant 6 شاكر Rebutant 1.14 بغیض

Optimiste 6.29 متفائل Fausse 2 مزیف

Table 1. Les adjectifs de la norme arabisée.

2Un projet né en 1961 qui visait à développer un programme d’analyse objective de contenu les deux dernières catégories ajoutées à ce dictionnaire positif et négatif disponible dans ce lien :http://www.wjh.harvard.edu/~inquirer/homecat.htm

http://www.wjh.harvard.edu/~inquirer/homecat.htm

20

4.2.Constitution de l’espace sémantique L’espace sémantique utilisé dans le présent travail est construit sur la base d’une collection de textes confectionnés par Motaz Saad3 à partir des journaux (El-waten et Al-khalij) d'une taille très importante (21 MO) il contient 4763 articles et approximativement 20 millions de mots. Ce corpus est utilisés souvent dans les tâches de texte-mining. nous avons confectionné une autre collection de 4686 articles en se basant sur la méthode de Ali Harb (Ali Harb et al 2008) l'idée et d'utilisé les mots germes positif et négatif du mot classiquement utilisé dans la littérature. P et N qui sont traduit par la suite en arabe: P={ جید جمیل ممتاز ایجابي سعید صحیح متفوق}P={Good , nice, excellent, positive, fortunate,correct, superior} N={ سيء مقرف رديء سلبي حزین N={bad, nasty, poor, negative, unfortunate, worng, inferior }pour collecter les{خاطئ وضیعtextes. le troisième corpus contient (4215) articles, il est confectionné à la base des synonymes des mots germes des ensembles P et N.

Pour construire l'espace sémantique, dans un premier temps les corpus ont été nettoyé et les mots ont été lemmatisés (Kadri ,2008) pour réduire le nombre de forme graphique différente. Nous avons appliqué une analyse sémantique latent sur nos corpus afin d’obtenir une matrice des cooccurrences M qui a été décomposé en utilisant le package Jama en trois matrices (Dumais et al,1987).

La matrice V et U contiennent un ensemble de vecteurs de base orthonormé. La matrice X contient les valeurs singulières de la matrice M.

Pour mesurer la similarité sémantique entre deux mots on calcule le cosinus entre les vecteurs qui les représentent. Plus deux mots sont sémantiquement proches, plus les deux vecteurs qui les représentent pointent dans la même direction et donc plus leur cosinus se rapproche de 1.

5. Expérimentation :

Dans cette section nous présentons les différentes expérimentations que nous avons réalisé pour calculer la valence d'un mot donné, le tableau (Table2) suivant présente les corpus d'apprentissage utilisé dans cette expérience :

Table 2.corpus utilisé comme une base d’apprentissage.

les testes sont effectués sur 140 termes (nom , adverbe , verbe et adjectif ) dont la valence est connue, ces termes sont sélectionnés arbitrairement du Generale inquire, nous avons calculé par la suite le rappel , la précession et la F-mesure pour chaque catégorie (positive, négative) Dans la (Table 3), nous reportons la F-mesure totale obtenue pour chaque méthode. Nous constatons que les résultats obtenus par les corpus 2 et 3 que nous avons confectionné sont meilleurs que ceux obtenu par le corpus de Motaz, et parmi toutes les méthodes illustréesPMI et Dice sont les plus efficace.

3Disponible sur :http://aracorpus.e3rab.com/

Corpus Nombretexte Nombre de segment

Corpus 01 4727 65598 Corpus Wattan

Corpus02 4686 63942 Corpus de l'ensemble Pet N

Corpus03 4215 65815 Corpus synonyme de P et N

http://aracorpus.e3rab.com/

21

f-mesure corpus01 corpus02 corpus03

PMI 0,24038462 0,68162162 0,46263736

MI3 0,28282828 0,49143745 0,40830831

COS 0,30012571 0,6486014 0,4987364

Dice 0,25275275 0,64971327 0,46263736

DIC-ASL 0,31275275 0,5805096 0,40275275

SO-ASL 0,28275275 0,5770968 0,39275275

Table 3. La F_mesure pour chaque méthodes

6. Conclusion Nous avons présenté six approches déférentes et connues dans le domaine de l'opinion mining pour l'estimation de la valence des termes, ont les a testées par la suite sur trois corpus deux d'entre eux sont construit manuellement à partir des mots germes (positif et négatif) et l'autre est un corpus très utilisé dans le domaine de l’opinion mining, les résultats obtenus nous ont montrés l'utilité du choix du corpus d'apprentissage. Cette recherche est un premier pas dans le développement des techniques pour l'estimation de la valence des termes pour la langue arabe, et les résultats obtenus par les deux Méthode PMI et COS sont satisfaisant.

Références: BESTGEN, Y. (2002). Détermination de la valence affective de termes dans de grands corpus de textes. Actes de CIFT'02, 81-94. BESTGEN, Y. (2006). Déterminer automatiquement la valence affective de phrases : Amélioration de l'approche lexicale. Actes des JADT 2006, 179-188 Yves Bestgen (2008) Building affective lexicons from specific corpora for automatic sentiment analysis » Bestgen, Y., & Vincze, N. (2012)Checking and bootstrapping lexical norms by means of word similarity indexes Bestgen Yves (2012)Construction automatique de ressources lexicales pour la fouille d'opinion BESTGEN, Y. (2011)« Identification de mots germes pour la construction d'un lexique de valenceau moyen d'une procédure supervisée» Haïfa Zargayouna et Sylvie Salotti(2005) «Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML » Kadri youssef (2008) « recherche d’information translinguistique sur les documents en arabe » thèse présenté à la faculté des études

superieurs en vue de l’obtention du grade philosopiae Doctor (Ph.D) T. Dumais,W. Furnas, K. Landauer (1987) Indexing by Latent Semantic Analysis. NoémiBoubel (2011)Construction automatique d’un lexique de modifieurs de polarité UCLouvain, Cental, Place Blaise Pascal, 1, B-1348 Louvain-la-Neuve, Belgique TURNEY, P.D., LITTMAN, M. (2003). Measuring Praise and Criticism: Inference of Semantic Orientation from Association. ACM

Transactions on Information Systems 21, pp. 315—346 TURNEY, P.D., LITTMAN, M. (2002). Unsupervised learning of semantic orientation from a hundred-billionword corpus. Technical Report, National Research Council Canada. Fawaz et all (2014) H.H. Mahyoub,MuazzamA.Siddiq, Mohamed Y.Dahab "Building an arabic sentiment Lexicon Using Semi-supervi sed Learning " Faculty of Computing and Information Technology, King Abdulaziz University, Jeddah, Saudi ArabiaFaculty of Computer Sciences and Information Technology, Attil et all (2008) Fields M. Attia1, M. Rashwan1, A. Ragheb1, M. Al-Badrashiny1, H. Al-Basoumy1"A Compact Arabic Lexical Semantics Language Resource Based on the Theory of Semantic" 1 The Engineering Company for the Development of Computer Systems.

22

Acquisition de connaissances multilingues : Un espace sémantique comme langage pivot

Boucham Souhila1, Aliane Hassina2 1Université des Sciences et de la technologie Houari Boumediene, Algérie 2Centre de Recherche sur l’Information Scientifique et Technique , Algérie

[email protected], [email protected]

RÉSUMÉ.L’objectif de ce travail est de proposer une approche d’acquisition de connaissances multilingues afin de créer un espace sémantique qui servira de langage pivot pour la recherche d'information. Ce langage est utilisé comme une base d’indexation sémantique adaptée aux corpus trilingues (arabe, français et anglais) permettant de caractériser le contenu documentaire par des connaissances, non dépendantes de la langue des documents. À notre connaissance, il y a aujourd’hui peu de travaux en RIM qui utilisent un corpus parallèle pour la phase de traduction. L’approche proposée utilise un corpus parallèle, elle combine une analyse de surface et une technique statistique à savoir LSA (Analyse Sémantique Latente ) pour la détection des concepts. Les termes de la matrice en entrée de LSA sont des unités qui correspondent aux morphèmes à savoir les n-grammes candidats de longueur variable. L’extraction de ces morphèmes est basée sur un principe de frontière. L’objectif est d’intégrer cette approche dans un modèle de représentation sémantique de documents et de requête.

ABSTRACT.In this paper, we propose an approach for multilingual knowledge acquisition in order to create a semantic space that will serve as pivot language for information retrieval. This language is used as a semantic indexing base adapted to trilingualcorpus (Arabic, French and English) to characterize the documentary content by knowledge, not language-dependent documents . It is an entirely statistics-based, unsupervised, and language independent approach to multilingual information retrieval.

To our knowledge, today, there is little work in the IRM using a parallel corpus for the translation phase . The proposed approach uses a parallel corpus, it combines surface analysisandstatisticaltechnique namelyLSI in a novel way to break the terms of LSI down into units which correspond more closely to morphemes (character n-grams candidates of non-fixed length. ).

The objective is the integration of this proposed approachwith a model of semantic representation of documents and query.

MOTS-CLÉS : recherche d’information multilingue (RIM), documents virtuel, principe de frontière, n-grammes, LSA, corpus parallèle (arabe, français et anglais), langage pivot, concept.

KEYWORDS :multilingual information retrieval (MIR), virtualdocument, principle of border, n-grams, LSA, parallel corpus (Arabic, French and English), pivot language, concepts.

1. Introduction Les statistiques présentées dans [1] montrent la diversité des langues utilisées dans les documents et dans les requêtes des utilisateurs. Ainsi, les systèmes de recherche d'information doivent maintenant répondre à un nouveau défi : proposer à l’utilisateur une liste de documents écrits dans des langues différentes répondant à une requête formulée dans la langue de l’utilisateur. La langue de l’utilisateur peut être différente des langues des documents. Ces nouveaux systèmes portent le nom de SRIM pour systèmes de recherche d'information multilingues. Notre travail s’intéresse au cas des SRI Multilingues gérant trois langues : arabe, français et anglais. Plus particulièrement, nous travaillons sur la phase d’acquisition et représentation des



23

connaissances à partir des textes, phase préliminaire aux processus de recherche des documents. Notre objectif est de surmonter la barrière de la langue dans un SRI en représentant chaque document d’un corpus multilingue par un ensemble de concepts. Les concepts composent un langage pivot de représentation de l’information et sont définis dans un espace sémantique représentant un corpus parallèle. Nous proposons donc une approche qui combine une analyse de surface et une technique statistique à savoir LSA pour la détection des concepts.

Dans la suite de notre article, nous exposons la problématique de choix des termes d’indexation dans la section 2, la section suivante décrit un état d’art des travaux relatifs à notre domaine de recherche, et nous présentons ensuite les principes de la LSA multilingue dans la section 4. Dans la section 5, nous détaillons notre approche de langage pivot pour la représentation de connaissances multilingues avant de conclure.

2. Unité d’information La première étape dans un processus de traitement d’un gros corpus au moyen d’un outil statistique est de subdiviser le texte à traiter en plusieurs unités d’information appelées tokens qui sont, traditionnellement, des mots simples. Ce processus de tokenisation pose une question primordiale : sur le plan informatique, comment repérer un mot ? En d’autres termes, quels sont les indicateurs formels de surface, non ambigus, qui peuvent délimiter un mot ? Si pour le français ou l’anglais littéraire, ou des langues apparentées, la réponse est presque triviale — à savoir que toute chaîne de caractères précédée et suivie d’un espace est considérée comme un mot simple — il en est tout autrement pour d’autres langues. Dans le cas de termes composés en langue arabe dans laquelle les pronoms sujets et compléments sont dans certains cas attachés aux verbes et une seule chaîne de caractères représente ainsi une phrase comme, par exemple, katabtuhu (“je l’ai écrit”), cette notion de tokens devient carrément inadéquate [2].

Si le mot simple ne convient pas à toutes les langues, quelle est donc l’unité d’information atomique la plus adéquate pour segmenter un texte ?

[3] soulignent que dépendant de l’objectif de lecture et de compréhension que nous nous donnons, la définition de l’unité d’information dépend de l’usage qui en est attendu. Dans une perspective d’extraction de connaissances, la définition d’une unité d’information est tributaire des contraintes suivantes :

- L’unité d'information doit être une portion du texte soumis à l’analyse numérique. - Il doit être facile sur le plan informatique de repérer ces unités d’information.

- La définition d’une unité d’information doit être indépendante de la langue dans laquelle le texte est écrit.

-Les unités d’information doivent être statistiquement comparables. Il doit être aisé d’en calculer les fréquences d’apparition dans les différentes parties du texte et par conséquent d’estimer leur distribution et la régularité à laquelle plusieurs unités co-occurrent dans les mêmes parties du texte.

3. Travaux relatifs [15]a appliqué la méthode CL-LSA qui est fondée sur le même principe que la LSA, elle est appliquée à la recherche d’information par croisement de langues (CL). L’idée de base consiste à combiner deux documents alignés d’un corpus parallèle en un seul document

24

bilingue, et construit ensuite une matrice «termes-documents». Le résultat est utilisé comme un espace commun de représentation indépendant des langues. Dans [11], afin de proposer une stratégie indépendante de toute langue naturelle, les auteurs suggèrent de découper les phrases en séquences de n lettres consécutives, pour générer les "termes" d'indexation à retenir, les espaces entre les mots étant retenus. Cette stratégie apporte une performance intéressante pour le chinois car les mots ne sont pas délimités explicitement dans cette langue.

Dans [9], les auteurs ont proposé une approche d’indexation avec les n-grammes de caractères dans la longueur est constants et défini a priori. L’extraction des n-grammes est fait à partir des mots. Cette approche est appliquée spécifiquement aux CLIR. Toutefois, les résultats sont exclusivement pour les langues Européennes écrites dans l'alphabet latin.

HYBRED (HYBrid Representation of Documents) c’est une approche de représentation des données textuelles [12] et utilise une méthode d'indexation basée sur les n-grammes de caractères. La première étape de l'approche concerne l'extraction des mots selon une étiquette grammaticale, ensuite l'application du principe de frontière. Les frontières sont les mots ayant des étiquettes grammaticales moins pertinentes pour les tâches de classifications. La troisième étape c'est une fusion des N-grammes des différents fragments séparés par la frontière et enfin, l'attribution de poids selon la mesure TF.IDF.

4. Travaux de la RIM incluant la langue Arabe Dans [13], une approche pour l’indexation et la recherche d’information pour un corpus trilingue : arabe, français et anglais. Le système proposé est fondé sur un formalisme de représentation de connaissances, plus précisément les graphes sémantiques qui supportent une ontologie de domaine. Les documents et les requêtes sont aussi représentés dans ce formalisme. L’ontologie du domaine constitue le noyau du système et est utilisée aussi bien pour l’indexation que pour la recherche. Le système d’indexation utilise une méthode d’extraction qui est basée sur le calcul de segments répétés en utilisant des filtres linguistiques.

Dans [14], les auteurs décrivent l’approche d'analyse morpho-sémantique latente (LMSA). C'est une approche statistique indépendante de langue, non supervisée, pour la RIM. Elle combine des techniques pour représenter les termes de LSA en unités qui correspondent aux morphèmes. L’ensemble d’expériences a été guidé par l'intuition que pas tous les n-grammes sont morphologiquement significative. L'idée de base est que la pondération d’un token doit dépendre de la pondération des autres dans le même terme. Pour cela il faut sélectionner les tokens qui maximisent l'information mutuelle (MI) : Le MI simple d'une paire s1 et s2 comme symboles adjacents est:

MI = log P(s1 s2) – log P(s1) – log P(s2). Si s1 suit s2 est souvent moins prévu que sur la base de leurs fréquences indépendantes alors MI est négative, sinon, elle est positive.

Pour un mot donnée : 1. Extraction de tous les tokens candidats. Par exemple, pour le mot ‘comingle’ : co+mingle, coming+le, comingle, c+o+m+i+n+g+l+e, etc.,, sont quelques candidats. 2. pour chaque candidat, calculer la MI

3. ensuite, le choix d’un seul candidat qui représente au mieux le mot et maximise la MI. Les auteurs ont démontré que LMSA, est morphologiquement une alternative plus sophistiquée à LSA. En calculant l'MI de caractère n-grammes de longueur non fixe.

25

5. Un langage pivot pour la représentation de connaissances multilingues Certaines méthodes proposent de passer la barrière de la langue en utilisant un langage pivot. Ce langage est utilisé pour représenter le document et la requête indépendamment des langues sources et cibles. Tout le problème est alors la définition de ce langage pivot pour la Recherche d’information multilingue et la conversion et de l’enconversion entre des langues naturelles avec ce langage.

5.1. Un espace sémantique comme langage pivot La classification de concepts permet de regrouper dans un même groupe les objets considérer similaires. Parmi les approches, LSA est une approches automatiques de classification non supervisées, elle est considérée comme un modèle cognitif d’acquisition et de représentation de connaissances, s’appuie sur l’hypothèse « Harissienne », qui est fondée sur le fait que des mots apparaissent dans le même contexte sont sémantiquement proches. Si deux termes apparaissent fréquemment ensembles alors ils ont plus de chance d’exprimer le même concept (synonymes). C’est pour cela que l’on peut retrouver des documents qui ne contiennent pas exactement les termes de la requête, mais seulement des termes similaires. L’objectif fondamental du modèle LSA est d’aboutir à une représentation conceptuelle des documents. La technique LSA appliquée à la RIM peut être vue comme l'introduction d'un langage pivot par changement de l'espace d'expression des vecteurs d'index sur de nouvelles dimensions concrétisant ce pivot : le document et la requête sont représentés dans un espace commun indépendant de la langue. Cette approche est basée sur le modèle vectoriel. Tout le problème réside dans la définition de l’espace vectoriel.

5.2. Définition de l’espace vectoriel, Caractériser un texte par un vecteur La formalisation vectorielle d’un document – qui réduit celui-ci à une liste non ordonnée de termes d’indexation – suffisait pour faire apparaître des ressemblances, des proximités sémantiques entre documents (docs/requêtes) au sein d’un corpus. Le problème qui se pose est de trouver, quelle que soit la langue ou l'écriture, les descripteurs qui soient identifiables et extractibles ainsi que les plus pertinents pour une collection de documents d'une langue ou d'une écriture donnée. Dans le domaine de représentations de données textuelles l'état de l'art consiste en trois approches : 1) une approche basée sur la notion de chaîne de caractères -une chaîne représente une unité élémentaire de sens délimitée par des séparateurs triviaux, comme l'espace ou les signes de ponctuation,

2) une approche basée sur la notion de mot, défini selon les cas comme une forme fléchie lemmatisée, uniterme ou multi-terme,

3) une approche basée sur la notion de N-gramme; un N-gramme est une séquence de N caractères consécutifs.

La tokenisation des mots s’avère simple pour le français et l’anglais, mais très difficile pour des langues comme l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams donne de bons résultats dans l’identification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes.

26

Un n-gramme est une séquence de n caractères consécutifs. Pour un document quelconque, l’ensemble des n-grammes qu’on peut générer est le résultat qu’on obtient en déplaçant une fenêtre de n cases sur le corps de texte. Ce déplacement se fait par étapes, une étape correspond à un caractère. Ensuite on compte les fréquences des n-grammes trouvés.

L’intérêt du codage en n-grammes Les techniques basées sur les n-grammes présentent plusieurs avantages :

- Les n-grammes capturent automatiquement les racines des mots les plus fréquents[4][8]. Par contre, pour les systèmes n-grammes, de nombreuses études [7][8] ont montré que la performance ne s’améliore pas après l’élimination des "Stop Words" et de "Stemming". - Elles opèrent indépendamment des langues [5][8], contrairement aux systèmes basés sur les mots dans lesquels il faut utiliser des dictionnaires spécifiques (féminin, masculin; singulier-pluriel ; conjugaisons ; etc.) pour chaque langue. De plus, avec les n-grammes, on n’a pas besoin de segmentation préalable du texte en mots ; ceci est intéressant pour le traitement de langues dans lesquelles les frontières entre mots ne sont pas fortement marquées, comme le chinois. - Enfin, elles sont tolérantes aux fautes d’orthographes et aux déformations causées lors de l’utilisation des lecteurs optiques. [6][8] montre que des systèmes de recherches documentaires basés sur les n-grammes ont gardé leurs performances malgré des taux de déformations de 30%, situation dans laquelle aucun système basé sur les mots ne peut fonctionner correctement.

5.3. Création de l'espace sémantique comme langage pivot Le développement de notre approche de création de l'espace sémantique procède en deux phases. La première phase concerne la constitution de notre corpus trilingue (arabe, français et anglais) et la deuxième phase contient les étapes suivantes :

1. Le prétraitement du corpus permet de formater les données textuelles et de les rendre directement exploitables pour les traitements ultérieurs.

2. Prendre les documents des trois langues, les concaténés afin de créer un doc virtuel (concaténation de doc source+ses traductions dans les deux langues cibles).

3. Phase d’analyse: le document virtuel est considéré comme un seul doc indépendamment des langues. L’ensemble des documents est analysé par LSA multilingue. Les termes de la matrice terme-document sont les morphèmes résultats de l’étape de prétraitement du corpus (des n-grammes candidats de longueur non fixe).

4. Le résultat est l’espace sémantique réduit qui servira de langage pivot ou les termes reliés sont regroupés dans le même concept. Donc, les concepts composent un langage pivot de représentation de l’information et sont définis dans un espace sémantique représentant un corpus parallèle.

5. L’étape suivante consiste à représenter les documents dans chaque langue autour des termes de l’espace.

L'architecture globale de notre approche se présente comme suit :

27

La figure 1 représente les étapes de notre approche pour la construction d'un langage pivot"

Le prétraitement des documents textuels comprend les étapes suivantes:

5.3.1. Segmentation Afin de traiter un document, une phase de segmentation du texte est utile pourra tenir compte des différentes unités d'indexation que sont la phrase, le paragraphe, ou le document dans son ensemble. Néanmoins, certaines difficultés peuvent se produire dans cette étape à savoir l’enlèvement des séquences des points successifs, de points de suspension « … » ou de caractères spéciaux tels que?,! Ou tout autre caractère spécial, parfois indiquer la fin de la phrase et il a besoin d'un traitement particulier. À la fin de cette étape, nous générons une liste de segments. Chaque segment est marqué par un début et d'un fin (les extrémités du segment).

5.3.2. Suppression des mots vides On procède, pour chaque segment sélectionné, par la suppression des mots vides de sens qui ne disposent pas d'informations. Cette élimination permet de réduire la taille de l’index, et se justifie par le fait qu’ils sont présents dans la quasi-totalité du corpus. Les mots vides peuvent être éliminés à l’aide d’une liste préalablement définie pour le français et l’anglais. par exemple: des articles, des pronoms, quelques adverbes. Contrairement aux langues latines, l’arabe est une langue agglutinante ; Les articles, les prépositions et les pronoms collent aux adjectifs, noms, verbes et particules auxquels ils se rapportent ; ce qui engendre une ambiguïté morphologique au cours de l’analyse des mots. De même tous ces mots vides de l’arabe peuvent être concaténés entre eux. Par exemple de تلك' ‘ on peut dériver ‘تلك+ب+ف = ’فبتلك et.تلك +و =وتلك . La liste des mots vides contient des patricules, des pronoms, des démonstratifs (أسماء االشارة), des conditionnels (اسماء الشرط), etc.

5.3.3. Principe de frontière et les N-grammes candidats de longueur variable La représentation des données selon les N-grammes de caractères répétés est motivée par la complexité des données que nous manipulons (données multilingues). Nous procédons à une recherche de N-grammes de caractères, indépendamment de leur taille. Ce choix est justifié par le fait qu’il s'affranchit de la notion de mot, donc de toute analyse morphosyntaxique.

Dans l'exemple suivant, nous présentonsnotre approche :

28

Soit la phrase "le bijoux plaqué or a du charme ".

La sélection et suppression des mots vides nous donne le résultat suivant : " bijoux plaqué or a charme "

Après ce premier traitement, nous représentons les mots extraits par les N-grammes de caractères. L’application de la représentation N-grammes de caractères nous donne trois possibilités de représentation : 1. La première représentation peut être considérée comme un sac de mots. L’application des N-grammes avec N=5 nous donne par exemple le résultat suivant : "_bijo, bijou, ijoux, joux_, oux_p, ux_pl, x_pla, _plaq, plaqu, laqué, aqué_, qué_o, ué_or, é_or_, _or_a, or_a_, r_a_c, _a_ch, a_cha, _cham, chamr, harme, arme_". Cette application est erronée car elle rajoute du bruit et des N-grammes inutiles, par exemple a_cha est un des N-grammes qui représente du bruit (N-gramme issu du fragment "a du charme" pour lequel le mot "du" a été supprimé).

En effet, le fait d’éliminer des mots vides de la phrase initiale entraîne la construction de suites de mots non pertinents (et donc des N-grammes incorrects).

2. Un deuxième type de représentation consiste à appliquer des N-grammes de caractères pour chacun des mots extraits séparément de la phrase (c’est le principe appliqué dans [9] et [14] ainsi que dans [10]: A partir de " bijoux plaqué or a charme ". Nous aurons comme résultat : "_bijo, bijou, ijoux, joux_, _plaq, plaqu, laqué, aqué_, _cham, chamr, harme, arme_"

Cette représentation corrige les défauts causés par la précédente méthode. Elle n’introduit pas de bruit mais elle souffre de perte d’information notamment sur les mots courts.

Par exemple, en appliquant les N-grammes de caractères avec N 5 le nom "or" ne peut être identifié. Cette suppression occasionne une perte d’information.

Application de principe de frontière Les deux représentations ont donc des défauts majeurs liés à l’introduction de bruit causé lors de la première représentation et du silence de la deuxième méthode. Pour cela nous avons introduit un principe de frontière basé sur une méthode statistique indépendante des langues. Celui-ci permet de remplacer les mots vides par une frontière. L’objectif est la prise en considération des groupes de mots pertinents situés entre les frontières. Cette méthode corrige, donc, les défaux des deux représentations. Et elle permet de prendre en considération des groupes de mots (par exemple, "plaqué or"). Le résultat obtenu selon le principe de frontière est montré comme suit : la phrase: "le bijoux plaqué or a du charme " devient : "X bijoux plaqué or a X charme", le "X" représente la frontière. L’extraction des 5-grams donne: "_bijo, bijou, ijoux, joux_, oux_p, ux_pl, x_pla, _plaq, plaqu, laqué, aqué_, qué_o, ué_or, é_or_, _or_a, or_a_, _char, charm, harme, arme_ ".

Algorithme proposé

Entrées : L’ensemble des documents multilingues constituant le corpus.

Sorties : Matrice. Pour tout Documents faire :

1. Segmentation et suppression des mots vides 2. Application du principe de frontière

3. Représentation des mots extraits selon les N-grammes de caractères de longueur variable

29

Exemple d’application de la méthode proposée : Cette section développe un exemple complet de l’approche proposée. Nous considérons la phrase: "Il faut une infinie patience pour attendre toujours ce qui n’arrive jamais".

1. La suppression des mots vides donnera : "faut infinie patience attendre arrive". 2. L’application du principe de frontière, nous donne : "X faut X infinie patience X attendre X arrive X". Et la représentation sous N-grammes ou N=3 aura comme résultat :

Mot N-grammes de caractères

[_faut_] [_infinie patience _]

[_attendre_]

[_arrive_]

[_fa, fau, aut, ut_] [_in,inf, nfi, fin, ini, nie, ie_, e_p, _pa, pat, ati, tie, ien, enc, nce, ce_] [_at, att, tte, ten, end, ndr, dre, re_]

[_ar, arr, rri, riv, ive, ve_]

Ainsi, nous pouvons calculer la somme de tous les 3-grammes :N-grammes("_faut_") + N-grammes("_infinie patience_") + N-grammes("_attendre_") + N-grammes("_arrive_"). Nous obtenons : {_fa, fau, aut, ut_, _in, inf, nfi, fin, ini, nie, ie_, e_p, _pa, pat, ati, tie, ien, enc, nce, ce_, _at, att, tte, ten, end, ndr, dre, re_, _ar, arr, rri, riv, ive, ve_} Enfin, des filtrages numériques seront appliqués.

La longueur n des n-grammes est non fixe puisque chaque langue à ses propres propriétés. Au contraire de l’application de [12], qui a considéré une longueur n fixé à l'avance, nous avons inspiré des travaux de [14] afin de proposer une méthode de sélection des n-grammes finals de longueur variable sur la base des n-grammes répétés et qui sont déjà filtrés par le principe de frontière. Après l’extraction de tous les tokens candidats pour chaque n-grammes finales, nous filtrons ces candidats afin de garder un seule candidat qui représente au mieux le n-gramme final et qui maximise la MI. IMmax(n-gramme)=maxi=1

n{IM(Si} Ou Si représente l’ensemble de tous les n-grammes candidats extraits à partir de n-gramme final. Par exemple : "X faut X infinie patience X attendre X arrive X". _faut_: ‘f+a+u+t’, ’fa+u+t’, ‘f+au+t’, ‘f+a+ut’, ‘fa+ut’, ‘fau+t’, ’f+aut’, ‘faut’.

6. Conclusion Nous avons proposé une approche d’acquisition de connaissances multilingues qui combine une analyse de surface et une technique statistique à savoir LSA pour la détection des concepts afin de créer un espace sémantique qui servira de langage pivot pour la recherche d'information multilingue. Ce langage est utilisé comme une base d’indexation sémantique adaptée aux corpus trilingues (arabe, français et anglais) permettant de caractériser le contenu documentaire par des connaissances, non dépendantes de la langue des documents. Dans notre travail d’extraction des n-grammes candidats (n de longueur non fixe), les mots apportant peu d’informations à savoir les mots vides sont remplacés par des frontières. Ainsi que, la prise en considération des groupes de mots pertinents situés entre les frontières.

Ce travail fait l’objet d’une implémentation et d’une évaluation sur un corpus parallèle.

30

Références [1] http://www.internetworldstats.com/stats.htm consulté le 19/12/11 , INTERNET WORLD USERS BY

LANGUAGE Top 10 Languages 2010.

[2] Manning, C.D., Schütze, H., (1999), Foundations of Statistical Natural Language Processing, MIT Press.

[3] Balpe, J.P., Lelu, A. Papy, F. (1996), Techniques avancées pour l’hypertexte. Paris, Hermes.

[4] Greffenstette, (1995), “Comparing Two Language Identification Schemes”, Actes de JADT-95, 85-96

[5] Dunning T. (1994). Statistical Identification of Languages. Technical Report MCCS 94-273, Computing Research Laboratory.

[6] Miller E., Shen D., Liu J., and C.Nicholas (1999). Performance and Scalability of a Large-Scale N-gram Based Information Retrieval System.Journal of Digital Information, 1(5).

[7] Sahami M. (1999). Using Machine Learning to Improve Information Access.PhD thesis, Computer Science Department, Stanford University.

[8]Radwan Jalam1, Jean-Hugues Chauchat, Pourquoi les n-grammes permettent de classer des textes? Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques, JADT 2002 : 6es Journées internationales d’Analyse statistique des Données Textuelles.

[9] McNamee and J. Mayfield. 2004. Character NGram Tokenization for European Language Text Retrieval. Information Retrieval 7, 73-97.

[10] Nada Naji, Jacques Savoy, Ljiljana Dolamic, 2011, Recherche d'information dans un corpus bruité (OCR).

[11] Paul McNamee, James Mayfield, and Christine Piatko, "A Language-Independent Approach to European Text Retrieval". In Carol Peters (ed.) Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF-2000 Workshop, Lecture Notes in Computer Science 2069, Springer, Lisbon, Portugal, 2001.

[12] Sami Laroum, Nicolas Béchet, Hatem Hamza et Mathieu Roche, Classification automatique de documents bruités à faible contenu textuel, Manuscrit auteur, publié dans "RNTI : Revue des Nouvelles Technologies de l'Information(2009).

[13], ALIANE Hassina. An ontology based approach to multilingual information retrieval. proceeding of ICTTA'06 SYRIA, 2006.

[14] Peter A. Chew, Brett W. Bader, Ahmed Abdelali, « Latent Morpho-Semantic Analysis: Multilingual Information Retrieval with Character N-Grams and Mutual Information » Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), August 2008

[15] Susan T. Dumais, Thomas K. Landauer, Michael L. Littman - Automatic Cross-Lingustic Information Retrieval using Latent Semantic Indexing - Proceedings of SIGIR’96, 1996.

http://www.internetworldstats.com/stats.htm

31

Analyse syntaxique statistique de la langue arabe

Barhoumi Amira1, Aloulou Chafik1, Hadrich Belghith Lamia1, Zitouni Imed2 1Groupe de recherche ANLP, Laboratoire MIRACL, Sfax, Tunisie,

[email protected], [email protected], [email protected] 2 Microsoft Corporation, Redmond WA, 98052-6399, USA, [email protected]

RÉSUMÉ.Dans cet article, nous proposons une méthode d’analyse syntaxique statistique de l’Arabe standard moderne MSA. Nous avons utilisé le modèle champs aléatoires conditionnels CRF. Notre méthode consiste à faire une analyse de la phrase donnée par niveau dans l’arbre syntaxique. Cette hiérarchie a été évaluée sur le corpus Arabic Treebank. Les résultats de performance sont élevés pour l’étiquetage morphosyntaxique et le chunking, ils sont de l’ordre de 92.08% et 90.24% respectivement. Les résultats d’évaluation des autres niveaux sont compris entre 55.5% et 68.5%

ABSTRACT.In this paper, we suggest a method for Arabic parsing. We used the statistical model Conditional Random Fields CRF. The method consists in parsing a sentence by level in the corresponding syntactic tree. Furthermore, we evaluated our parser by using the Penn Arabic Treebank. The F1 measures of part of speech tagging and chunking achieve 92.08% and 90.24% respectively. The F1 measures of others levels are between 55.5% and 68.5%.

MOTS-CLÉS:analyse syntaxique, apprentissage automatique, champs aléatoires conditionnels, langue arabe.

KEYWORDS: syntactic parsing, machine learning, Conditional Random Fields, Arabic language.

1. Introduction

L’analyse syntaxique constitue une étape fondamentale dans plusieurs applications du Traitement Automatique de la Langue TAL. Elle consiste à identifier les constituants d’une phrase et les relations qui existent entre eux. Différents travaux ont été effectués. Ils peuvent être classés en trois approches : symbolique, statistique et hybride. En ce qui concerne l’approche symbolique, elle utilise une grammaire pour l’analyse syntaxique des phrases. Alors que l’approche statistique se base sur les méthodes d’apprentissage automatique. Quant à l’approche hybride, elle constitue une combinaison des deux approches précédentes : elle utilise à la fois des connaissances linguistiques et statistiques. Plusieurs travaux relatifs à l’analyse syntaxique de l’arabe se situent dans le cadre de l’approche symbolique. Citons à titre d’exemple l’analyseur réalisé par (Othman and al., 2003) et basé sur le formalisme des grammaires d’unification. Aloulou (2005) a développé MASPAR : un système d’analyse multi-agents basé sur une grammaire syntagmatique guidée par la tête HPSG. (Al-Taani and al., 2012) ont implémenté un analyseur descendant basé sur une grammaire hors contexte CFG. Il nous importe à signaler qu’il existe d’autres analyseurs syntaxiques symboliques pour l’arabe.

Dans le cadre de l’approche statistique, peu de travaux ont été élaborés. Le plus répandu est Stanford (Klein and Manning, 2003) basé sur une grammaire probabiliste hors contexte PCFG. Nous citons également l’analyseur de (Tounsi and al., 2009), celui de Ben Fraj (2010), celui de (Khoufi and al., 2013), etc. En ce qui concerne l’approche hybride, à nos connaissances il n’existe pas encore de travaux pour l’arabe.





32

Dans ce travail, nous nous plaçons dans le cadre de l’approche statistique. Nous utilisons le modèle champs aléatoires conditionnels CRF, pour Conditional Random Fields (Lafferty and al., 2001). Vu ses résultats appréciables pour l’anglais (Sha and Pereira, 2003) et le chinois (Tan and al., 2005), nous choisissons de tester le modèle CRF pour l’analyse syntaxique de la langue arabe. Dans la suite, nous présentons dans la section 2, l’architecture du système SPA que nous avons implémenté et dans la section 3, nous décrivons le processus de l’analyse syntaxique. Dans la section 4, nous discutons les résultats de performance de SPA suite à une expérimentation avec le corpus Arabic Treebank ATB. Puis, nous testons, dans la section 5, l’apport du reclassement sur notre méthode. Et finalement, nous concluons dans la section 6.

2. Architecture de l’analyseur syntaxique SPA Nous présentons, dans cette section, l’architecture du système Statistical Parser for Arabic SPA que nous avons développé.

Suite à une étude du corpus ATB, nous avons constaté que l’arbre syntaxique est de hauteur 8 au pire des cas. D’où l’idée de procéder par une analyse syntaxique par niveau.

Figure 1.Architecture du système SPA Notre système SPA est constitué de quatre modules : un module pour la translitération, un autre pour la segmentation, un troisième pour l’analyse syntaxique et un dernier pour l’affichage. L’approche que nous avons adoptée pour l’analyse syntaxique est une analyse par niveaux (figure1) dans l’arbre syntaxique. SPA effectue, suite à la réception d’une phrase écrite en arabe, le module de translitération. Il existe plusieurs types de translitération. Mais comme le corpus ATB que nous utilisons dans l’apprentissage est translitéré avec Buckwalter (Sang and Buchholz, 2000), nous sommes donc obligés d’utiliser le même type de translitération, c’est-à-dire celle de Buckwalter. Suite à la phase de translitération, le module de segmentation s’établit. Il consiste à séparer les différents tokens de la phrase d’entrée. Prenons l’exemple de la conjonction فqui est agglutiné au mot qui la suit. Il en va de même

Phrase d’entrée

Phrase analysée syntaxiquement

Analyse syntaxique

CRF _ niveau 7

CRF_ niveau 6

CRF _ niveau 0

Affichage

Segmentation Translitération

33

pour les lettres ل ,س ,ب, … De plus, le mot أخیھ, par exemple, devra être segmenté en deux tokens .La segmentation est faite avec le segmenteur Stanford Word Segmenter1 .ھ etأخی

Une fois translitérée et segmentée, l’input passe au module d’analyse syntaxique. Cette dernière s’effectue en cascade à partir du niveau 7 dans l’arbre syntaxique correspondant jusqu’au niveau 0. En effet, étant donné les tokens de l’input, SPA prédit premièrement les étiquettes morphosyntaxiques au niveau 7. Puis, il passe à prédire les chunks des niveaux 6, 5, 4, 3, 2 et 1 dans cet ordre. Et finalement, il prédit le type de la phrase au niveau 0. Le module affichage permet de visualiser l’analyse syntaxique de la phrase d’entrée. Cette visualisation se fait sous forme d’une structure parenthèsée, XML ou arborescente.

3. Description détaillée du module d’analyse syntaxique Dans cette section, nous détaillons d’avantage le module d’analyse syntaxique (figure 1) du système SPA. Ce module est composé de 8 sous modules de CRF_niveau 7 jusqu’au CRF_niveau 0. Chaque sous module CRF_niveau i est le résultat d’une phase d’apprentissage sur un corpus corpus_i spécifique au niveau i. Nous avons utilisé l’ATB pour faire l’apprentissage.

3.1.Prétraitement de Penn Arabic Treebank ATB L’ATB2 constitue un corpus de référence pour plusieurs travaux. Il est constitué de 12628 phrases annotées extraites à partir des journaux arabes ANNAHAR écrits en MSA.

Figure 2. Préparation des corpus pour l’apprentissage

L’ATB est composé de 32453 tokens, 499 étiquettes morphosyntaxiques, 607 chunks et 40 types de phrase. Pour des raisons pratiques, nous avons réduit ces nombres. Ayant pour but d’éviter l’explosion combinatoire de calcul, cette réduction consiste à se limiter à 47 étiquettes morphosyntaxiques, 18 chunks et 16 types de phrase. Nous avons appliqué également la représentation BIO (Ramshow and Marcus, 1971) sur les structures parenthèsées de l’ATB. Par exemple, la représentation (2) correspond à la structure translitérée « tqE AlwAqEp » (1) relative à « الواقعة تقع ».

1http://nlp.stanford.edu/downloads/segmenter/shtml 2https://catalog.ldc.upenn.edu/LDC2005T20

Corpus ATB brut ( ( )( )(( )( )))

Réduction

&

corpus_de_base wtccccccs

corpus_7 wt

corpus_6 wtc

corpus_0 wtccccccs

…

…

Filtrage

http://nlp.stanford.edu/downloads/segmenter/shtml

https://catalog.ldc.upenn.edu/LDC2005T20

34

(VP (IV tqE) (NP (DET+NOUN AlwAqEp)))

tqE IV B_VP AlwAqEp DET+NOUN B_NP I_VP (2)

Nous obtenons ainsi les corpus de travail où chaque ligne comporte un seul token et les différentes représentations BIO des étiquettes correspondantes (figure 2). La figure 4 montre le format du corpus d’apprentissage corpus_de_base à partir du corpus brut ATB (figure 3). En effet, la première colonne (figure 4) représente les tokens constituants la phrase. La deuxième englobe les étiquettes morphosyntaxiques correspondantes. La troisième colonne désigne la représentation BIO des chunks de base. Les colonnes 4, 5, 6, 7, et 8 traduisent une cascade de chunks. Et la dernière colonne définit la représentation BI du type de la phrase. Ce format comporte 9 colonnes.

Figure 3.Structure parenthèsée de l’ATB

Figure 4.Le format du corpus d’apprentissage

Et finalement, nous exécutons l’étape de filtrage (figure 2) qui permet de générer les 8 corpus d’apprentissage. Chaque parenthèse ouvrante dans la structure prarenthèsée traduit un nouveau niveau dans l’arbre syntaxique correspondant. En effet, corpus_7 est formé des deux premières colonnes de la figure4, et corpus_6 est constitué des trois premières colonnes de la figure 4, etc. Bref, chaque corpus_i englobe les (9 − 푖) premières colonnes de la figure 4.

3.2.Chunking avec CRF

Le processus d’analyse syntaxique du système SPA est conceptuellement simple.

Figure 5.Etiquetage morphosyntaxique (niveau 7) et chunking basique (niveau 6) Le système SPA effectue en premier lieu l’étiquetage morphosyntaxique (figure 5). Puis, il réalise le chunking en identifiant les syntagmes basiques (figure 5). Et par la suite, il effectue une série de chunking consécutifs afin de déterminer, s’il existe, les chunks intégrant ceux du niveau inférieur. Et finalement, il précise le type de la phrase.

650 NOUN B_NP O O O O O B_FRAG jndyA NOUN B_NP I_NP O O O O I_FRAG

>myrkyA ADJ I_NP I_NP O O O O I_FRAG fy PREP B_PP O O O O O I_FRAG

(FRAG (NP (NOUN 650) (NP (NOUN jndyA) (ADJ >myrkyA))) (PP (PREP mn) (NP (DET+NOUN Alywm)))))

650 NOUN jndyA NOUN

>myrkyA ADJ fy PREP

bEvp NOUN

650 NOUN B_NP jndyA NOUN B_NP

>myrkyA ADJ I_NP fy PREP B_PP

bEvp NOUN B_NP

35

La tâche de chunking revient à une tâche d’étiquetage séquentiel en utilisant la représentation BIO. Appliquée aux niveaux 6, 5, …, 1 et 0, cette dernière permet d’utiliser le modèle CRF linéaire.

3.3.Fonctions caractéristiques Pour l’apprentissage des différents modèles CRF_niveau i à partir des corpus corpus_i spécifiques à chaque niveau i, des fonctions caractéristiques ont été utilisées. Elles sont de type unigramme et bigramme.

Niveau 7 Niveau 6 Niveau n

(ퟏ ≤ 퐧 ≤ ퟓ)

Niveau 0

Symbole uni-

gramme

ω , ω ω , ω

t , t

ω , ω

t , t

푐( ) , 푐( ) ;

∀1 ≤ 푘 ≤ 6 − 푛

ω , ω , 휔

t , t , 푡

푐( ) , 푐( ) , 푐( );

∀1 ≤ 푘 ≤ 6 − 푛

Symbole multi-

gramme

∅ ω 푡 ω 푡 푐( ) ω 푡 푐( )푐( )

Table 1. Patrons unigramme des fonctions caractéristiques.

La table 1 détaille l’unigramme des caractéristiques utilisées dans notre analyseur syntaxique SPA, où ω représente le token, t représente l’étiquette morphosyntaxique et c présente la représentation BIO du chunk. Pour l’étiquetage morphosyntaxique (niveau 7), nous avons utilisé le token actuel et celui précédent. Alors que les features de type unigramme du chunking basique (niveau 6) consistent en tokens actuel et précédent, leurs étiquettes morphosyntaxiques correspondantes et leurs combinaisons. Les caractéristiques du niveau n, pour tout n compris entre 1 et 5, consistent en tokens actuel et précédent, étiquettes morphosyntaxiques actuel et précédent, la représentation BIO des chunks actuel et précédent. Il en a de même pour le niveau 0. Pour le type bigramme, les caractéristiques sont des combinaisons des unigrammes.

4. Expérimentation et discussion Nous avons utilisé le corpus Arabic Treebank pour entraîner et mesurer les performances de l’analyseur SPA. L’ensemble d’apprentissage représente 80% de l’ATB. Le reste constitue le corpus de test. Pour entraîner les différents modèles CRF (ils sont au nombre de 8 modèles), nous avons utilisé la boîte à outils CRF++3. Nous avons adapté le script conlleval4 pour calculer les mesures de précision, rappel et celle F1.

La table 2 montre les mesures de performance de l’analyseur syntaxique SPA. Les niveaux 7 et 6 ont atteint des mesures F1 élevées; elles valent respectivement 92.08% et 90.24%. Les performances des autres niveaux sont comprises entre 55.5% et 68.5%. Dans l’architecture de notre système SPA, les étiquettes sont réparties sur tous les niveaux avec des occurrences différentes. Cette dispersion de labels justifie partiellement les résultats

3http://code.google.com/p/crfpp/downloads/list 4http://www.cnts.ua.ac.be/conll2000/chunking/output.html

http://code.google.com/p/crfpp/downloads/list

http://www.cnts.ua.ac.be/conll2000/chunking/output.html

36

obtenus dans les niveaux 0, 1, .., 5. En effet, plus le nombre d’occurrence de chunks est grand, plus le modèle est déterministe dans sa prédiction. Prenons par exemple, la mesure F1 du label NP (Table 3) qui atteint 90.09% au niveau 6 avec un nombre d’apparition égal à 238487 dans le corpus d’apprentissage. Alors que dans le niveau 1, cette étiquette apparaît 22483 fois dans l’ensemble d’apprentissage.

Exactitude Précision Rappel Mesure F1

Niveau 7 94.70% 92.08% 92.08% 92.08%

Niveau 6 91.80% 90.96% 89.53% 90.24%

Niveau 5 79.92% 69.86% 64 .74% 67.20%

Niveau 4 84.27% 66 .68% 61.45% 63.96%

Niveau 3 86.05% 68.42% 63.86% 66.06%

Niveau 2 87.78% 69.77% 66.64% 68 .17%

Niveau 1 88.42% 67.40% 63.98% 65 .65%

Niveau 0 89.40% 63.76% 49.22% 55.56%

Table 2.Résultats des expérimentations de SPA sur le corpus ATB

Cette différence importante dans le nombre d’occurrence de l’étiquette NP est suivie par la chute remarquable de sa mesure F1 dans le niveau 1 : elle vaut 48.53%. Il en va de même pour l’étiquette NAC (Table 3) : son nombre d’occurrence dans le niveau 1 est supérieur à celui du niveau 6 (1615 vs 593), d’où les mesures F1 sont 70.31% pour niveau 1 et 39.37% pour niveau 6. Ainsi, nous déduisons que l’obtention d’une mesure F1 élevée pour un chunk est étroitement liée à la persistance de ce chunk dans le corpus d’apprentissage avec un grand nombre d’occurrence.

Niveau 6 Niveau 1

Mesure F1 # apprentissage Mesure F1 # apprentissage

NP 90.09% 238487 48.53% 22483

NAC 39.83% 593 70.31% 1615

Table 3. Comparaison des mesures F1 de quelques chunks en fonction de leurs occurrences

Néanmoins, le modèle peut aussi être déterministe même avec un nombre d’occurrence petit, dans le cas où il n’ya pas d’ambiguïté. Nous citons, à titre d’exemple, le label X (Table 4) qui figurant 33 fois uniquement dans le corpus d’apprentissage au niveau 0, atteint 90.91% comme mesure F1.

Mesure F1 # corpus de test # corpus d’apprentissage

S 59.55% 2198 8557

X 90.91% 6 33

Table 4.Performance de quelques chunks au niveau 0 du système SPA

37

L’obtention des performances de la table 2 revient à l’hypothèse de dépendance entre les niveaux. En effet, la précision du chunking dépend fortement de la précision du chunking du niveau inférieur dans l’arbre. Il s’en suit de telles performances. De plus, le fait que l’analyse syntaxique effectue une cascade des modèles CRF pose le problème de propagation d’erreur d’un niveau inférieur à un niveau supérieur.

Vu que les tâches d’étiquetage morphosyntaxique et de chunking sont largement étudiées, nous comparons leurs performances pour l’anglais et l’arabe. La table 5 décrit les différentes mesures obtenues par notre système SPA pour l’arabe et par d’autres travaux pour l’anglais. Ayant utilisé le même modèle CRF, nous constatons que la mesure F1 de SPA est proche de celle rapportée par (Lafferty and al., 2001). Nous apprécierons ainsi le modèle CRF pour l’étiquetage morphosyntaxique de l’arabe qui est une langue riche morphologiquement. En ce qui concerne la tâche de chunking basique, (Sha and Pereira, 2003) ont utilisé le modèle CRF pour l’anglais, et ils ont obtenu 94.38% comme mesure F1. Alors que pour l’arabe, notre système SPA atteint 90.24%.

Travaux Mesure F1

Etiquetage morphosyntaxique (Lafferty and al., 2001) 94.45%

SPA 92.02%

Chunking (Sha and Pereira, 2003) 94.38%

SPA 90.24%

Table 5.Comparaison des performances de SPA avec d’autres travaux

Pour comparer SPA (Klein and Manning, 2003) avec un autre analyseur syntaxique dédié à l’arabe, nous choisissons le système Stanford le plus répandu. Ce dernier atteint une mesure F1 de 85.7%, alors que la mesure F1 de notre système vaut 55.56%. Un écart qu’il faut expliquer (au plus des ensembles d’apprentissage et de test différents utilisés dans ces deux systèmes).

5. Analyse syntaxique avec reclassement Dans cette section, nous testons l’apport du reclassement à notre méthode d’analyse proposée par construction de forêt d’arbres syntaxiques en appliquant les N meilleures sorties et choisissant l’arbre ayant le score le plus élevé.

5.1.Construction de la forêt Historiquement, il est très important de produire les N meilleures analyses syntaxiques au lieu d’une seule. En effet, les informations obtenues dans un autre modèle peuvent influencer sur l’ordre des N sorties et améliorer ainsi la performance de la sortie après reclassement des N sorties. La forêt des analyses syntaxiques est construite selon une démarche bien déterminée. En effet, nous avons effectué tout d’abord le décodage au niveau 7 pour le corpus de test. Ensuite, la sortie du niveau 7 est décodée au niveau 6. Le fait de générer une seule sortie aux niveaux 7 et 6 est justifié par les performances élevées relatives à ces deux niveaux. Nous avons passé ensuite à appliquer les 3 meilleures sorties pour le décodage du niveau 5. Puis, nous avons

38

effectué les 3 meilleures sorties pour le décodage du niveau 4, et ainsi de suite, jusqu’à le décodage du niveau 0. Il nous importe à signaler que le choix de 3 (N=3) est arbitraire. Ainsi, nous avons obtenu 3 sorties. Ces dernières forment l’ensemble d’arbres candidats. Bref, elles constituent la forêt des analyses syntaxiques.

5.2.Reclassement des N meilleures sorties Formellement un modèle de reclassement se compose de trois parties principales : un ensemble de candidats, une fonction qui associe à chaque candidat un score et une fonction d’ordre qui détermine la meilleure sortie. Dans le cadre de l’analyse syntaxique, les candidats représentent les différents arbres syntaxiques associés à la phrase d’entrée. Nous choisissons la mesure F1 au niveau 0 comme étant le score associé à chaque arbre. Et finalement nous reclassons les différents arbres de la forêt par ordre de mesure F1 croissant.

Ce processus de reclassement montre que la meilleure sortie atteint 56.06% comme mesure F1. Alors qu’avec une seule sortie, la mesure F1 vaut 55.56%. Nous constatons une augmentation de 0.5%. Ce pourcentage reste faible par rapport à d’autres modèles de reclassement comme celui de Ratnaparkhi (1999).

6. Conclusion Nous avons proposé, dans cet article, une approche pour l’analyse syntaxique de phrases arabes. Cette approche consiste à faire une analyse syntaxique par niveau. Elle se fonde sur le modèle statistique champs aléatoires conditionnels CRF. Bien que cette méthode souffre du problème de propagation d’erreur, les résultats de performance obtenus sont encourageants. Nous avons également testé l’apport du reclassement à notre méthode d’analyse.

Comme perspective, un premier horizon consiste à ajouter d’autres patrons de fonctions caractéristiques à savoir les trigrammes. Une deuxième réflexion réside dans l’amélioration des performances locales relatives à chaque niveau en faisant recours au modèle CRF de deuxième ordre (Sha and Pereira, 2003). Une autre perspective consiste à opter pour une approche hybride d’analyse syntaxique où les approches symbolique et statistique peuvent se combiner soit en parallèle soit en série.

Références Aloulou, C. 2005. Une approche multi-agent pour l’analyse de l'arabe: Modélisation de la syntaxe. Thèse de

doctorat en informarique, Ecole Nationale des Sciences de l'informatique, université de Manouba, Tunis, Tunisie.

Al-Taani, A. T., Msallam Mohammed, M. and S, W. 2012. A top-down chart parser for analyzing arabic sentences. The International Arab Journal of Information Technology, 9, 109-116.

Ben fraj, F. 2010. Un analyseur syntaxique pour les textes en langue Arabe à base d'un apprentissage à partir des patrons d'arbres syntaxiques. Thèse de doctorat en Informatique, Ecole Nationale des Sciences de l’Informatique, Université de la Manouba, Tunisie.

Khoufi, N., Louati, S., Aloulou, C. and Hadrich Belguith, L. 2013. Supervised learning model for parsing Arabic language. the 10th International Workshop on Natural Language Processing and Cognitive Science (NLPCS 2013), 129-136.

Klein, D. and Manning, C. D. 2003. Accurate Unlexicalized Parsing. Proceedings of the 41st Meeting of the Association for Computational Linguistics, 423-430.

Lafferty, J., McCallum, A. and Pereira, F. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. International Conference on Machine Learning (ICML 2001).

39

Othman, E., Shaalan, K. and A, R. 2003. A Chart Parser for Analysing Moderen Standard Arabic Sentence. In proceedings of the MT Summit IX Workshop on Machine Translation for Semitic Languages: Issues and Approches.

Ramshaw, L. and Marcus, M. 1995. Text chunking using transformation-based learning. Third Workshop on Very Large Corpora (ACL, 1995).

Ratnaparkhi, A. 1999. Learning to parse natural language with Maximum Entropy Models. Machine Learning, 151-175.

Sang, E. and Buchholz, S. 2000. Introduction to the CoNLL-2000 Shared Task: Chunking. CoNLL 2000, 127-132.

Sha, F. and Pereira, F. 2003. Shallow parsing with conditional random fields. Conrefence of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (NAACL 2003), 134-141.

Tan, Y., Yao, T., Chen, Q. and Shu, J. 2005. Applying Conditional Random Fields to chinese Shallow Parsing. Computational Linguistics and Intelligent Text Processing, 167-176.

Tounsi, L., Attia, M. and Van Genabith, J. 2009. Parsing Arabic Using Treebank based LFG Resources. Lexical Functional Grammar.

40

Intégration du profil utilisateur basé sur les ontologies dans la reformulation des requêtes Arabes

Houssem Safi, Maher Jaoua, Lamia Hadrich Belguith

ANLP Research Group, Laboratoire MIRACL, Université de Sfax, Tunisie. Faculté des Sciences Economiques et de Gestion de Sfax, Université de Sfax, Tunisie.

[email protected], {Maher.Jaoua, l.belguith}@fsegs.rnu.tn

RÉSUMÉ.Le but de cet article est de présenter le système AXON dédié pour la Recherche d’Information Personnalisée (RIP) et destiné pour les utilisateurs actant en langue Arabe. Dans ce contexte, nous allons présenter une méthode d’expansion de requêtes en langue Arabe et qui exploite deux techniques: la première se base sur l’expansion de requêtes et utilise les ontologies dans le but d’enrichir les requêtes exprimées par l’utilisateur. La deuxième technique s’articule autour du profil utilisateur basé sur une approche hybride (représentation sémantique et multidimensionnelle) dans l’objectif d’adapter le processus de recherche aux besoins et intérêts de chaque utilisateur. La méthode d’expansion proposée a été implémentée et expérimentée sur 150 requêtes pour 50 utilisateurs.

ABSTRACT.The purpose of this paper is to present the AXON system dedicated for personalization in information retrieval (RIP) suitable for the users acting in Arabic language. In the context, we will present a query expansion method which is suitable for those using the Arabic language. The suggested query expansion method has two techniques: the first is based on the expansion of queries and uses linguistic knowledge in order to enrich the queries expressed by the user. The second technique rests on the user’s profile and serves for the disambiguation of the enriched words. The suggested query expansion method has been implemented and tested on 150 queries for 50 users.

MOTS-CLÉS : recherche d’information, personnalisation, expansion, profil utilisateur, ontologie.

KEYWORDS: information retrieval, personalization, expansion, user profile, ontology.

1. Introduction La discipline de la recherche d'information (RI) est apparue dans un contexte où les progrès des technologies de l'information ont changé la perception de l'accès à l'information. Dès lors, l’accès à l’information est devenu un enjeu capital et stratégique. Néanmoins, les utilisateurs n’emploient habituellement que quelques mots pour décrire le document recherché, ce qui peut donner lieu à des ambiguïtés (Hanandeh, 2013). C’est dans ce contexte, que s’inscrit ce travail qui se propose de développer un système de recherche d’information personnalisée dans des textes arabes et qui tient compte de l’intégration du profil utilisateur dans le processus de reformulation de la requête. Cette reformulation a pour objectif d’enrichir la requête initiale en raison des variations morphologiques, lexicales et sémantiques. A ces variations, d’autres phénomènes spécifiques à l’arabe doivent être prises en considération. En effet, un mot en arabe peut signifier toute une expression en français ou en anglais. Par exemple, le mot ‘ سنتحداھم ’ [ sanatahad~Ahumo ] permet d’exprimer en français ( nous les défierons ). La segmentation de tel mot s’avère à la fois nécessaire et difficile pour l’analyse morphologique. En outre, l’agglutination de la conjonction de coordination ‘ و ’ [ w ] ( et ) rend difficile la distinction entre le ‘ و ’ [ w ] en tant qu’une lettre faisant partie du mot (tel que ‘ ولد ’ [ waladN ] ( garçon )) et le ‘ و ’ [ w ] ayant le rôle de conjonction de coordination ( et ).


mailto:@fsegs.rnu.tn

41

Dès lors, l’utilisation des ontologies pour l’enrichissement (expansion) de la requête utilisateur peut constituer une solution pour résoudre le problème des variations sémantiques (Abderrahim, 2013). En outre, l’expansion de requêtes peut lever l’ambiguïté de certains termes. Néanmoins, l’expansion de requêtes peut s’accompagner par un problème de surcharge informationnelle. Afin de faire face à ce problème, nous proposons une deuxième alternative qui s’appuie sur la notion de profil utilisateur afin de réduire les éléments enrichis lors de l’expansion et filtrer les documents retournés. Dans cet article, nous allons présenter les étapes de la méthode de recherche d’information personnalisée (RIP) proposée. Dans la section suivante, nous allons présenter un survol des principales approches de représentation de profil ainsi que les travaux intégrant le profil utilisateur dans le processus de RI. Dans la troisième section, nous allons citer les étapes de la méthode de RIP de la langue arabe ensuite nous présenterons en détail les étapes de la méthode d’expansion de requêtes proposée. Enfin, nous allons décrire dans la dernière section, les étapes de mise en œuvre et d’évaluation d’un système baptisé AXON (Arabic query eXpansion based on ONtology).

2. La recherche d’information personnalisée D’après Jayanthi et Rathi, la recherche d’information personnalisée se définit comme suit: “Personalization aims to provide users with what they need either by asking explicitly or implicitly. Web Personalization is conventionally defined as the process of tailoring web pages to satisfy the individual user needs by adapting different approaches” (Jayanthi et Rathi, 2014). Ainsi, le profil utilisateur est un facteur clé pour la réussite d’un tel système de personnalisation. Dans ce qui suit, nous allons présenter un survol sur les approches de représentation du profil et nous terminons par citer les travaux qui intègrent le profil dans le processus de RI.

2.1. Les approches de représentation du profil utilisateur Il existe principalement quatre types de représentation de profil utilisateur à savoir : Représentation ensembliste : le profil y est généralement formalisé comme des vecteurs de termes pondérés (Dumais et al., 2003) ou des classes de vecteurs (Gowan, 2003). Représentation connexionniste : Les centres d'intérêts sont souvent représentés par des relations entre paires de nœuds dans lesquelles chaque nœud contient un terme issu des documents du corpus de recherche (Koutrika et Ioannidis, 2005).

Représentation sémantique : La représentation est essentiellement basée sur l’utilisation d’ontologies ou de réseaux sémantiques probabilistes (Lin et al., 2005). En effet, les travaux actuels tendent à représenter le profil sous la forme d'une ontologie de concepts personnels en se basant sur les connaissances contenues dans les ontologies.

Représentation multidimensionnelle: Les dimensions peuvent être des attributs démographiques des utilisateurs (identité, données personnelles), des attributs professionnels (employeur, adresse, …) et des attributs de comportement (Bouzeghoub et Kostadinov, 2005).

2.2. Survol sur les travaux intégrant le profil utilisateur dans la RI Le profil utilisateur peut être présent à trois niveaux du processus de RI : la reformulation de la requête (A), le calcul du score de pertinence (B) et la représentation des résultats de recherche (C). Phase de reformulation de requêtes : Les méthodes présentées dans (Gomez, 2010), basées sur l'interaction avec l'utilisateur, utilisent le profil utilisateur pour l’enrichissement de la

42

requête. Ce processus est appelé réinjection de la pertinence « relevance feed-back ». En effet, en tenant compte d’une liste de documents déjà jugés sélectionnés, la requête est modifiée.

Phase de calcul du score de pertinence d’une requête vis à vis d’un document : Dans cette phase on n’utilise plus la fonction classique d’appariement requête document RSV(D,Q)1, car le composant utilisateur demeure inéluctable obtenant ainsi une nouvelle fonction de pertinence RSV(D,Q,U) ou D, Q et U représentent respectivement un document, une requête et un utilisateur. Dans les travaux de Tamine (Tamine et al., 2008),le modèle de représentation de profil se base sur des centres d’intérêts multiples représentés par des vecteurs de termes. Ainsi, la technique de personnalisation consiste à intégrer le profil utilisateur dans le calcul de pertinence du document du modèle de recherche bayésien. Phase de représentation des résultats de recherche : Dans les travaux de Challam (Challam et al., 2007) le profil est utilisé dans le ré-ordonnancement des résultats de recherche. En effet, lorsque l’utilisateur soumet une requête, les dix meilleurs résultats de recherche sont classifiés, sur la base d'une fonction de similarité par rapport à un profil utilisateur donné. Les titres et les résumés de ces résultats sont classés pour créer un profil de document dans le même format que le profil utilisateur. Le profil document est ensuite comparé au profil utilisateur pour calculer le rang conceptuel entre chaque document et les centres d'intérêts de l'utilisateur.

Il est à noter que le couplage entre des informations issues du profil utilisateur et celles contenues dans les ontologies constituent une piste intéressante à développer. Ainsi, la contribution de ce travail se distingue de celles des travaux cités ci-dessus par l’intégration du profil utilisateur dans tous les niveaux du processus de RIP à savoir (A), (B) et (C). A notre connaissance, il n’y a pas de travaux qui intègrent le profil utilisateur dans (A), (B) et (C) en même temps.

3. Proposition d’une méthode de reformulation de requête dans le cadre d’une méthode de RIP : cas de la langue arabe

L’objectif de ce travail est de proposer une méthode de RIP basée sur l’intégration du profil utilisateur dans tous les niveaux du processus de RIP à savoir (A), (B) et (C). Pour notre cas, l’intégration du profil utilisateur dans (A) se base sur des liens sémantiques tels que la synonymie, l’hypéronymie ou généralisation, l’hyponymie ou spécialisation à l’aide des ressources sémantiques (pour la langue arabe). Ainsi, notre méthode de RIP s’articule autour de six principales étapes à savoir la construction et/ou consultation du profil de l’utilisateur, l’analyse et prétraitement de la requête, l’expansion sémantique de requête, l’appariement personnalisé Requête-Documents, le ré-ordonnancement personnalisé des résultats et finalement l’extraction de passages pertinents.

Dans ce qui suit, nous allons mettre l’accent seulement sur les étapes un, deux et trois de la méthode RIP alors que les autres étapes, nous allons les décrire dans d’autres travaux.

Dans la section suivante, nous présenterons la méthode d’expansion proposée et implémentée (qui corresponde aux trois premières étapes de notre méthode de RIP). Cette méthode d’expansion distingue cinq étapes (figure 1). La première étape a pour objectif de construire ou consulter le profil ainsi que l’arbre de domaine qui caractérise l’utilisateur. Dans la deuxième étape, il s’agit d’analyser et mettre à jour la requête. La troisième étape permet de rechercher les combinaisons de termes de la requête initiale dans le profil utilisateur ou dans les ontologies et d’extraire les concepts correspondants. La quatrième étape consiste à présenter les résultats d’expansion à l’utilisateur qui peut intervenir pour choisir les termes 1 Un score de similarité (en anglais Relevance Status Value) entre la requête indexée Q et les descripteurs du document D

43

qui correspondent le mieux à sa requête. Alors que la dernière étape permet de mettre à jour le profil utilisateur aussi bien à court terme qu’à long terme.

Figure 1. La méthode d’expansion de requêtes proposée (Safi, 2014)

3.1. Construction initiale et/ou consultation du profil utilisateur La représentation du profil utilisateur dans notre méthode se base sur une approche hybride (combinaison entre l’approche multidimensionnelle et l’approche sémantique). En effet, le modèle du profil utilisateur proposé se base sur des dimensions qui peuvent être des attributs démographiques des utilisateurs (identité, données personnelles), des attributs professionnels (employeur, adresse, type), des attributs de comportement et des attributs de domaine ou de centres d’intérêts. Néanmoins, les centres d’intérêts de l’utilisateur se basent sur une représentation sémantique (exploitation des ontologies). En effet, les centres d’intérêts du profil utilisateur sont présentés sous la forme d'une ontologie de concepts personnels en se basant sur les connaissances contenues dans les ontologies Arabic Wordnet2 (AWN) et Amine Arabic Wordnet3( Amine AWN). Notons que la construction d’un arbre de centre d’intérêt de l’utilisateur est basée sur l’extraction des relations sémantiques trouvées dans les ontologies (AWN et Amine AWN) à savoir la synonymie, l’hyperonymie et hyponymie s’ils existent (Safi, 2014).

3.2. Analyse et prétraitement de la requête Une fois le profil construit, l’utilisateur peut soumettre sa requête. Chaque requête tapée subit trois traitements à savoir l’analyse morphologique, la suppression des mots vides (stop list) et la proposition des combinaisons de mots. Analyse morphologique : Cette étape consiste à segmenter les mots agglutinés et à remplacer chaque mot de la requête par sa racine. Il est à noter que nous avons utilisé l’analyseur AL KHALIL4 pour cette phase.

Exemple: السیاسة المالیة لتونس . (La Politique financière de Tunisie) Requête prétraitée : سیاسة مالیة ل تونس. (Politique financière Tunisie)

Suppression des mots vides : Il s’agit de supprimer les mots vides ( إلى (vers) من , (de) , على (sur)...). Pour l’exemple précédent, le traitement consiste à supprimer le mot vide «ل » (de). 2 http://wwww.globalwordnet.org/AWN/AWNBrowser.html 3 http ://amine-platform.sourceforge.net 4http://sourceforge.net/projects/alkhalil/

http://wwww.globalwordnet.org/AWN/AWNBrowser.html

http://sourceforge.net/projects/alkhalil/

44

Proposition des combinaisons de termes : Etant donné que les ontologies utilisées ne couvrent pas tous les mots de la langue Arabe, le résultat de recherche se limite à un sous ensemble de termes de la requête en question c’est-à-dire une combinaison de termes de la requête. Il est à noter que nous respectons dans les combinaisons le même ordre des termes de droite à gauche. Pour le dernier exemple, les combinaisons proposées pour les termes de la requête sont les suivantes:

Politique financière Tunisieسیاسة مالیة تونس سیاسة مالیة / Politique financière سیاسة تونس / Politique Tunisie مالیة تونس / financière Tunisie

3.3. Extraction de concepts

L’étape de recherche des concepts permet de rechercher les combinaisons de termes de la requête initiale dans le profil utilisateur pour extraire la hiérarchie de concepts adéquate à la requête initiale. En cas d’absence des termes de la requête dans le profil, nous procédons à la recherche dans les ontologies Amine AWN et/ou AWN pour extraire les synonymes et les hyperonymes (généralisation) et les hyponymies (spécialisation) de ces termes. En outre, le processus consiste à attribuer une pondération à chaque concept trouvé dans la hiérarchie de concepts adéquate à la requête initiale. Ainsi, plus la distance en profondeur (distance verticale) entre deux concepts, dans l’arbre de concepts est petite plus la pondération de ces concepts sera grande. La formule [1] ci-dessous est adoptée pour effectuer la pondération des termes : P(t) = Log (1+ (K(t) –d(t)/k(t)) ϵ [0 ,1] [1]

K(t) : Le nombre de niveaux dans l’arbre de domaine de t et D(t) : La distance en profondeur du terme t par rapport à la requête ou au terme recherché.

3.4. Enrichissement et relevance feedback

Cette étape se compose de deux phases, à savoir l’ajout automatique ou manuel de concepts et le retour de pertinence. L’ajout automatique s’effectue en ajoutant un nombre de termes k5 à la requête initiale de l’utilisateur. L’ajout manuel s’effectue en proposant à l’utilisateur la possibilité d’ajouter un nombre de termes à la requête initiale selon son choix. Néanmoins, nous avons intérêt à minimiser le nombre de termes obtenus, pour ne pas dégrader la performance de la recherche par la suite. En l’occurrence, l’usager peut choisir ce qu’il préfère et même ce qu’il décline les concepts trouvés dans l’expansion automatique.

3.5. Evolution du profil utilisateur Dans cette étape, le profil utilisateur peut évoluer sur deux plans : à court terme et à long terme. Le résultat de l’étape précédente sera enregistré dans le profil adéquat. L’usager peut choisir les concepts qu’il préfère et ceux qu’il décline dans son profil. D’une part,le relevance feedback permet de raffiner les préférences de l’utilisateur et par conséquence de mettre à jour le profil court terme. D’autre part, le traitement consiste aussi à fusionner deux profils courts termes qui se ressemblent en se basant sur un seuil bien défini par l’expérimentation qui est égale à 50%. Par exemple :

Profil 1: {مھنة ,سیاسة}({politique, profession}), Profil 2:{مھنة, طب }({profession, médecine}) Alors Profil fusionné: {مھنة ,سیاسة, طب }({Politique, profession, médecine}).

Le profil long terme d’un utilisateur donné est l’agrégation de ses profils courts termes. En effet, le profil court terme le plus consulté est considéré comme profil long terme.

5 k est par défaut égal à 3 car par expérimentation si k dépasse 3 alors elle va dégrader la performance du système AXON

45

4. Implémentation, évaluation du système « AXON » et discussion des résultats Afin de valider la méthode proposée, nous avons implémenté un système de reformulation intitulé AXON (Safi, 2014) qui sera intégré plus tard dans un Système de Recherche d’Information Personnalisée dans des Textes Arabes. Pour évaluer le système AXON, nous avons eu recours à l’utilisation du méta moteur polyméta de recherche en raison de sa couverture importante et son aptitude à fournir des résultats de plusieurs moteurs de recherche en même temps. Et vu que les ressources linguistiques arabes sont très rares voire même indisponibles, nous étions amenés à construire notre propre corpus d’évaluation intitulé « Arabic query corpus ». Ce corpus est composé de 150 requêtes soumises par 50 différents utilisateurs. « Arabic query corpus » est constitué de 24507 mots soit 113000 caractères (espace non compris) et de taille 1.46 Mégaoctet. En outre, le corpus d’évaluation de notre système contient diverses requêtes des utilisateurs (étudiants, professeurs, des élèves …) demandant des requêtes de différentes natures, de différents domaines (corpus général) et contenant différents types de particularité de la langue Arabe.

4.1. Expérimentation et résultats Le Web étant une collection dynamique, on ne peut utiliser des évaluations standards, puisque d'une part les résultats obtenus avec une requête et un méta moteur de recherche donnés peuvent évoluer dans le temps, et que d'autre part une page figurant dans les résultats d'une requête peut ne plus exister. Cependant certaines mesures comme le rappel/précision, le silence/bruit peuvent être d’une grande utilité. Ainsi, nous utilisons le méta moteur de recherche Polyméta en Arabe en calculant la précision avec dix documents P10 puis avec vingt documents P20 pour les requêtes avant expansion (l’utilisateur doit soumettre la requête initiale au méta-moteur afin de chercher les documents adéquats), après expansion et après expansion avec le profil utilisateur (l’utilisateur doit soumettre la requête initiale au système AXON pour l’étendre, puis il prend la requête étendue et la soumet au méta-moteur afin de chercher les documents adéquats).

Calcul de la mesure de précision : Nous avons calculé le taux de précision moyen de P10 avant et après expansion et en ajoutant le profil utilisateur et le taux de précision moyenne de P20 avant et après expansion pour 50 utilisateurs et 150 requêtes. La figure 2 ci-dessous représente le taux de précision moyenne de P10 avant et après expansion et en ajoutant le profil utilisateur et le taux de précision moyenne de P20 avant et après expansion pour 50 utilisateurs et 150 requêtes.

Figure 2.Extrait de la variation de mesures de précision moyenne P10 et P20 calculée avec 50 utilisateurs pour 150 requêtes

Avec Ri : représente une liste de 10 requêtes données avec i entre 1 et15

00,10,2

0,30,40,50,60,7

0,80,9

1

R1

R2

R3

R4

R5

R6

R7

R8

R9

R10

R11

R12

R13

R14

R15

P10

moy

enne

P10 avant expansionP10 après expansionP10 avec profil utilisateur

00,05

0,10,15

0,20,25

0,30,35

0,40,45

0,5

Utilisa

teur1

Utilisa

teur2

Utilisa

teur3

Utilisa

teur4

Utilisa

teur5

P20 Avant expansionP20 Après expansion

46

Avec utilisateur J : représente 10 utilisateurs donnés avec J entre 1 et 5. La figure présentant la variation de la précision moyenne avec 10 documents, montre que P10 après expansion s’est amélioré pour 90 requêtes, alors qu’elle s’est dégradée pour 20 requêtes et a gardé les mêmes valeurs pour les 40 requêtes restantes.

La courbe P10 basée sur l’utilisation de profils utilisateurs après l’expansion témoigne d’une augmentation remarquable de la précision moyenne. Tel est le cas de la liste des requêtes R13 où la précision moyenne est passée de 0,48 avant expansion à 0,9. Tandis que, la courbe P20 après l’expansion témoigne d’une augmentation remarquable de la précision moyenne pour tous les utilisateurs et toutes les 150 requêtes. Tel est le cas de la liste des utilisateurs J4 où la précision moyenne est passée de 0,33 avant expansion à 0,45 après expansion. Calcul de la MAP (Mean Average Precision) : La MAP caractérise la qualité du classement d’un système. Un système de RI calcule un score de pertinence pour l’ensemble des documents qui constituent la base de test, et les classe par ordre décroissant de pertinence à la manière des moteurs de recherche sur le web. En parcourant cette liste, la précision est calculée pour chaque document pertinent. Pour un ensemble de requêtes, la MAP est calculée comme le montre la formule [2] :

[2] Avec : dij est le j document pertinent pour la requête i, rang (dij) est le rang de ce document dans la liste de réponses du système, ni est le nombre de documents pertinents pour la requête i et N est le nombre de requêtes.

4.2. Discussion des résultats obtenus Dans ce qui suit, nous allons montrer les améliorations apportées par le système AXON mais aussi les insuffisances détectées sur différents plans. Impact de l’expansion de requêtes sur la précision moyenne : Nous avons utilisé huit requêtes de plus de trois termes. Malgré la longueur des requêtes et malgré que deux requêtes n’ont pas donné des documents pertinents, le système AXON a permis d’améliorer la précision moyenne P10 de 10,2% ainsi que la précision moyenne P20 de 8%. En l’occurrence, plus le nombre de documents s’accroît, plus le nombre de documents non pertinents augmente et plus le bruit augmente, ce qui témoigne la dégradation de l’apport de l’expansion de requêtes de 10,2 % à P10 à 8% à P20. Toutefois, cette baisse n’est pas considérable.

Impact de la personnalisation de requêtes sur la précision moyenne : la personnalisation (intégration du profil dans l’expansion) a permis une amélioration moyenne de 20,94 % de la précision P20 avant expansion et une amélioration de 11,34 % de la précision P20 après expansion (figure 2).

Mesure de la qualité de classement d’AXON :Nous avons calculé la MAP5 pour les cinq premiers documents qui vaut 0.33 avant l’expansion et 0.53 après l’expansion ce qui témoigne de résultats promoteurs. La MAP10 s’est améliorée aussi de 0.43 avant expansion à 0.53 après expansion. Alors que la MAP15 s’est améliorée de 0.49 avant expansion à 0.57 après expansion. D’où AXON permet un pourcentage moyen d’amélioration de la MAP de 8,08 %.

Impact des relations sémantiques sur l’expansion de requêtes :Nous avons remarqué que, d’après l’évaluation effectuée, la relation d’hyperonymie dégrade les performances de l’expansion de requêtes soit la précision moyenne se dégrade de 0.45 avant expansion à 0.41 après expansion. Ceci est prévu puisque l’hyperonymie ajoute des concepts de généralisation

47

aux requêtes ce qui augmente le bruit. Néanmoins, la même évaluation a prouvé que la relation de synonymie améliore légèrement les résultats soit la précision moyenne s’est améliorée de 0.3 avant expansion à 0.33 après expansion. Enfin, nous avons remarqué que la combinaison de ces relations ensemble (la synonymie, l’hyperonymie et hyponymie) présente un apport considérable dans les résultats de recherches soit la précision moyenne s’est améliorée de 0.28 avant expansion à 0.44 après expansion.

5. Conclusion et perspectives Dans cet article, nous avons présenté une méthode d’expansion de requêtes en langue arabe basée sur l’utilisation conjointe des ontologies et du profil d’utilisateur basé sur les ontologies. Cette méthode a été implémentée et expérimentée. Les résultats de cette évaluation sont promoteurs. En effet, parmi les 150 requêtes utilisées avec 50 utilisateurs, 20 requêtes ont subi une dégradation, les autres requêtes (c’est-à-dire 130 requêtes) voient leurs performances améliorées. Ainsi, la personnalisation a permis une amélioration moyenne de 20,94 % de la précision P20 avant expansion et une amélioration de 11,34 % de la précision P20 après expansion. Néanmoins, le système AXON, dans son état actuel, présente quelques insuffisances. En effet, l’analyseur morphologique Al Khalil, malgré qu’il ait prouvé sa performance, ne permet pas de transformer le pluriel au singulier.

Comme perspectives, nous envisageons implémenter les différentes étapes 4, 5 et 6 au sein d’un système de RIP dans des textes arabes. Enfin, nous envisageons évaluer le système de RIP sur un large corpus collecté à partir de Wikipédia (soit 65000 articles en Arabe). La description de ce corpus va être l’objet d’autres futurs travaux.

Références Abderrahim M-A. 2013. Utilisation des ressources externes pour la reformulation des requêtes dans un système

de recherche d’information. The Prague Bulletin of Mathematical Linguistics, PBML (99):87–99.

Bouzeghoub M. et Kostadinov D. 2005. Personnalisation de l'information : Aperçu de l'état de l'art et définition d'un modèle flexible de définition de profils. In Actes de CORIA’2005, Grenoble, France : 201-218.

Challam V., Gauch S. et Chandramouli A. 2007. Contextual search using ontology-based user profiles.Actes de la Conférence RIAO’2007 (Conference Adaptivity, Personalization and Fusion of Heterogeneous Information), Pittsburgh PA, U.S.A.

Dumais S., Cuttrel E., Cadiz J., Jancke G., Sarin R. et Robbins D. 2003. Stuff i've seen: a system for a personal information retrieval and re-use. Actes de la Conférence ACM SIGIR’2003 (the 26th Annual International Conference on Research and Development), Toronto, Canada :72-79.

Gomez V. Enrichissement de Requêtes et Visualisation Sémantique dans une Coopération de Systèmes d'Information : Méthodes et Outils d'Aide à la Recherche d'Information. Thèse de doctorat, Université de Bourgogne, France, 2010.

Gowan J. A multiple model approach to personalised information access. Thèse de doctorat, Faculté de science, Université de College Dublin, Belfield, Dublin 4, Ireland, 2003.

Hanandeh E. 2013. Building an automatic thesaurus to enhance information retrieval, International Journal of Computer Science Issues, 10 (3): 676-686.

Jayanthi J. et Rathi DR.S. 2014. Personalized web search methods – A complete review, Journal of Theoretical and Applied Information Technology (JATIT), 30 Avril 2014, 62(3): 685-697.

Koutrika G. et Ioannidis Y. 2005. A unified user profile framework for query disambiguation and personalization.In Proceedings of Workshop on New Technologies for Personalized Information Access.

Lin C., Xue G.R., Zeng H.G., YU Y. 2005. Using Probabilistic Latent Semantic Analysis for Personalized Web Search. In Proceedings of the 7th APWeb Conference (Asia-Pacific Web Conference), pages 707-717. Springer-Verlag, Shanghai, China.

48

Safi H. 2014. AXON : Un Système de RI Personnalisée dans des Textes Arabes basée sur le profil utilisateur et l'expansion de requêtes. Actes de la Conférence en Recherche d’Information et Applications CORIA-CIFED 2014, Nancy, 18-21 mars :379-382.

Tamine L., Boughanem M., et Zemirli N. 2008. Personalized document ranking : exploiting evidence from multiple user interests for profiling and retrieval. Journal of Digital Information Management, October 2008, 6(5): 354-365.

49

Construction d’un Wordnet standard pour l’Arabe tunisien

Nadia Karmani Ben moussa1, Adel M. Alimi2 (1) [email protected]: REsearch Groups on Intelligent Machines

University of Sfax, National Engineering School of Sfax (ENIS) BP 1173, Sfax, 3038, Tunisia

(2) [email protected] REGIM: REsearch Groups on Intelligent Machines University of Sfax, National Engineering School of Sfax (ENIS)

BP 1173, Sfax, 3038, Tunisia

RÉSUMÉ.De nos jours, la Tunisie fait face à plusieurs problèmes dans le domaine politique, économique, financier et social depuis la révolution en 2011. Cette situation critique est profondément influencée par la communication informelle sur Internet comme les réseaux sociaux, les blogs, etc. Cette dernière se distingue par un usage intensif de l’Arabe tunisien codé aeb. Cependant, les ressources électroniques existantes pour l’Arabe tunisien, plus particulièrement les lexiques sont limitées en nombre et en potentiel. En effet, l’Arabe tunisien souffre principalement du manque de ressources écrites, ce qui entrave la construction des lexiques. A cet effet, certains travaux se sont orientés vers l’extraction du lexique arabe tunisien à partir de celui arabe. Mais, cette solution permet une couverture partielle de l’Arabe tunisien riche en mots empruntés. D’autres travaux proposent le Web comme ressource pour la construction du lexique arabe tunisien. Cette proposition converge vers un lexique de faible performance, nécessitant une intervention linguistique sérieuse pour la vérification, la correction et la validation. Dans ce cadre, nous proposons de construire un Wordnet standard, large et robuste. Il s’agit d’un Wordnet pour l’Arabe tunisien modélisé conformément à l’ISO LMF (ISO 24613, 2008) à partir du dictionnaire bilingue Anglais-Arabe tunisien " Peace corps dictionnary " établi par les linguistes Ben abdelkader, Ayed et Naouar (1977) et de la dernière version de Princeton Wordnet PWN 3.1 par l’approche de traduction utilisé pour le développement de EuroWordnet (Vossen, 1998).

ABSTRACT.Nowadays, Tunisia faces many problems in politic, economic, financial and social fields since the revolution in 2011. The critical situation of the country is deeply influenced by informal Internet communication such as social networks, blogs, etc. This communication, very important in Tunisian context, is characterized by the increasing use of aeb language. However, limited electronic resources exists for aeb language due to the lack of written resources. In this case, some existing resources are based on Arabic resources. That contributes in covering only Tunisian Arabic lexicon extracted from Arabic language. Other resources are based on the Web witch generates a few performant lexicon needing a rigorous linguistic verification, correction and validation. In this context, we suggest building a standard, large and performant Wordnet for Tunisian Arabic. Our Wordnet is modelized according ISO-LMF (ISO 24613, 2008) and built by the expand approche used for EuroWordnet building (Vossen, 1998) based on the bilingual English-Arabic Tunisian dictionary "Peace corps dictionary" prepared by the linguists : Ben abdelkader, Ayed et Naouar (1977), and the last version of Princeton Wodnet PWN 3.1.

MOTS-CLÉS : Wordnet, Arabe tunisien, ISO-LMF, lexique, Base de données sémantique

KEYWORDS: Wordnet, aeb language, ISO LMF, Lexicon, semantic data base

1. Introduction Wordnet représente une base lexicale et sémantique construite au début pour la langue Anglaise (Miller, 1995). De nos jours, plusieurs Wordnet existent pour d’autres langues comme le Français, l’Allemand, l’Arabe avec Arabic Wordnet AWN (Ekateb et al., 2006) et même pour des dialectes arabes comme l’Arabe iraqien (Cavalli-Sforza et al., 2013) et

mailto:[email protected]:


50

l’Arabe tunisien avec aeb Wordnet (Karmani ben moussa et al, 2014) et TunDiaWN (Bouchlaghem et al. ,2014). Jusqu’à ce jour, une centaine de Wordnets existent partageant les mêmes concepts de base (i.e. mot, verbe, nom, adjective, adverbe, Synset, etc.) et la même organisation (i.e. ensemble de synonymes désignant un même concept regroupés en un même Synset) (Miller, 1995) mais chacun possède son propre modèle de représentation. L’usage d’un modèle commun et standard pour les Wordnets est trés important vu que d’une part il facilite l’interopérabilité1 entre eux et permet ainsi de réunir plusieurs langues et dialectes en un même lexique et d’une autre part il permet de propager l’interopérabilité sur d’autres lexiques standard. Certain efforts ont été réalisés dans ce cadre à travers le projet Knowledge-Yielding Ontologies for Transition-Based Organization KYOTO pour proposer un modèle standard nommé Wordnet-LMF pour sept langues: Anglais,Néerlandais, Italien, Basque, Espagnole, Chinois et Japonais (Soria and Monachini, 2008). C’est un modèle basé sur la norme ISO 24613 Lexical Markup Framework LMF. D’autres efforts de standardisation ont été réalisés pour adapter des Wordnets existants à Wordnet-LMF comme celui de Henrich and Henrich (2010) pour GermaNet. Cependant, aucun effort de standardisation n’a été réalisé dans le cadre de Wordnet arabe tunisien. Dans le contexte Arabe tunisien, la construction et la standardisation d’un Wordnet fait face à plusieurs défis dus principalement au manque de ressources et aux spécificités linguistiques de l’Arabe tunisien. En effet, l’Arabe tunisien est une langue parlée, ce qui explique le manque de ressources écrites qui se limitent à des écrits folkloriques (poème, chansons, etc), le Web (réseaux sociaux, blogs, etc), certains articles de journaux, un dictionnaire bilingue "Peace corps dictionary" (Ben abdelkader et al., 1977), etc. Il se distingue aussi par ses propriétés de transcription dont : l’usage de six variations, le script tantôt arabe tantôt latin et l’absence de standard et ses propriétés sémitiques comme la dérivation et l’inflexion ainsi que la richesse de son lexique par les mots empruntés à d’autres langues comme le Turc, l'Italien, l'Espagnol et le Français (Talmoudi, 1986). Ces challenges expliquent l’existence limitée de lexiques électroniques arabes tunisiens. Certains sont basés sur l’Arabe, ce qui permet une couverture partielle du lexique arabe tunisien comme celui de Zribi et al. (2013)et celui de Boujelbane (2013). D’autres se basent sur des Web comme le wordnet TunDiaWN de Bouchlaghem et al. (2014) qui est en cours de développement. Ce qui génère un lexique nécessitant une validation linguistique rigoureuse. Tandis que d’autres se limitent à un domaine particulier comme l’ontologie de voie ferré construite par Graja et al.(2011) se basant sur 760 mots sélectionnés d’un corpus de paroles arabe tunisien Tunisian Dialect Corpus Interlocutor TuDiCoI. Dans ce papier, nous présentons un Wordnet standard de l’Arabe tunisien. Nous commençons par la définition de son modèle standard respectant les spécificités linguistiques de l’Arabe tunisien. Puis, nous détaillons son approche de construction en passant par la construction du lexique de base, le lexique dérivationnel et le lexique à base de corpus et par la création de Synsets tout en présentant l’état d’avancement du travail. Enfin, nous récapitulons et nous proposons des extensions.

2. Modèle Wordnet-LMF étendu pour l’Arabe Tunisien

Le modèle Wodnet-LMF ne s’adapte pas correctement à l’Arabe tunisien puisqu’il a été préparé pour sept langues trés différentes. En effet, l’Arabe tunisien est une langue courament parlée avec six variations illustrées dans le tableau 1.

1C’est une notion transversale qui permet à divers outils de pouvoir communiquer ou fonctionner ensemble (Wikipédia).

51

Variations de l’Arabe tunisien

Tunis Sahel Sfax Nord occidental Sud occidental Sud oriental

ي آنا نا نا آنا آن ي أ ن أ

Tableau 1. Variation du pronom personnel [آنا/ʔa:na:/2] "Je" C’est aussi un dialecte arabe issu de la famille des langues sémitiques connues par le phénomène de dérivation et celui d’inflexion. Ce qui est remarquable, c’est que pour l’Arabe tunisien la dérivation touche aussi bien les mots d’origine arabe que certains empruntés (Mejri et al., 2009). E.g. la dérivation du mot [شرب/ʃrb/] "boire" d’origine arabe et celle du mot faire une fausse copie" emprunté à la langue française sont illustrés respectivement"[/ʃsk/فسك]par le tableau 2 et le tableau 3.

Tableau 2. Dérivation directe de la racine arabe [شرب/ʃrb/] "boire" (Mejri et al., 2009)

Racine empruntée [فسك/ʃsk/] du mot français [ پيفوسكو / fu:scopi:/] "fausse copie" Patient Prédicatif Agent

ي ھ /:mafaski/مفسك سكی /faska:j/فسكاي /tfaskija/تف

Tableau 3. Dérivation de la racine empruntée [فسك/ʃsk/]"faire une fausse copie" En ce qui concerne l’inflexion (i.e. verbale c’est à dire la conjugaison et nominale qui désigne l’ajout d’affixes de genre et de nombre), elle aussi touche les mots d’origine arabe et parfois ceux empruntés e.g. l’inflexion du mot [ تھم /thim/] "Accuser" d’origine arabe et celle du mot وس ] ط qatˁtˁu:s/]3"Chat" emprunté au Latin sont illustrées respectivement par le tableau 4 et le/قtableau 5.

Future Présent Passée Actif Future Présent Passée Passif

اش تھم ن ب ش / تھم ن ب ت تھم ا ن اش ا تت ب تھم ن ش / تت ب تھم ن ت تھم ت ا ن ا

اش وتھم ن ب ش / وتھم ن ب ناتھم ا حن اش أ ت ب ھم ن وت ش / ت ب ھم ن وت ناتھم ت ا حن أ

اش تھمت ب ش / تھم ت ب ت تھم نت اش إ ت ب تھم ت ش / ت ب تھم ت ت تھم ت نت إ

اش وتھم ت ب ش / وتھم ت ب وتھم ت نتوما اش إ ت ب ھم ت وت ش / ت ب ھم ت وت وتھم ت ت نتوما إ

اش ب تھم ی ش / ب تھم ی تھم اش ھو ت ب ھم ی ت ش / ت ب ھم ی ت تھم ت ھو

اش تھم ت ب ش / تھم ت ب ھم ت ت اش ھي ت ب ھم ت ت ش / ت ب ھم ت ت ھم ت ت ت ھي

شی وتھم ب وتھم ی ھم وت اش ھوما ت ب ھم ی وت ش / ت ب ھم ی وت ھم ت وت ھوما

نتوما نت إ Impératif إ

ھم إ وت ھم إ ت

Tableau 4. Inflexion lexicale du verbe [ تھم /thim/] "Accuser"

2Il s’agit de la transcription selon l’alphabet phonétique international API. 3Mot emprunté au mot Latin "cattus".

Racine d’origine arabe [شرب/ʃrab/] Patient Prédicatif Superlatif Locatif Agent

مشروب /maʃru:b/ شرب/ʃurb/ یب مشرب /ʃirri:b/شر /maʃrab/ شارب /ʃa:rib/

52

Masculin Féminin

Singulier وس ط وس ق ط ھق

Pluriel طس اقط وس ط ات ق

Tableau 5. Inflexion lexicale du nom [ وس ط "qatˁtˁu:s/] "Chat/ق

Ce qui est aussi spécifique à l’Arbe tunisien est l’absence d’une transcription standard (i.e. l’Arabe tunisien n’est pas enseigné). Ce qui permet la rédaction d’un même mot avec différents lemmes comme le montre la figure 1 et avec différents scripts (i.e. script arabe et script latin) e.g. Le mot[ ع توق ]anticiper" peut être transcrit comme" [إ توق ع إ ] ou [etwa99a3].

Figure 1. Les lemmes du mot[ ع توق "ʔitwaqqaʔˤ/] "anticiper/إ

Pour adapter Wordnet-LMF aux caractéristiques de l’Arabe tunisien précédement détaillées, nous proposons d’ajouter l’élément ISO-LMF "FormRepresentation" pour exprimer la phonétique (i.e. selon l’API), l’élément ISO-LMF "WordForm" pour décrire le phénomène de dérivation et celui d’inflexion, les attributs ISO-LMF "Script" et "orthographyName" à l’élément "Lemma" de Wordnet-LMF pour distinguer le script utilisé et de remplacer la cardinalité "1,1" entre les éléments de Wodnet-LMF : "LexicalEntry" et "Lemma", par "1..*" pour instancier plusieurs lemmes pour une même entrée lexicale. Ces modifications aboutissent au modèle Wordnet-LMF étendu illustré par la figure 2.

Figure 2. Modèle Wordnet-LMF étendu pour l’Arabe tunisien.

53

3. Approche de construction

Notre Wordnet à savoir aeb Wordnet se compose par un lexique et un ensemble de Synsets. Pour la construction du lexique, nous avons tout d’abord recueilli manuellement le lexique disponible dans le dictionnaire bilingue "Peace corps dictionary" que nous considérons comme lexique de base à enrichir principalement par un lexique de dérivation et un lexique à base de corpus. Tandis que, pour la création des Synsets, nous avons utilisé l’approche par traduction (Vossen, 1998) utilisée pour EuroWordnet. 3.1.Construction du lexique

Le lexique de aeb Wordnet détaillé dans le tableau 6 se compose de trois principaux sous lexiques comme le montre la figure 3: Le lexique de base, le lexique dérivationel et le lexique à base de corpus.

Lemme Synset Paires mot-sense

Nom 3,833 215 561

Verbe 2,833 1,284 11,052

Adjective 1,293 538 1,300

Adverbe 496 334 120

Totals 8,455 2,371 13,033

Tableau 6. Statistiques globales du lexique de aeb Wordnet

Figure 3. Structure du lexique

de aeb Wordnet.

3.1.1. Lexique de base

A partir du dictionnaire bilingue "Peace corps dictionary" comptant 6000 mots arabes tunisiens, nous avons implémenté manuellement le modèle Wordnet-LMF étendu au format XML4. En effet, la version disponible du dictionnaire est une vesion scannée rédigée à la main de qualité acceptable. Ainsi, l’extraction automatique des mots est difficile. Par consequent, nous l’avons établi manuellement pour avoir un lexique de base performant qui est décrit par les statistiques dans le tableau 7.

Lemme Inflexion

Nom 1,559 7,469

Verbe 2,501

Adjective 592

Adverbe 495

Totals 5,147

Tableau 7. Statistiques du lexique de base de aeb Wordnet

4XML est un langage de balisage qui définit un ensemble de règles de codage pour des documents dans un format qui est lisible à la fois par l'homme et par la machine (Wikipedia).

54

3.1.2. Lexique dérivationnel Comme toutes les autres langues sémitiques, l’Arabe tunisien est une langue dérivationnelle. La majorité des mots d’origine arabe et parfois ceux empruntés peuvent être décrits par une racine et un schème comme le montre le tableau 6. La dérivation dans l’Arabe tunisien possède des schèmes réguliers comme [ مفعل /mafʔˤal/], [ عل ف /fʔˤul/], [ یل ع ] ,[/fiʔˤʔˤi:l/فمفعل /mafʔˤal/], [ اعل ,fa:ʔˤ il/] exprimant respectivement le patient, le prédicatif, le superlatif/ فle locatif et l’agent. Nous proposons de profiter de cette caractéristique pour enrichir notre corpus de base en dérivant automatiquement les racines identifiées dans le lexique de base pour repérer des mots absent dans notre Wordnet. Cette dérivation automatique nous a permis jusqu’à maintenant de construire le lexique détaillé dans le tableau 8 qui est validé par un locuteur natif de l’Arabe tunisien.

Lemme Inflexion

Nom 2,274 4,619

Verbe 333

Adjective 700

Adverbe 1

Totals 3,308

Tableau 8. Statistiques du lexique dérivationel de aeb Wordnet

3.1.3. Lexique à base de corpus

Plusieurs travaux ont été réalisés suite à la révolution politique en Tunisie pour créer des corpus arabes tunisiens. Le tableau 9 illustre les principaux corpus établis.

Corpus Créateur(s) Date Disponibilité Potentiel Lien Internet

Tunisiya.org Karen McNeil and Miled Faiza

2011 Gratuit, consultable enligne

818,310 mots http://www.tunisiya.org/

Train railway line ontology

Graja et al. 2011 - 760 mots -

STAC corpus Zribi et al. 2013 - 27,144 mots -

Tunisian dialect corpora (TD) corpora

Boujelbane et al. 2013 - En cours de construction

-

TunDiaWN Bouchlagem et al.

2014 - En cours de construction

-

Tableau 9.Corpus arabes tunisiens

Nous proposons d’utiliser le corpus Tunisiya.org pour enrichir notre lexique vu son potentiel et sa disponibilité. Cependant, nous rençontrons plusieurs challenges dont l’absence de diacritisation dans ce corpus et sa disponibilité uniquement en ligne, ce qui rend le travail pénible. En ce moment le lexique à base du corpus Tunisiya.org est en cours de construction.

http://www.tunisiya.org/

55

3.2. Création de Synsets Notre Wordnet ne se limite pas au lexique, il intègre aussi l’axe sémantique à travers les synsets. Ces derniers sont crées par l’approche de traduction basée sur le dictionnaire Anglais-Arabe tunisien "Peace corps dictionary" et PWN3.1. L’approche par traduction est la plus utilisée pour la construction des Wordnet vu sa simplicité, sa rapidité et la disponibilité de PWN. Elle consiste à projeter les synsets de PWN sur la langue cible par traduction.

Dans notre contexte, nous distinguons deux cas de traduction: traduction monosémique et traduction plysémique.

Figure 4. traduction monosémique

Figure 5. Traduction plysémique

Dans le premier cas, la traduction t = (weng, waeb) génère une entrée lexicale laeb pour waeb considérée comme un lemme et un ensemble de synsets S’aeb comme le montre la figure 4. S’aeb={s (L’aeb, R)} (i.e. R désigne l’ensemble de relations entre synsets) est équivalent à S’pwn={s (L’pwn, R)} i.e. les synsets de weng dans PWN et L’aeb sont obtenus par la traduction des mots dans L’pwn avec le dictionnaire bilingues "Peace corps dictionary".E.g. La traduction t1= {("anticipate", " ع توق .génère l’entrée lexicale laeb avec six senses (i.e {("إéquivalents aux senses du mot anglais "anticipate"):

<LexicalEntry id=" ع توق <"إ… <Sense id=" ع توق 1_إ " synset="aeb-10-00721658-v"> <Meta author="Karmani Nadia" date="2013-09-03" source="PWN3.1" status="EMPTY"/> <MonolingualExternalRefs> <monolingualExternalRef externalSystem="WordNet 3.1" externalReference="eng-31-00721658-v" /> </MonolingualExternalRefs> </Sense> … <Sense id=" ع توق 6_إ " synset="aeb-10-00343295-v"> <Meta author="Karmani Nadia" date="2013-09-03" source="PWN3.1" status="EMPTY"/> <MonolingualExternalRefs> <monolingualExternalRef externalSystem="WordNet 3.1" externalReference="eng-31-00343295-v" /> </MonolingualExternalRefs> </Sense> </LexicalEntry> Elle permet aussi de créer six synsets dans S’aeb={aeb-10-00721658-v, aeb-10-02571406-v, aeb-10-00722732-v, aeb-10-00919743-v, aeb-10-01808928-v, aeb-10-00343295-v}. Le synset saeb-10-00721658-v est décrit comme suit:

56

<Synset id="aeb-10-00721658-v" baseConcept="1"> <Meta author="Karmani Nadia" date="2013-09-03" source="PWN3.1" status="EMPTY"/> <Definition gloss=" ر ح عتب اجھ ممكنھ إ " ><Statement example=" عام صابھ توقعو ال حھ ی ال ف ال "/></Definition> <SynsetRelations> <synsetRelation target="aeb-10-00672179-v" relType="has-hypernym"><Meta author="Karmani Nadia" date="2013-09-03" source="PWN3.1" status="EMPTY"/> </synsetRelation> … </SynsetRelations> <MonolingualExternalRefs> <monolingualExternalRef externalSystem="WordNet3.1" externalReference="eng-31-00721658-v" /> </MonolingualExternalRefs> </Synset>

Dans le deuxième cas, la traduction t= {(weng, w1aeb), …, {(weng, wnaeb)} décrite dans la Figure 5 génère un ensemble d’entrées lexicales L’aeb (i.e. L’aeb = {l1aeb, …, lnaeb } /l1aeb etlnaeb ont respectivement w1aeb et wnaeb comme lemmes) et un ensemble de synsets S’aeb= {s (L’aeb, R)} équivalent à S’pwn={s (L’pwn, R)}. L’ensemble de synsets S’aeb inclut les synsets de L’ ={ l1aeb , … , lnaeb}/ S’aeb= S’l1 aeb (S’l2 aeb – S’l1 aeb S’l2 aeb) … (S’lnaeb -S’ln-1aebS’lnaeb) e.g. la traduction t2={("work", " خدم"), ("work"," م م ","خدم "}=génère L’aeb {("خد -composé de deux entrées lexicales et S’={aeb {"خد10-02418610-v, aeb-10-02415985-v, aeb-10-02531113-v, aeb-10-01528454-v, aeb-10-02449024-v , aeb-10-00100305-v, aeb-10-02413117-v , aeb-10-02441810-v, aeb-10-02121463-v, etc} comme le montre la Figure 6.

Figure 6. Distribution des synsets entre les entrées lexicales de t2

La generation des synsets de aeb Wordnet est en cours. Elle a abouti jusqu’à maintenant à 2,371 synsets.

4. Conclusion Dans ce papier, nous proposons un Wordnet standard pour l’Arabe tunisien et plus précisement pour la variation de Tunis. Il s’agit d’un Wordnet performant dont le lexique de base a été préparé par des linguistes, précis puisque ses entrées lexicales sont totalement diacritisées et trés riche étant donnée qu’il intègre aussi bien les mots d’origine arabe que ceux empruntés. Ce Wordnet se distingue aussi par la prise en charge de la phonétique. Il atteind aujourd’huit avec son lexique courant un potentiel de 8,455 lemmes (i.e. soit 72,76 %

57

du potentiel de AWN (Abouenour et al., 2013) et 5,4% du potentiel de PWN ) qui est d’une part respectable pour une langue en vertu de ressources et d’autre part en cours d’extension.

Dans son état courant notre Wordnet couvre seulement la variation de Tunis. Cependant l’Arabe tunisien possède cinq autre variations. Comme extension de notre travail, nous proposons d’intégrer les autres variations en profitant des ressources écrites comme "The Arabic Dialect of Sûsa" (Talmoudi, 1986) et des ressources médiatiques comme la radio.

Acknowledgments

This work is supported by the General Direction of Scientific Research (DGRST), Tunisia, under the ARUB program.

Références Lahsen Abouenour, Karim Bouzoubaa and Paolo Rosso. 2013. On the evaluation and improvement of arabic

wordnet coverage and usability. Language Resources and Evaluation. 47(3):891- 917. doi:10.1007/s10579-013-9237-0.

Claudia Soria and Monica Monachini. 2008. Kyoto-LMF wordnet representation format. KYOTO Working Paper WP02_TR002_V4_Kyoto_LMF.

Fathi Talmoudi, The Arabic Dialect of Sûsa (Tunisia), éd. Acta Universitatis Gothoburgensis, Göteborg, 1986.

George A. Miller. 1995. WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.

Ines Zribi, Mariem Ellouze Khemekhem and Lamia Hadrich Belguith. 2013. Morphological Analysis of Tunisian dialect. In proceeding of the International Joint Conference on Natural Language Processing, Nagoya, Japan: 992–996.

ISO 24613. 2008. Language Resource Management – Lexical Markup Framework. ISO. Geneva.

Karen McNeil and Miled Faiza. 2011. Tunisian Arabic Corpus: Creating a written corpus of an “unwritten” language. Workshop on Arabic Corpus Linguistics 11-12th April 2011. Lancaster University, UK.

Marwa Graja, Maher Jaoua and Lamia Hadrich Belguith. 2011. Building ontologies to understand spoken Tunisian dialect. International Journal of Computer Science, Engineering and Applications (IJCSEA) Vol.1, No.4.

Nadia B.M. Karmani, Hsan Soussou and Adel M. Alimi. 2014. Building a standardized Wordnet in the ISO LMF for aeb language. In Proceedings of Global Wordnet Conference GWC 2014, Tartu, Estonia.

Piek Vossen. 1998. EUROWORDNET a database with lexical semantic networks. ISBN 0-7923-5295-5.Kluer Academic Publishers.

Rached Ben abdelkader, Abdeljelil Ayed and Aziza Naouar.1977.Peace corps English-Tunisian Arabic dictionary.Peace corps, Washington, D.C.

Rahma Boujelbane. 2013. Génération de corpus en dialecte tunisien pour l’adaptation de modèles de language. TALN-Récital, 17- 21 Juin, les sables d’olonne, France.

Rihab Bouchlaghem , Aymen Elkhlifi and Rim Faiz. 2014. Tunisian dialect Wordnet creation and enrichment using web resources and other Wordnets, Arabic Natural Language Processing Workshop co-located with EMNLP 2014, Doha, Qatar.

Sabri Elkateb, William Black, Horacio Rodriguez, Musa Alkhalifa, Piek Vossen, Adam Pease. and Christiane Fellbaum. 2006. Building a WordNet for Arabic, Proceedings of the Fifth InternationalConference on Language Resources and Evaluation, Genoa, Italy.

Salah Mejri, Mosbah Said and Ines Sfar. 2009. Pluringuisme et diglossie en Tunisie. Synergies Tunisie n° 1. pp 53–74.

Violetta Cavalli-Sforza, Hind Saddiki, Karim Bouzoubaa, Lahsen Abouenour, Mohamed Maamouri and Emily Goshey. 2013. Bootstrapping a WordNet for an Arabic dialect from other WordNets and dictionary

58

resources. In Proceedings of the 10th IEEE International Conference on Computer Systems and Applications, Fes/Ifrane, Morocco.

Verena Henrich and Erhard Hinrichs. 2010. Standardizing Wordnets in the ISO Standard LMF: Wordnet-LMF for GermaNet, COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics.

59

Patents editor in order to automatically construct terminological databases

Chihebeddine Ammar — Kais Haddar

Laboratoire MIRACL, Université de Sfax, Pôle technologique de Sfax : Route de Tunis Km

10 B.P. 242, 3021 Sfax [email protected], [email protected]

RÉSUMÉ.Les demandes de brevet ont une structure similaire dans le monde entier. Elles comprennent une page de couverture, un mémoire descriptif, des revendications, des dessins (si nécessaire) et un abrégé. Au monde Arabe, il n’y a pas de collection numérique uniforme de document de brevets et donc pas de collection XML. Dans ce contexte, nous présentons la création d’un modèle de document de brevet standard pour les brevets Arabes et le développement d’un générateur de collection XML de brevets ayant une structure uniforme est simple à utiliser. Cette collection va nous être utile pour la construction d’une base de données terminologique pour les domaines scientifiques et techniques.

ABSTRACT.Patent applications are similarly structured worldwide. They consist of a cover page, a specification, claims, drawings (if necessary) and an abstract. In the Arabic world, there is no uniform digital collection of patent documents and therefore no XML collections. In this context, we aim to create a standardized document model for Arabic scientific patents and develop a generator of XML patent collection having a uniform and easy to use structure. This collection will be useful for us to build a terminological database for scientific and technical fields.

MOTS-CLÉS : Normalisation, modèle de document de brevets, Bases de données terminologique.

KEYWORDS: Normalization, Document patent model, Terminological databases.

1. Introduction One of the very rich in terminology work streams are the scientific patents. They are similar, for example, to a scale repository. They also cover several scientific and technical fields, while offering rich interdisciplinary relations. That is why we will need several terminological databases, one for each field.

Indeed, standardized modeling patent allows us to maintain a standard for the representation of texts in digital form, so that we protect patents data by bringing them in digital databases. It will provide a single common data model for all terminological data regardless of the data's language, source, field, etc. Also, we will be able to build collections of uniform patents which facilitate the extraction and the exploitation of patents data and the extraction of links between valid terms. Standardized modeling patent ensure also interoperability between applications. Finally, it will allow us to easily enrich other terminological databases. Patent information, in the Arabic world, remains almost the preserve of patent agents or lawyers versed in research needed to be done before any patent application filing or preparation a lawsuit. That’s why, the development of computerized databases on patents, will open access to all categories of users: businessmen, economists, researchers, etc., and make them aware of the potential value of the information that patents contain.

Patents are available in different formats: Full text, PDF document, set of images, XML, etc. They have heterogeneous components that require different modeling. Also, patents have



60

linguistic structures like text and titles, and nonlinguistic structures like figures, citations, tables and formulas. In fields such as mechanics, automatic extraction based only on the text will fail.

In addition to the text, figures and citations information, all patent publications contain a relatively rich set of well-defined metadata. These metadata are often found in the cover page of patents and titles of figures and tables. To cope with the large volume of data and metadata, we will develop a patents terminological editor to generate terminological databases. This will allow us to develop heuristics, based on metadata such as the applicant(s) name(s), the inventor(s) name(s) or priority documents, etc., for finding interesting documents.

The structure of the XML documents may be used for the processing performed to differentiate various elements according to their semantic. Thus, a section title, a summary, bibliographic data, or examples can be used to identify different aspects of the text. Indeed, scientific patents can be easily processed as XML documents. So we can treat their structures1 as a source of information. The work presented in this paper is the continuation of studies (Ammar et al., 2014) on the standardization for Arabic patents. We propose a standardized model for Arabic patents and create a patents editor in order to generate a patent collection having similar structure. It is an original idea because nobody treated terminology in Arabic patents in previous works. This article is organized as follows. In section 2, we present previous works. We present, in section 3, our Arabic standard patent document editor. Section 4 is devoted to the evaluation and discussion and we conclude and enunciate some perspectives in section 5.

2. Previous works Previous works on patents (Lopez and Romary, 2009; Lopez and Romary, 2010b; Magdy et al., 2009) were mainly based on purely statistical approaches. They used standard techniques of information retrieval and data extraction.

Some of the previous works use machine learning tools to extract header metadata from patents using support vector machines (SVM) (Do et al., 2013), hidden Markov models (HMM) (Binge, 2009),or conditional random fields (CRF) (Lopez, 2009). Others use machine learning tools to extract metadata ofcitations (Hetzner, 2008), tables (Liu et al., 2010), figures (Choudhury et al., 2013) or to identify concepts (Rao et al., 2013). All these approaches rely onprevious training and natural language processing.

In (Lopez et al., 2010a), the authors developed multilingual terminological database called GRISP covering multiple technical and scientific fields from various open resources.

The European Patent Office, EPO2, offers inventors a uniform procedure of application, and a register of multilingual patents (English, French, and German).

The MAREC (MAtrixware REsearch Collection) database is formed of patent documents from the European Patent Office. It is a standard corpus of patent data available for research purposes. It consists of 19 million of patent documents in different languages (English, French, and German) in a standardized XML schema highly specialized.

The ePCT3 is a WIPO (World Intellectual Property Office) online service that provides secure electronic access to the files of international applications filed under the international patent 1Remind that an XML document is structured as a tree consisting of hierarchical elements which may have one or more attributes, the leaf nodes have information. 2EPO: European Patent Office, http://www.epo.org/ 3https://pct.wipo.int/LoginForms/epct.jsp

http://www.epo.org/

https://pct.wipo.int/LoginForms/epct.jsp

61

system as maintained by the International Office. It is also possible to file international applications using ePCT-Filing. In the literature, works on Arabic patents are missing. This is caused by the fact that in the Arabic world, there is no North African or Arabian Intellectual Property Office and therefore no uniform collections of Arabic patents. In Tunisia, for example, the INNORPI4 (National Institute for Standardization and Industrial Property) does not propose a digital collection of patent documents and therefore no XML collections. As a result, Arabic patents have no unique structure. For the Tunisian patents, as illustrated in Table 1, the cover page doesn't have abstracts and patent documents could be in one of the three languages (Arabic, English or French). In the regional office5 for the Gulf Cooperation Council (GCC Patent Office6), there are only Arabic patents and there is an Arabic abstract in the cover page. The layout of the description part varies also from place to place. For example, the summary and the background of the invention could not exist in some patent descriptions. The Tunisian patents themselves have no unique structure in that some of them have no abstract, have missing bibliographic data and even no cover page. For these reasons, a normalization phase for Arabic patents is necessary.

Tunisian patents GCCPO patents

Language Arabic, French,

English Arabic

Digital document No Yes

International patent classification

No Yes

Search report No No

Citations No Yes

International publication

Yes No

Table 1.Comparison between Tunisian and GCCPO Patents.

3. Arabic standard patent document editor Patent applications are similarly structured worldwide. They consist of a cover page, a description, claims (Hong, 2013), drawings (if necessary) and an abstract. The cover page of a published patent document usually contains bibliographic data such as the title of the invention, the filing date, the priority date, the names and addresses of the applicant(s) and the inventor(s). It also has an abstract, which briefly summarizes the invention, and a representative drawing. Bibliographic data are extremely useful for identifying, locating and retrieving patent documents. The patent description must describe the claimed invention and give technical information. The claims determine the patentability and define the scope of the claimed invention.

Patent documents are often difficult to understand and have a variety of structures. So, we propose an Arabic patent document model and develop a patent editor which automatically generates a collection of XML patent documents having a similar structure. It will facilitate the task of terms and keywords extraction.

4INNORPI: National Institute for Standardization and Industrial Property, http://www.innorpi.tn 5Certificates of Patents granted by the GCC Patent Office secure legal protection of the inventor's rights in all Member States. 6GCC Patent Office: Gulf Cooperation Council Patent Office, http://www.gccpo.org/

http://www.innorpi.tn

http://www.gccpo.org/

62

In the following, we will present our UML based patent document model for bibliographic and application data. The structure of the patent can be divided into two parts: bibliographic data taken from the cover page and application data from the rest of the patent document.

Figure 1 shows the class diagram of the patent bibliographic data in which all associations are strong composition associations. It contains Bibliographic Data class which includes the Filing Number and Date, the Publication Date and Language and Classification of the patent. Bibliographic Data object is associated with one or more Title of Invention in different languages, zero or more Priority patent applications, one or more Inventor(s) and Applicant(s), zero or one Representative (agent) and zero or more International Publications (PCT).

Figure 1.The class diagram of patent bibliographic data

The Figure 2 shows the class diagram of the patent application data in which all associations

are also strong composition associations, because, if a composite is removed, all of its component parts will be removed with it. It presents the association of the Invention class with one or more Abstract in different languages, one Claim and Description parts and zero or one Drawing part.

.

63

Figure 2.The class diagram of patent application data.

The two above presented diagrams allow us to introduce a DTD (Document Type Definition) for scientific Arabic patents, as shown on Figure 3. The role of the DTD is to precisely define the unique structure of Arabic patent documents, no matter the patent offices.

<?xml version="1.0" encoding="UTF-8"?> <!ELEMENT Invention (Bibliographic_Data, Description, Claim, Drawing?, Abstract+) > <!ATTLIST Invention ID_Inv CDATA #REQUIRED Inv_Lang (AR|FR|EN) "AR" File CDATA #REQUIRED Country CDATA #REQUIRED Kind CDATA #REQUIRED > <!ELEMENT Bibliographic_Data (Title_Invention+, Priority*, PCT?, Applicant+, Inventor+, Representative?) > <!ATTLIST Bibliographic_Data Num_Filing CDATA #REQUIRED Date_Filing CDATA #REQUIRED Date_Publication CDATA #REQUIRED Pub_Lang (AR|FR|EN) "AR" Classification CDATA #REQUIRED > <!ELEMENT Title_Invention ( #PCDATA ) > <!ATTLIST Title_Invention ID_Tit CDATA #REQUIRED Tit_Lang (AR|FR|EN) "AR" > <!ELEMENT Priority EMPTY > <!ATTLIST Priority Priority_Num CDATA #REQUIRED Priority_Date CDATA #REQUIRED Priority_Country CDATA #REQUIRED >

<!ELEMENT Inventor EMPTY> <!ATTLIST Inventor Name_Inv CDATA #REQUIRED Address_Inv CDATA #REQUIRED > <!ELEMENT Representative EMPTY> <!ATTLIST Representative Name_Rep CDATA #REQUIRED Address_Rep CDATA #REQUIRED > <!ELEMENT Description (P+) > <!ATTLIST Description ID_Desc CDATA #REQUIRED Lang_Desc (AR|FR|EN) "AR" > <!ELEMENT P (#PCDATA|Figure|Table)* > <!ATTLIST P ID_P CDATA #REQUIRED Num_P CDATA #REQUIRED > <!ELEMENT Figure EMPTY > <!ATTLIST Figure ID_F CDATA #REQUIRED Height CDATA #REQUIRED Width CDATA #REQUIRED File_Fig CDATA #REQUIRED Format (jpg|tif) #REQUIRED > <!ELEMENT Table (#PCDATA) > <!ATTLIST Table ID_Tb CDATA #REQUIRED Num_Tb CDATA #REQUIRED > <!ELEMENT Claim (Element+) > <!ELEMENT Element (#PCDATA) > <!ATTLIST Element ID_El CDATA #REQUIRED

64

<!ELEMENT PCT EMPTY> <!ATTLIST PCT Application_Num CDATA #REQUIRED Application_Date CDATA #REQUIRED Publication_Num CDATA #REQUIRED Publication_Date CDATA #REQUIRED > <!ELEMENT Applicant EMPTY> <!ATTLIST Applicant Name_App CDATA #REQUIRED Address_App CDATA #REQUIRED >

Num_El CDATA #REQUIRED > <!ELEMENT Drawing (Figure+) > <!ATTLIST Drawing ID_D CDATA #REQUIRED > <!ELEMENT Abstract (p+) > <!ATTLIST Abstract ID_Ab CDATA #REQUIRED Num_Ab CDATA #REQUIRED >

Figure 3.A DTD for scientific Arabic patents

4. Evaluation and Discussion We did not have a collection of document in digital form because it is not the official in Tunisia for example. So we created our small collection of multilingual patents from various fields using our patents editor. To cope with the large volume of patents data and metadata, we developed a patents terminological editor to generate TMF (ISO 16642:2003 – Terminological Markup Framework) terminological databases. This will enable us to facilitate the extraction and information retrieval tasks from the cover pages (metadata), and the other parts (data) of patents. Our terminological database contains terms of different technical and scientific fields and various patents with different structures. We can distinguish two categories of terms: the scientific and technical terms and the other terms. Scientific and technical terms in their turn were divided according to their technical and scientific fields. The results of our terminological database are presented in Table 2 (only technical and scientific terms are counted). It concerns Tunisian and Gulf Arabic patents and it can be easily merged with other terminological databases. We hope that our terminology database will improve patent search.

Collection Number of patents Number of terms Full text Cover page Abstract

INNORPI 28 236 25 63 GCCPO 30 302 312 96

Table 2.Over view of the number of technical and scientific terms in our terminological database.

5. Conclusion Our main obstacle is that the structure of patents differs from an intellectual property office or institute to another in the Arabic world. The cover page of a Tunisian patent differs from the Egyptian or Moroccan patent cover page. We conducted a standardized modeling for Arabic patents based on the forms of patents published in the Arabic world. It provides us a single common patent document model. We developed a patent document editor to create a collection of Arabic patents having unified structure. In future, we plan to enlarge our patents collection and then our terminological database. We will merge several terminology databases of patents. We aim to better extract information from a collection of multilingual scientific patents and to combine onomasiological and

65

semasiological models. We are also developing a new annotation procedure, to annotate our learning and test collections. We aim also to evaluate the relevance of our terminological database with an information retrieval system for patent documents, and to realize a prior art search for the collection of patents.

Information retrieval technics in multilingual patents are not lacking in previous works, we will test whether the results of this works remain valid if one expands the collection by documents into other languages (Arabic, for example), and if they will be affected by changing the type of the document collection, calculating noise, redundancy, cost, precision, recall, silence, etc.

References Chihebeddine Ammar, Kais Haddar and Laurent Romary. 2014. A standard TMF modeling for Arabic

patents. Terminology and Knowledge Engineering 2014, Jun 2014, Berlin, Germany.

Cui Binge. 2009. Scientific literature metadata extraction based on HMM.Cooperative Design, Visualization, and Engineering.Springer Berlin Heidelberg, 2009.64-68.

Erik Hetzner. 2008. A simple method for citation metadata extraction using hidden markov models. In Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries (JCDL '08). ACM, New York, NY, USA, 280-284.

Huy Hoang Nhat Do, Muthu Kumar Chandrasekaran, Philip S. Cho, and Min-Yen Kan. 2013.Extracting and Matching Authors and Affiliations in Scholarly Documents.In Proceedings of the Thirteenth Annual International ACM/IEEE Joint Conference on Digital Libraries (JCDL'13), Indianapolis, ACM. 2013.

ISO 16642:2003. Computer applications in terminology: Terminological markup framework

Patrice Lopez. 2009. GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications. Proceedings of the 13th European Conference on Digital Library (ECDL), Corfu, Greece, 2009.

Patrice Lopez and Laurent Romary. 2010a. GRISP: A Massive Multilingual Terminological Database for Scientific and Technical Domains. 7th international conference on Language Resources and Evaluation LREC’10, La Valette, Malte 2010.

Patrice Lopez and Laurent Romary. 2009. Multiple retrieval models and regression models for prior art search. 10th Workshop of the Cross-Language Evaluation Forum CLEF’09, Corfu, Greece, September 30 - October 2, 2009.

Patrice Lopez and Laurent Romary.2010b. Experiments with Citation Mining and Key-Term Extraction for Prior Art Search.11th Workshop of the Cross-Language Evaluation Forum CLEF’10, Padua, Italy, 2010.

Pattabhi RK Rao, Sobha Lalitha Devi and Paolo Rosso. 2013. Automatic Identification of Concepts and Conceptual relations from Patents Using Machine Learning Methods. Proceedings of the 11th international conference on Natural Language Processing, ICON-2013, Noida, India, December, 18-20.

Sagnik Ray Choudhury, Prasenjit Mitra, Andi Kirk, Silvia Szep, Donald Pellegrino, Sue Jones and C. Lee Giles.

66

A Thesaurus-based ontology generation

Mounira Chkiwa, Anis Jedidi, Faiez Gargouri Laboratoire MIRACL, Université de Sfax, Pôle technologique de Sfax : Route de Tunis Km

10 B.P. 242, 3021 Sfax [email protected], [email protected],[email protected]

RÉSUMÉ.Il est bien connu que les thésaurus couvrent une grande quantité d'informations dédiées pour des domaines spécifiques et permettent des manipulations variables faite par les utilisateurs normaux. Mais, ils autorisent moins d'interprétation sémantique pour les agents automatiques que les ontologies. Dans cet article, nous proposons une génération automatique d'une ontologie OWL basée sur le Thesaurus Roget des mots et expressions anglaises afin de l'exploiter dans notre système de recherche d'information sémantique.

ABSTRACT.It is well known that thesaurus cover a large amount of information dedicated for a specific domain and allows different manipulation made by normal users. But, it allows less semantic interpretation for automatic agent than ontologies. In this paper we propose an automatic generation of an OWL ontology based on Roget's Thesaurus of English Words and Phrases in order to use it in our semantic information retrieval system.

MOTS-CLÉS : lethésaurus Roget, la représentation des connaissances, l'ontologie OWL, les systèmes de classification, la recherche d'information sémantique..

KEYWORDS: Roget thesaurus, knowledge representation, OWL ontology, classification systems, semantic information retrieval.

1. Introduction Since the web provide an enormous amount of information, the need of its classification become indispensable. This classification ensures definitely a more precise access to a needed data via the available information retrieval systems. In this paper we present two different classification systems: thesaurus and ontology; and we present our ontology generated based on Roget Thesaurus. This mapping is definitely useful in the information retrieval process. The rest of the paper is organized as follows: in section 2 we introduce some preliminaries about classification systems. Section 3 presents our starting framework and section 4 presents our output ontology. Finally section 5 highlights some related works and section 6 concludes the paper.

2. Classification Systems

In the Information Architecture and Knowledge Management context, classification schemes comes to face the increasing online information volumes in a purpose of its organization, annotation and more "formal" querying. For instance, we can list the following classification schemes: Controlled vocabularies (Controlled Vocabulary site), taxonomies (Galitsky B. 2013), faceted classification (Star, S.L. 1998), Thesaurus (ISO 25964, 2011), ontologies (Oberle, D. Guarino, N., & Staab, S. 2009), topic maps (Information portal about Topic Maps) and folcksonomies (Emanuele Q 2005). According to their natures, each classification schema provides a different way of modeling, clustering and expressivity of a given collection of data. In this section we highlight principally thesaurus and ontologies definitions and our motivation to convert a thesaurus to ontology.


mailto:[email protected],[email protected]

67

We can simply define a thesaurus as a controlled terms network, linked by predefined relationships. The information search is facilitated thanks to those relationships which can be distinguished into three major types:

─ Hierarchical relations: defining the precision level of a term, a given term could be more generic than another term using a BT relation (Broader Term), as well; a term could be more specific than another using an NT relation (Narrower Term).

─ Associative relations: an RT relation (Related Term) allows defining an associative relation between two terms (e.g., causation, composition or location relations…)

─ Membership relations: allows to a term being part of a given group of terms. The grouping of concepts is made according to specific criteria, such as their relevance to a particular domain.

In the other side, ontologies are used to formally represent knowledge within a domain basing on the definition of concepts and the semantic relations between them. Ontology Web Language (OWL) is a semantic web technology intended for describing classes of features through instances of these classes along with types of properties giving more specificity to them. OWL consists of three languages with increasing expressivity: OWL Lite, OWL DL and OWL Full. All three of these languages allow describing classes, properties, and instances. OWL Lite is intended for users with simple modeling needs. OWL DL has the closest correspondence to expressive description logic (Jeff Heflin. 2013). OWL Full give a maximum of expressiveness, syntactic liberty without calculation guarantee, thus, a class can also match the instance of another class. A typical OWL ontology is composed by two major parts; the terminological level in which we find the class/ properties definition and the instance level.

In conclusion, Thesauri are lexical ontologies with weak semantics (J. Nogueras-Iso, J. Lacasta Alcalá de H., 2007) and they represent an interesting source for the development of ontologies since they offer a warranty of expression. The Higher conceptualization level offered by ontologies let us think out of thesaurus predefined relations. And the formal definition of relationships between concepts in ontologies made possible some manipulations led by automatic agent such as querying and inferring new data. As well, information retrieval based on ontologies brings some useful facts such as query extension.

3. Framework Roget's Thesaurus of English Words and Phrases is a widely used English-language thesaurus, created by Dr. Peter Mark Roget in 1805 (Peter Mark Roget 1805). The original edition had 15,000 words. In our framework, we manipulate a larger edition: The Project Gutenberg eBook, "Roget’s Thesaurus of English Words and Phrases, by Roget" which proposes an online eBook edition of Roget's Thesaurus covering more than 91000 entries. According to this edition, Roget's Thesaurus is composed of three parts (GUTENBERG project 2004):

A. A hierarchical classification structure (hierarchy or "Synopsis of Categories"). B. A body, which lists the Categories, under which are found the groups of

semantically- or conceptually-related words and phrases (also called synonyms or entries).

C. An Index that lists the entries alphabetically (along with the Category titles and numbers under which the entry may be found in the body).

68

Roget's Thesaurus is composed of six primary classes; each class is composed of multiple divisions and then sections. This may be conceptualized as a tree containing over a thousand branches for individual "meaning clusters" or semantically linked expressions composed by one or more words (historyofinformation.com). Each expression has a type (noun, adjective, adverb, verb, phrase…). Figure 1 shows the hierarchical structure of Roget's thesaurus with the occurrence number of elements composing each level:

Figure 1.Our Structural view of Roget’s Thesaurus

In figure 1, we make the link between the expression C and the branch B to show that an expression could be semantically related to different branches (e.g., the word abbreviation is linked to both branches: compendium and shortness (GUTENBERG project 2004). As well, we made the link between the class X and the section Y to show that a class may not be divided into division but directly into section (e.g., the class “Words Relating to Matter » is divided into three sections: Matter in General, Inorganic Matter and Organic Matter (GUTENBERG project 2004)).

4. OWL Roget ontology

Based on Roget’s Thesaurus, the generation of our ontology passes through two steps; the definition of the terminological level in which we declare main classes and properties constraints and then, the automatic generation of the instances level. In figure 2, we present our ontology structure which represents a conceptualization of Roget’s thesaurus via an UML Class diagram; as well we present some instances of main classes.

69

Figure 2.Roget Ontology structure: classes and some instances.

To get our output Ontology starting with Roget’s Thesaurus we begin by the logical definition of terminological level in which we draw out the main classes according to the UML diagram class presented in figure 2. Similarly, we manually define properties describing classes and relations between them. In the following piece of OWL code, we define the class Expression and its properties.

<owl:Class rdf:ID="Expression">

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty rdf:resource="#value" />

<owl:minCardinality rdf:datatype="&xsd;nonNegativeInteger">1</owl:minCardinality>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty rdf:resource="#type" />

70

Referring to the Thesaurus parts (see section 3), our transformation system allows the generation of class instances according to the terminological ontology part defined previously. The abstract algorithm of transformation is as follow:

1. Scanning the Synopsis of Categories a. If a new category is detected. b. Then applying the relevant class template.

2. Scanning the body of thesaurus. a. If new entry is detected b. Then applying Expression instance template

While scanning the body of thesaurus, its textual format allows us to automatically detect the passage from an expression to another using the following observations:

Each line containing two points means that we meet a new expression. The last character before the ending point of the each line indicates the expression

type (v=verb, n=noun…). Each line beginning by a space means that this is a new branch semantically linked to

the current expression.

Starting with a caption of thesaurus body, we present in figure 3 an example of expression instance generation based on the class definition already demonstrated and following the 3 observations just listed.

Figure 3.Example of instance generation (Class Expression)

<owl:ObjectProperty rdf:ID="hasBranch">

<rdfs:domain rdf:resource="#Expression" />

<rdfs:range rdf:resource="#Branch" />

</owl:ObjectProperty>

<owl:DatatypeProperty rdf:ID="value">

<rdfs:domain rdf:resource="#Expression" />

<rdfs:range rdf:resource="&xsd;string" />

</owl:DatatypeProperty>

<Expression rdf:ID="v33242">

<value>originate</value>

<type>verb</type>

<hasBranch rdf:resource="#will"/>

<hasBranch rdf:resource="#beginning"/>

71

The Thesaurus transformation into OWL ontology brings definitely advantages linked to the semantic manipulation made by automatic agents such as inference and querying. Which does not allowed by usual thesaurus since they often based on informal vocabularies. In figure 4 we present a SPARQL (W3c 2011) query example applied on our ontology, it requests selecting all branches linked to the expressions "administration" and "above all":

Figure 4.Example of SPARQL query applied on our ontology and the correspondent result.

Several SPARQL queries could be applied on our ontology, as practical use of this, is the query extension in our information retrieval system; when a user set his simple key-words query, our system try to find the most semantically linked expressions to the initial query and when returning results, the initial query is enhanced by the new found expressions allowing a new more dedicated information retrieval attempt. In our query extension, the added terms represent only to the 1/3 of the initial query length and this is in the purpose to not diverge the first query meaning. Our OWL ontology also called Roget ontology contains firstly 259,635 lines; in order to lighten some manipulations such as querying, we divide it into 26 sub-ontology according to the English alphabet. Each sub-ontology has the same terminological part which do not exceed 100 line and the instances of the most generic classes (Class, Division, Section and Branch) which do not exceed 1200 line; the rest of each sub-ontology is the instances of Expression Class having the same beginning letter as the sub-ontology name (e.g. sub-ontology "A" covers all class Expression instances beginning with A), and when querying, we only request the needed sub-ontologies. One by one, all our sub-ontologies are validated by the OWL validator provided online by the University of Manchester (Owl validator).

6. Related works In the Knowledge Representation context, many works treat the thesaurus/ontology conversion issue (J. Nogueras-Iso, J. Lacasta Alcalá de H., 2007, Dominique R. and Kai Eckert M. 2012 and 17 B. J. Wielinga A. Th. Schreiber J. Wielemaker J. A. C. Sandberg 2001). The main problem is the lacks of standardized rules of transformation since thesaurus have not common representation syntax. SKOS provides a standard way to represent knowledge organization systems such as thesauri, classification schemes, and taxonomies

72

within the framework of the Semantic Web (W3c, 2012). It can be used as a bridge to get ontologies starting with existing and not standardized thesaurus (J. Nogueras-Iso, J. Lacasta Alcalá de H., 2007), but it does not provide the needed standardized mapping rules. In our case and since Roget's thesaurus provides a simple and clear structural properties, the manual modeling of the hierarchy seems to be more warrant, easy to develop even with the existence of automatic UML/OWL converting tools such projects enumerated in (Andreas G. 2012 ) Our work represent an extension of our previous works (Mounira Chkiwa, JedidiAnis and Faiez Gargouri 2014) in which we materialize an information retrieval system dedicated for kids based on fuzzy logic. The ontology generated in the current work is used as a lexical layer in our information retrieval process since it cover the most frequently used English words and phrases. On every new information retrieval process and based on OWL Roget ontology, our system try to find the most semantically related words to the initial user query. As a result, a new query enriched by the found terms is proposed to the user. This step could simplify to young users the expression of their information need and allows consequently a new dedicated information retrieval process.

7. Conclusion In this paper we present our ontology view of Roget thesaurus, to build it, we use an online extended textual version provided under this title: "The Project Gutenberg Ebook Roget's Thesaurus of English Words and Phrases". We firstly design our structural view of the thesaurus then we define the terminological part of the ontology according to this structural view and finally we use our system based on PHP language in order to get automatically instances part of the ontology.

References Andreas G. 2012 Evaluation of UML to OWL Approaches and Implementation of a Transformation Tool for

Visual Paradigm and MS Visio? Bachelor thesis.

B. J. Wielinga A. Th. Schreiber J. Wielemaker J. A. C. Sandberg 2001 From Thesaurus to Ontology . http://www.cs.vu.nl/~guus/papers/Wielinga01a.pdf

Controlled Vocabulary http://www.controlledvocabulary.com/

Dominique R. and Kai Eckert M. 2012 Thesaurus Mapping: A Challenge for Ontology Alignment? http://ceur-ws.org/Vol-946/om2012_poster8.pdf

Emanuele Q 2005, Folksonomies: power to the people. http://www.iskoi.org/doc/folksonomies.htm

Galitsky B. 2013 Transfer learning of syntactic structures for building taxonomies for search engines. Engineering Applications of Artificial Intelligence. 2013;26(10):2504–2515. http://dx.doi.org/10.1016/j.engappai.2013.08.010

GUTENBERG project 2004 eBook, Roget’s Thesaurus of English Words and phrases http://itex.coastal.cheswick.com/itex_server/build/pg/10681/ipad-pn.pdf

historyofinformation.com : Roget's Thesaurus(April 29, 1852) Information portal about Topic Maps http://www.topicmaps.org/

J. Nogueras-Iso, J. Lacasta Alcalá de H., 2007 Converting a thesaurus into an ontology:the use case of URBISOC. 14-15 May 2007 http://www.towntology.net/meetings/0705-madrid/presentations/nogueras.pdf

Jeff Heflin. 2013 An Introduction To The OWL Web Ontology Language Lehigh University

Mounira Chkiwa ,JedidiAnis and Faiez Gargouri, 2014 Fuzzy Score Relevance Valorization. AIFL 2014 Dubai ,UAE April 4-5, 2014.

Mounira Chkiwa,Anis Jedidi, Faïez Gargouri . 2014 Simplest Information Retrieval For Kids ICITE - 2014 , Zurich, Switzerland, June 14 ~ 15, 2014.

http://www.cs.vu.nl/~guus/papers/Wielinga01a.pdf

http://www.controlledvocabulary.com/

http://ceur-

http://www.iskoi.org/doc/folksonomies.htm

http://dx.doi.org/10.1016/j.engappai.2013.08.010

http://itex.coastal.cheswick.com/itex_server/build/pg/10681/ipad-pn.pdf

http://www.topicmaps.org/

http://www.towntology.net/meetings/0705-madrid/presentations/nogueras.pdf

73

Oberle, D. Guarino, N., & Staab, S. 2009 What is an ontology?. In: "Handbook on Ontologies". Springer, 2nd edition, 2009.

Owl validator. http://mowl-power.cs.man.ac.uk:8080/validator/

Peter Mark Roget, http://en.wikipedia.org/wiki/Peter_Mark_Roget

Star, S.L. 1998 Grounded classification: grounded theory and faceted classification. Library Trends.47.2, 218. (1998).

The Project Gutenberg eBook, Roget's Thesaurus of English Words and Phrases, by Roget http://www.gutenberg.org/files/10681/10681-index.txt

Thesauri and interoperability with other vocabularies. Part 1 : Thesauri for information retrieval (en), ISO site. http://www.iso.org/iso/fr/catalogue_detail.htm?csnumber=53657

W3c 20011 SPARQL 1.1 Query Language SPARQL 1.1 Query Language http://www.w3.org/TR/sparql11-query/

W3c, 2012 SKOS Simple Knowledge Organization System http://www.w3.org/2004/02/skos/

http://mowl-power.cs.man.ac.uk:8080/validator/

http://en.wikipedia.org/wiki/Peter_Mark_Roget

http://www.gutenberg.org/files/10681/10681-index.txt

http://www.iso.org/iso/fr/catalogue_detail.htm?csnumber=53657

http://www.w3.org/TR/sparql11-

http://www.w3.org/2004/02/skos/

74

Automatisation de l’encodage des lexiques arabes en TEI

Hajer Maraoui 1 et Kais Haddar 2 Laboratoire MIRACL

Université de Sfax. FSS 3038 Sfax Tunisie 1 [email protected] [email protected]

RÉSUMÉ.La normalisation des lexiques de la langue arabe est une nécessité difficile à réaliser car elle demande une structure descriptive qui couvre toutes les propriétés et les caractéristiques morphologiques, syntaxiques et sémantiques des entrées lexicales. En effet, les travaux qui traitent la normalisation des ressources lexicales arabes ne sont pas encore bien développés par certaines normes ou recommandations comme la TEI. Dans ce contexte, nous présentons une démarche permettant la réalisation d’un prototype pour l’automatisation de l’encodage d’un lexique arabe en TEI. L’élaboration de ce prototype est basée sur une étude effectuée sur la TEI et les lexiques de la langue arabe. Cette étude nous a permis de modéliser une structure de normalisation TEI adoptée pour les lexiques arabes. L’expérimentation des lexiques arabes est effectuée par le prototype réalisé.

ABSTRACT.Thestandardization of arabic lexicons is a necessity difficult to achieve because it requires a descriptive structure that covers all properties and morphological, syntactic and semantic features of lexical entries. Indeed, the works that deal with normalization of arabic lexical resources still not yet well developed by some standards or guidelines such as TEI. In this context, we present an approach for the realization of a prototype to automate the encoding of an arabic lexicon TEI. The development of this prototype based on a study of the TEI and the arabic lexicons. This study allowed us to model a TEI structure adopted for arabic lexicons. The experimentation of arabic lexicon is performed by the realized prototype.

MOTS-CLÉS : TEI, lexique arabe, normalisation TEI, règles de flexions

KEYWORDS: TEI, arabic lexicon, TEI standardization, flexion rules

1. Introduction Les lexiques de la langue arabe sont parmi les ressources difficiles à développer dans le domaine des TALN. En effet, la diversité des représentations de ces lexiques augmente la complexité de leur diffusion et leur échange entre les différentes communautés et affaiblit leur interopérabilité et leur couverture. Ainsi, la normalisation devient une nécessité évidente surtout pour les communautés linguistiques afin d’assurer l'interchangeabilité et la compatibilité entre les applications. Certaines normes d’ISO traitent ce type de documents comme "Lexical Markup Framework" (LMF) (ISO 24613) qui vise essentiellement à la spécification des lexiques monolingues et multilingues. Tandis que la complexité de sa structure augmente la difficulté du codage des lexiques arabes. Cependant, il existe d’autres normes qui se caractérisent par l’intelligibilité et la souplesse de la structuration telles que la "Text Encoding Initiative" (TEI) (http://www.tei-c.org/). Le point fort de la TEI réside dans sa structure claire, simple et concrète. En plus, le codage avec TEI est rigoureusement défini et permet un traitement efficace. En outre, la forme de la TEI est compatible avec les standards existants ou en développement.

Plusieurs travaux sont effectués tout au long du processus de développement et d’amélioration de la TEI dès ses premières recommandations jusqu’aux dernières publications. Par contre, ces travaux n’ont pas encore traitées rigoureusement les lexiques. En outre, il existe un manque de traitement de la langue arabe bien que la TEI avait pleinement des projets sur des documents de différentes langues naturelles. Etant conscient de la nécessité de considérer la



http://www.tei-c.org/).

75

langue arabe dans les travaux qui se font actuellement pour la TEI, nous avons l’intérêt d’étudier les possibilités d’adapter la TEI aux lexiques des arabes. Dans ce contexte, nous cherchons à adapter la structure de la TEI aux caractéristiques des lexiques arabes. De ce fait, nous sommes menés à apporter quelques rectifications sur la composition du modèle TEI. Notre second objectif sera de développer un éditeur dédié à la génération d’un lexique arabe encodé en TEI de côté morphologique, syntaxique et sémantique. Dans le présent article, nous commençons par une étude sur les recommandations de la TEI. Puis, nous présentons les spécificités de la langue arabe permettant la modélisation d’un lexique TEI. Ensuite, nous décrivons la démarche proposée pour l’automatisation de l’encodage des lexiques arabes en TEI. Enfin, nous présentons l’expérimentation de la démarche par un prototype et son évaluation. Nous clôturons cet article par une conclusion et des perspectives.

2. État de l’art La TEI est un projet international qui vise à la mise au point d’un ensemble de normes pour la préparation et l’échange de textes électroniques sous la standardisation de la fédération mondiale d'organismes nationaux de normalisation ISO. Ce projet a été fondé en 1987 par Nancy Ide qui est l’un des présents auteurs et un ensemble de chercheurs dans le domaine de l’archivage, de la structuration et de l’analyse des textes électroniques (Lou et Syd, 2013). La publication des travaux des différents comités de recherche était sous forme de « Guidelines » (Ide, 1996). La phase initiale a permis la publication de la première version de ses recommandations intitulées « TEI-P1 » en juin 1990. Une seconde phase, impliquant 15 groupes de travail, afin de réaliser des révisions et des extensions, a publié ses résultats tout au long de 1990-1993 portants le nom « TEI-P2 ». Après une autre série de révisions et d’extensions, la première version officielle des recommandations, « TEI-P3 », a été publiée en mai 1994. TEI commençait par le codage à base SGML. Après l’évolution de l’SGML et l’invention de XML en 1996, TEI a passé à XML par ces nouvelles recommandations « TEI-P4 » en 2002 (Lou et Syd, 2013). En effet, les recommandations de la TEI présentent des conventions de codage utilisables dans plusieurs domaines. Ellespeuvent être appliquées aussi bien pour créer de nouvelles informations que pour échanger des informations existantes. Un document TEI doit être conforme aux règles de codage XML. Il doit contenir avec une liste d’éléments valides et subir des règles d’emboitement autorisées. La structure fondamentale d'un texte TEI se base sur un document qui peut être, selon le projet BVH1, un texte imprimé ou encore un manuscrit (Lou et Syd, 2013). Cette structure décrit la partie textuelle du document. La notion de structure est essentielle pour éditer, échanger et analyser des textes grâce aux recommandations TEI. Dans ce qui suit, nous donnons des aperçus sur la structure et les traitements des documents en TEI.

2.1 Aperçu sur la structure de la TEI Tout texte conforme à TEI comporte une partie en-tête TEI (<teiHeader>) et une partie pour la transcription du texte lui-même (<text>). L'en-tête TEI contient toutes les informations qui se trouvent sur la page de titre d'un document (Dufournaud et al., 2008). Un document TEI simple comporte, au niveau textuel, cinq éléments composés : <text>, <front>, <group>, <body> et <back>. Les éléments <text> et <body> sont les seuls obligatoires. Dans une structure TEI simple, l’élément <text> exprime le début du texte de la source originale. Il comporte les éléments <front> et <body>. L'élément <body> comporte tous les éléments qui précèdent le corps du texte. L’élément <back> contient les sortes d'annexes qui suivent le

1 Le Laboratoire LI-RFAI (dir. Jean-Yves Ramel) et le consortium Navidomass (projet ANR 2007-2009).

76

Figure 2. La structure du chapitre des dictionnaires de la TEI.

corps du texte. La structure fondamentale d’un document encodé en TEI est représentée par la figure 1.

< tei >

< teiHeader > … < /teiHeader >

< text >

<front> … </front>

< body > … < /body >

<back> ... </back>

< /text >

< /tei >

Figure 1. Structure fondamentale d’un document encodé en TEI La personnalisation est un aspect central de l'utilisation de la TEI. Cette dernière fournit un certain nombre de personnalisations de base, à usage général. Il existe trois méthodes de personnalisation en TEI : TEI Lite, web Roma et TEI ODD. TEI Lite a été initialement conçu comme une démonstration du mécanisme de personnalisation. L’application web Roma a été introduite pour sélectionner des modules TEI manipulant les éléments. Quant au langage TEI ODD, il permet essentiellement la spécification manuelle des modèles TEI.

2.2 Traitements des documents en TEI Les dictionnaires figurent parmi les types de documents complexes les plus traités par la TEI. Le groupe de travail de la TEI sur les dictionnaires avait occupé la production d’un ensemble de conventions au niveau des entrées de dictionnaires. Chaque entrée d’un dictionnaire est un objet fortement structuré, dans lequel de nombreux mécanismes d’abréviation et d’organisation typographique permettent une présentation condensée des informations. Les entrées de dictionnaires comportent plusieurs types d’information clairement identifiables : informations sur la forme du mot (orthographe, prononciation, césure, etc.), informations grammaticales (catégorie grammaticale, morphologie, etc.), définitions ou traductions, etc. Les principaux éléments de structure du chapitre TEI dictionnaires sont présentés ci-dessous (figure 2) et schématisés pour illustrer les relations structurelles.

3. Hiérarchies de types retenus de la langue arabe Avant d’entamer l’étude sur les hiérarchies de types de mot de la langue arabe, nous donnons une idée sur les travaux s’intéressant aux lexiques arabes. Certains auteurs ont effectué des études sur la modélisation normalisée des lexiques arabes (Khemakhem et al., 2007 ; Loukil et al., 2010). D’autres ont étudié la morphologie des mots arabes comme (Ellouze et al., 2010).Autre auteurs ont effectué des comparaisons entre les normes en étudiant l’interopérabilité (Haddar et al., 2012 ; Lhioui et al., 2014.

En langue arabe, le mot peut être un verbe, un nom ou une particule. Chaque mot est à l’origine d’une racine et caractérisé par un schème : ceci concernent notamment les verbes, les noms et quelques particules. La langue arabe est une langue très riche grammaticalement, soit d’une côté générale pour la structure lexicale et syntaxique, soit d’une côté spécifique pour

<entry>

<gramGrp> <form> <sense>

Model.formPart <gramGrp> … …

77

l’entité du bas niveau : le mot arabe. Au niveau lexical, il existe trois critères globaux de classifications pour déterminer la catégorie d’un verbe tels que le nombre des consonnes dans la racine (verbe trilitère [فعل ثالثي] ou verbe quadrilitère [فعل رباعي]), la nature des consonnes de la racine (verbe sain [فعل صحیح] ou verbe défectueux[ لفعل معت ]), le schème (verbe nu [ فعل La figure 3 présente la hiérarchie de type lexicale des .([فعل مزید] ou verbe augmenté [مجردverbes.

Au niveau syntaxique, un verbe peut être tam [فعل تام] ou défective [فعل ناقص]. Un verbe tam est un transitif [متعدي]ou intransitif [الزم]. Un verbe transitif peut être mono-transitif [ متعدي الى .[متعدي الى ثالثة مفاعیل] ou bien tri-transitif [متعدي الى مفعولین] il peut être di-transitif ,[مفعولLes catégories grammaticales des noms se divisent aussi en catégories lexicales et syntaxiques. Au niveau lexicale, un nom peut être défini [اسم معرف] ou indéfini [اسم نكرة]. Le nom défini englobe les noms propres [علم اسم]et les noms non propres [اسم غیر علم].Le nom non propre regroupe les noms communs [اسم مشترك] et les noms construits [اسم مبني].Il existe quatre caractéristiques définissant les noms communs qui sont le genre, le schème (nom nu [اسم مجرد] ou nom augmenté [اسم مزید]), la nature de ses lettres (nom sain [اسم صحیح], nom défectueux[ اسم et le nombre de consonnes dans la racine (.[اسم ممدود] ou nom mamdoud [معتل(nom trilitère [اسم ثالثي], nom quadrilitère [اسم رباعي] et nom quintuple[اسم خماسي]). La figure 4

illustre la hiérarchie de type syntaxique des noms.

Syntaxiquement, un nom peut être dérivatif [اسم المشتق] ou un nom d’action [اسم المصدر]. Les noms dérivatifs comportent le participe actif [إسم الفاعل], le participe passif [إسم المفعول], le « nom de lieu ou de temps » [إسم المكان و الزمان]. La catégorisation grammaticale des particules est partagée aussi en niveau lexical et syntaxique. Dans le niveau lexical, une particule est classifiée selon le nombre de ses lettres

Verbe Quadrilitère (رباعي) Trilitère (ثالثي)

Augmenté (مزید) Nu (مجرد)

Sain (صحیح) Défectueux (معتل)

Réduit( (مضعف

Doublé )مضاعف( Hamzé (مھموز)

Assimilé( (مثال

Concave (أجوف)

Lafifi (لفیف)

Intact (سالم) Défective (ناقص)

Figure 3. Hiérarchie de type lexicale pour les verbes.

Septuple

Nom

Indéfini(نكرة) Défini(معرف)

Propre ) علم( Non Propre ) غیر علم(

Construit )مبني(

Visible )بارز(

Caché )مستتر(

Relative )الموصولة(

Pronom )ضمیر(

Nombre )العدد(

Interrogative )استفھام( Démonstrative

)االشارة(

Commun )مشترك(

Défectueux )معتل( Sain ) صحیح(

Trilitère

Nu (مجرد)

Quintuple Hexagonal

Augmenté )مزید(

Mamdoud )ممدود(

Quadrilitère

Figure 4. Hiérarchie de type lexicale pour les noms

78

(particule monoculaire [حرف ثالثي], binaire [حرف ثالثي], trilitère [حرف ثالثي], quadrilitère[ حرف D’une côté syntaxique, une particule peut être une lettre de .([حرف خماسي]ou quintuple [رباعيconstruction [حرف مباني] ou une lettre de signification [حرف معاني]. Les traits morphologiques de la langue arabe sont en rapport avec la morphologie du mot et sa catégorie grammaticale. Les traits morphologiques des verbes se basent sur six facteurs clés dans la conjugaison : le nombre du sujet, le genre du verbe, la personne, la voix, l’aspect et le mode. Deux traits parmi les traits morphologiques des noms sont fondamentaux : le genre et le nombre. Les verbes et les noms sont caractérisés par un nombre important de formes flexionnelles et dérivationnelles différentes. La détermination de ces formes se fait par des règles de dérivation et de conjugaison (Ammar et Dichi, 1999). Les règles de conjugaison et d’extraction des formes dérivées d’un verbe arabe se diffèrent selon le schème et la catégorie de ce dernier. Autrement dit, les verbes qui ont le même schème et la même catégorie se conjuguent et se dérivent de même façon (Dahdeh, 1999). De point de vue morphologique, un nom peut être singulier, dual ou pluriel. Le passage au pluriel se divise en trois types selon le schème du nom. Les deux premiers types du pluriel sont simples car ils se reposent sur l’ajout de suffixe (le pluriel masculin [جمع المذكر السالم] et le pluriel féminin [جمع المؤنث السالم]). Par contre, le troisième type, le pluriel brisé [كسیر est le plus compliqué car il suit une ,[جمع التreformulation.

4. Démarche proposée Afin de déterminer un modèle TEI pour les lexiques arabes et de réaliser un éditeur générateur de cette structure, nous allons passer par trois étapes. La première étape est d’élaborer un modèle TEI spécifique pour les lexiques arabes. La deuxième étape est d’établir un système de règles pour la génération des descriptions morphologiques pour les entrées lexicales. La troisième étape est de proposer les DTD nécessaires garantissant la conformité à TEI.

4.1 Elaboration d’un modèle TEI spécifique pour les lexiques arabes L’élaboration d’un modèle TEI spécifique pour les lexiques a comme objectif de formuler une structure TEI destinée pour l’encodage des lexiques arabes. Pour atteindre l’objectif de cette étape, nous étudions d’abord la structure TEI destinée pour les dictionnaires pour l’adapter aux lexiques. Puis nous sélectionnons les catégories de données nécessaires. En effet, les

dictionnaires et les lexiques appartiennent au même ensemble de structures complexes. En plus, les données des dictionnaires font une partie de celles des lexiques. Etant donné que ces

derniers donnent comme les dictionnaires la description morphologique du premier niveau (description grammaticale, description phonétique, quelques formes dérivées, etc.) plus la

description sémantique. Mais, pour un lexique, le bas niveau morphologique est dépassé pour arriver à une description morphologique totale englobant les spécifications lexicale,

syntaxique et l’identification des formes fléchies et dérivationnelles. La structure TEI pour les dictionnaires comporte le codage des différentes informations morphologiques et sémantiques présentes pour chaque entrée du dictionnaire (Romary, 2012). La figure 5 présente la structure

entry

form

{orth, phon, etc.}

sense model.entryDesc

model.senseDesc

model.formDesc *

*

+

Figure 5. L'organisation de classe d'un élément idéale d'une entrée de dictionnaire TEI

79

déjà illustrée.

Nous considérons que la structure de la figure 5 peut être développée et enrichie pour modéliser une structure TEI conforme aux lexiques arabes. En effet, nous commençons par l’identification des points de convergence et de divergence entre les dictionnaires et les lexiques. Puis nous extrayons les éléments TEI présentant les données partagées entre les deux modèles. Rappelons que la structure générale d’un document encodée en TEI doit avoir une description dans un élément <teiHeader>. Ensuite, en revenant au codage TEI des structures complexes en générale et les dictionnaires en particulier, nous trouvons que les entrées des dictionnaires sont présentées au moins par les éléments <entry>, <form> et <sense>. L’élément <entry> est celui qui englobe les descriptions morphologiques et sémantiques pour chaque entrée du dictionnaire. La description morphologique est présentée avec l’élément <form> et la description sémantique avec l’élément <sense>. Parmi les utilités de l’élément <form>, c’est qu’il donne une information sur une ou plusieurs dérivations d'un mot, que ce soit graphique, phonétique, etc. D'ailleurs, ces informations peuvent comporter des identificateurs abstraits pour mot-vedette comme le lemme, les composants morphologiques ou les catégories, ou toute forme d'inflexion qui peut être associée à l'entrée. Ainsi, nous allons utiliser cet élément pour la description morphologique de chaque entrée lexicale. Par exemple, la description morphologique du verbe [ سس sera représentée comme [أsuit (figure 6).

<form type="lemma"> <orth type="vocal"> سس <orth/>أ<orth type="unvocal">أسس</orth> <pron>ʔassasa</pron> <gramGrp> <pos>Verb</pos> <case>مزید ثالثي الفاء و ھو صحیح مھموز فعل</case> <subc>بمفعول واحد تام متعدي فعل</subc> <gram type="scheme"> عل <gram/>ف<colloc>في</colloc> </gramGrp> </form>

Figure 6. Exemple de description morphologique d'un verbe [ سس .[أPar la suite, pour représenter les formes dérivées et flexionnelles de l’entrée lexicale avec un degré de détail élevé, nous employons l’élément <form> en effectuant un jeu de structures pour chaque forme de l’entrée lexicale. C’est-à-dire, la représentation des formes fléchies sera différente à celle des formes dérivatives selon les exigences de la description de chaque version de forme. Donc, nous utilisons des sous-éléments spécifiques de l’élément <form> pour décrire chaque cas. La description sémantique dans un lexique ne se diffère pas à celle du dictionnaire. C’est pourquoi, nous allons garder la même structure utilisée dans le codage des dictionnaires. Aussi, nous allons servir de l’élément <sense> et <def> pour donner la définition du mot. Notre modèle proposé est représenté dans le diagramme de classe de la figure 7.

80

Figure 7. Diagramme de classe pour un lexique arabe.

4.2 Etablissement d’un système de règles et DTD nécessaires La deuxième étape consiste à identifier, d’une part, les opérations nécessaires pour calculer les formes flexionnelles et d’autre part à introduire les paradigmes de conjugaison.Pour arriver à la détermination des

formes de flexion pour un verbe, il faut passer par un processus d’opérations qui peuvent être un ajout d’une lettre, une suppression de consonne ou voyelle brève ou un remplacement de consonne ou voyelle brève. Par exemple, les opérations à suivre pour calculer une forme fléchie pour un verbe sain intact [صحیح سالم] de schème [ عل فعل -ف ی ] dans l’aspect inaccompli de l’indicatif, voix passive, avec le pronom personnel [ أنت] sont illustrées dans la figure 8. La succession des opérations est représentée en TEI dans le fichier de règles de conjugaison pour les verbes de schème [ عل فعل -ف ی ]. Notant que les opérations se diffèrent selon le schème et la catégorie d’un verbe donné. L’extraction des formes flexionnelles relatives aux noms se fait par les mêmes opérations que les paradigmes d’inflexion pour les verbes. A partir de cette étude, nous avons pu établir un ensemble de DTD nécessaires pour réaliser le calcul des différentes formes dérivés et fléchies pour tous les noms et les verbes, ainsi que les DTD pour le traitement des cas particuliers et ceux qui sont destinés pour la modélisation de la structure TEI des lexiques arabes.

1

0..*

1

1..*

0..*

1

1

1..2

0..1

0..*1

1

1..*

0..1

1..*

0..1

1..*

0..1

1..*

0..1

1..*

0..1

1..*

0..1

1

1

div

- xml:lang : String

entry

senseform

- type : String

orth

- type : String

pron

case

- type : String

per gen number pos

gramGrp

gram

- type : String

def

<form> <orth type="vocal"><m n="1" mode="replace"> ◌</m></orth> <orth type="vocal"><m n="5" mode="replace"> ◌</m></orth> <orth type="vocal"><m n="0" mode="add"> ت</m></orth> …

Figure 8. Processus de calcul d’une forme fléchie.

81

5. Réalisation et évaluation Le prototype réalisé se base sur deux modules. Un module concerne la création d’un lexique arabe en TEI et un autre module permet la gestion d’un lexique existant. La réalisation de ce prototype a nécessité l’utilisation d’un certain nombre de logiciels. Java et son API JDOM sont utilisées pour la création des différentes interfaces, le stockage des données comme étant des fichiers XML conformément à TEI et la manipulation des fichiers XML. L’éditeur Oxygen est utilisé pour la manipulation et la compilation des fichiers de règles et de lexiques arabes TEI. Plus, le langage ODD a été utilisé pour la modélisation des éléments TEI personnalisés pour la structure des lexiques arabes et les fichiers de règles de conjugaison. La figure 9 illustre un état de consultation d’un lexique de verbes généré par le prototype.

Figure 9. Consultation du fichier de lexique. Afin d’évaluer notre prototype, nous avons introduit et testé deux types de lexiques : un lexique de verbes d’environs 500 entrées, et un lexique de noms d’environs 200 entées. Par conséquent, le premier test nous a donné un fichier TEI représentant le lexique de verbes. Ce fichier contient la description de 56 500 formes fléchies pour les verbes (113 formes pour chaque verbe). Ces formes sont générées par le prototype. Un second test nous a donné un fichier TEI décrivant 1800 formes fléchies pour les noms.

Type de lexique Formes trouvées Formes correctes Formes erronées

Lexique de verbes 56 500 56 485 15

Lexique de noms 1 800 1 740 60 Tableau 1. Tableau récapitulatif des résultats obtenus

D’après le tableau 1, nous conclurons que la valeur de précision pour le lexique de verbes vaut 0.99. Pour le lexique de noms la précision est égale à 0.96. D’après ces chiffres, nous déduisons que les résultats obtenus sont encourageants. Ceci nous pousse à continuer à alimenter les lexiques TEI par des nouvelles entrées. En outre, nous pouvons dire que ce prototype est souple et facile à maintenir. Cependant, il existe quelques entrées lexicales qui ne respectent pas la règle générale. C’est pourquoi, nous devons intégrer des heuristiques résolvant ce genre de problèmes. Les exemples (1) et (2) illustrent un cas d’irrégularité de conjugaison de verbe. Le verbe [ خذ est irrégulier dans la conjugaison de verbes de schème [أ[ عل فعل -ف ی ] à l’impératif avec le pronom personnel [ أنت].

خذ (1)خذ أ جر وجر أ (2)ا

82

6. Conclusion et perspectives Dans cet article, nous avons étudié la possibilité d’adapter la TEI à la langue arabe plus particulièrement au lexique. Cette étude nous a permis de concrétiser ces idées par la conception et le développement d’un prototype permettant la création et la gestion des lexiques TEI ainsi que la conjugaison automatique. La réalisation de ce prototype a nécessité une étude approfondie sur la langue arabe, une inspiration des modèles TEI déjà existant et une élaboration d’un système de règles et contraintes permettant la transformation morphologique. Comme perspectives, nous voulons enrichir le modèle TEI proposé pour les lexiques arabes par l’incorporation des nouveaux éléments décrivant plus profondément les différents niveaux de description. Particulièrement, le niveau syntaxique doit être détaillé d’avantage en modélisant les mécanismes de transitivité et de sous catégorisation.

Références Ammar S. et Dichi Y. 1999. الشامل في تصریف األفعال العربیة, collection Bescherelle, Hatier, Paris, ISSN 0990 3771.

Dahdeh A. 1999. المعجم الوسیط في تصریف األفعال, Maison d’édition Bayrout.

Dufournaud N. et al. 2008. Manuel d’encodage XML-TEI Renaissance et temps modernes Imprimés-manuscrits, Version Beta, UMR 6576.

Ellouze S. et al. 2010. NooJ disambiguation local grammars for Arabic broken Plurals, NooJ 10, Komotini, Greece.

Haddar K. et al. 2012. A prototype for projecting HPSG syntactic lexica towards LMF, Journal of Language Technology and Computational Linguistics, Gesellschaft für Sprachtechnologie und Computerlinguistik e.V, (GSCL), 27 (1):21–46. <http://www.jlcl.org/>

Ide N. et al. 1996. Une application de la TEI aux industries de la langue : le Corpus Encoding Standard, Cahiers GUT enberg, 24:166–169.

Khemakhem A. et al. 2007. Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613TALN, Toulouse.

Lhioui M. et al. 2014. Towards modeling Arabic lexicons compliant LMF in OWL-DL, Terminology and Knowledge Engineering, Berlin, Germany.

Lou B. and Syd B. 2013. TEI P5: Guidelines for Electronic Text Encoding and Interchange, Text Encoding Initiative Consortium, Charlottesville, Virginia.

Loukil N. et al. 2010. A Syntactic Lexicon for Arabic Verbs, in proceedings of Seventh International Conference on Language Resources and Evaluation LREC, Malta, 269–272.

Romary L. 2012. Consistent modeling of heterogeneous lexical structures, Journal of Text Encoding Initiative.

http://www.jlcl.org/

83

Using finite-state transducers to build lexical resources for Unitex Arabic package

Noureddine Doumi1, Ahmed Lehireche2, Denis Maurel3, Maamar Khater1 1 Computer Science Dept., University of Saïda, Algeria 2 Computer Science Dept., University of SBA, Algeria

3 Laboratoire d’Informatique, University of Tours, France

[email protected]; [email protected]; [email protected]; [email protected]

ABSTRACT. This paper addresses the issue of generating Arabic verbal inflectional paradigms using the FSA. In the process of the proposed approach the tokens drawn from the corpus are manually lemmatized and then finite state transducers are applied to the lemmas for producing all possible word forms with their full morphological features. The first strength of the approach lie in the algorithm of automatic generation of 184 transitions transducers, which is very cumbersome, if manually, designed. The second strength is the new classification of Arabic verbs; this classification is based on our new suggested inflection scheme that specifies the verb inflection paradigms. All resulting resources are publicly available and currently used as an open package in the Unitex framework under the LGPL license.

KEYWORDS: Arabic linguistic resources, Arabic verbs, Finite state transducers, Unitex.

1. Introduction The Arabic belongs to the Semitic language family, consisting mainly Arabic, Amharic and Hebrew. The Semitic languages are characterized by i) a lexicon built mainly from triliteral and quadriliteral roots ii) a writing system from right to left and iii) an alphabet of Abjed kind (Doumi et al. 2013a).

The Arabic is the first Semitic language in number of speakers for more than 340 million speakers and the 7th World language in number of Internet users1.

The official Arabic is divided into Classical Arabic (CA) and Modern Standard Arabic (MSA), the former being the language of sacred texts of Islam, the Koran and the Hadith and also the language of the cultural, literary and scientific heritage of the Arab-Muslim civilization. The MSA is the direct descendent of the former and is the official language of the Arab world today; it is used in education, in media and administrative correspondence. MSA is different from CA on the lexical, morphological and syntactic levels (Khoja 2001; Attia 2011). Used by over 22 countries worldwide, Arabic is spoken in dialects classified into seven groups (N. Habash 2010): Egyptian Arabic (EGY), Levantine Arabic (LEV), Gulf Arabic (GLF), Maghreb Arabic (MAG), Iraqi Arabic (IRQ), Yemeni Arabic (YEM) and Maltese Arabic (MLT).

2. Objective of the contribution Large linguistic resources, in particular lexica, are now recognized as a fundamental pre-requisite for all natural language processing tasks (Maurel and Guenthener 2005). Building its own linguistic resources is an economic way to acquire a crucial component in these tasks. On the other hand it is quite difficult to build an exhaustive resource which covers the whole of the target language. For this reason the current paper suggest a method for building scalable

1These statistics are from the Internet World Stats of 2011 and can be found at http://www.internetworldstats.com (last accessed Oct 2014)

mailto:[email protected];



http://www.internetworldstats.com

84

resources for Arabic verbs. It should be noted that Arabic verbs are monolexical units and which is the reason why this paper only focuses on monolexical unit dictionaries.

2.1. Built resources As mentioned above, the target resources are mono lexical unit dictionaries for Arabic verbs. And to conform to the Unitex NLP framework we choose the DELA structure as a format. The DELA dictionaries list practically all observed elementary or simple forms together with the relevant information about their flectional paradigms. The basic form of such dictionaries is always the same and contains, for the moment, the following types of information : <Full form, Lemma, Syntactic category, Morphological codes> (Maurel and Guenthener 2005). Examples : Arabic : < بون كت كتب,ی ,V:I3pmc>

English : <dances,dance.V:P3><dances,dance.N:p>

French : <danses,danser.V:P2s:S2s><danses,danser.N:p>

2.2. DELA of LADL formalism The electronic dictionaries distributed with Unitex use the DELA syntax. This syntax describes the simple and compound lexical entries of a language with their grammatical, semantic and inflectional information. We distinguish two kinds of electronic dictionaries. The one that is used most often is the dictionary of inflected forms DELAF (DELA of inflected forms) or DELACF (DELA of compound inflected forms) in the case of compound forms. The second type is a dictionary of canonical forms called DELAS (simple forms DELA) or DELAC (compound forms DELA). Unitex programs make no distinction between simple and compound form dictionaries. We will use the terms DELAF and DELAS to distinguish the inflected and non-inflected dictionaries, no matter they contain simple word, compound words or both.

2.3. Transducers for derivation and inflection There are a number of advantages of the finite state technology that makes it especially attractive in dealing with human language morphologies; among these are the ability to handle concatenative and non-concatenative morphotactics, as well as high speed and efficiency. For a finite state calculus, handling large automata of lexica with their inflections that can run into millions of paths is a matter of seconds (Attia 2011).

The transducer is a finite state machine which gives a result sequence of letters in output when recognizing the input one. Hence generally in Semitic languages and particularly in Arabic, the transducers are used in the derivation as well as in inflection. In the derivation the transducer produces verb or noun lemma when the root is recognized while in the inflection it produces all possible word forms combined with their full morphological features when the lemma is recognized.

3. Related works Figure 1.Inflection transducer producing six verbal word forms inflected from triliteral primitive lemma. Each word form is combined with its inflectional features.

85

3.1. BAMA/SAMA lexicon The Buckwalter Arabic Morphological Analyzer (BAMA) is widely used in the Arabic NLP research community (Attia 2011). It is designed for analysis and not generation and for this reason its lexical resources take the stem-affixes format. The verbal resource contains 8,709 lemmas and 33,393 stems, each verb may have five stems matching the tenses of perfect active, imperfect active, perfect passive, imperfect passive and imperative (Neme 2011; Attia 2011). The entire resources cover 40,648 Arabic lemmas and over 82,000 stems, these items are structured in three tables A, B and C. An Arabic word is considered as a concatenation of prefix, stem and suffix. Sublexicon A contains all the combinations of proclitics and inflectional prefixes for verbs and nouns (561 items), sublexicon C contains all the combinations of inflectional suffixes and enclitics for verbs and nouns (989 items). Table B contains the lemmas and their corresponding stems.

The recent version of BAMA is called SAMA (Standard Arabic Morphological Analyzer). Attia (2011) and Neme (2011) list some drawbacks of SAMA lexicon which we summarize as follows:

25% of the lexical items are obsolete, Lexical resources of SAMA are not representative of MSA, Although the SAMA resources are open, it is complex to extend it with new

entries, The stem lexicon entries corresponding to a lemma are numerous and need to be

subcategorized.

3.2. Aracomlex lexicon For the construction of a lexicon for MSA, Attia (2011) took advantage of large and rich resources that have not been exploited in similar tasks before. He used a corpus of 1,089,111,204 words, consisting of 925,461,707 words from the Arabic Gigaword corpus, fourth edition, in addition to 163,649,497 words from news articles collected from the Al-Jazeera web site.

Then the corpus is pre-annotated using MADA, a state-of-the-art tool for morphological processing. MADA combines SAMA and SVM classifiers to choose the best morphological analysis for a word in context, doing lemmatization, diacritisation POS tagging and disambiguation at the same time with high accuracy. In this work, (Attia 2011) has overtaken the disadvantage of SAMA by using MADA and a data-driven filtering approach to identify core MSA lexical entries rather than obsolete words. The result lexicon reduced the SAMA entries from 40,648 lemmas to 29,627 lemmas with a rate of 72.89%. The original number of verb lemmas was 8,709 entries, the new number of verb lemmas may be estimated around 6,350 lemmas.

3.3. DIINAR The DIINAR project was developed in Lyon2 University for terminological and translation purposes. The total number of lemma entries in the DIINAR.1 database equals 121,522. This includes 445 tool-words belonging to various grammatical categories (e.g.: prepositions, conjunctions, etc.) and the prototype of a proper name database of 1,384 entries. Both types of entries are associated with a particular word-formative grammar, and with their own subsets of morpho-syntactic specifiers (Abbes et al. 2004). The entries are fully vocalized and include 19,457 verb lemmas. A conventional programming framework and databases are used for generation and analysis with a lemma-based lexicon encoded according to this framework (Neme 2011).

86

Even though they have the highest coverage percentage of all Arabic lexical resources, the DIINAR resources remain not open and they are out of reach of researchers with a cost of €11,000.

3.4. Almorgeana and Elexir lexicon Both of the projects Almorgeana and Elexir extend the BAMA with the generation ability. They are very close in spirit because both of them implement the functional Arabic morphology (N. Habash 2010). The building of Almorgeana didn’t just involve the reversal of the Buckwalter analyzer engine, which only focuses on analysis, but also extending it and its databases to be used in a lexeme-and-feature level of representation for both analysis and generation (N. Habash 2007).

The lexicon of ElexirFM project is derived from the open-source Buckwalter lexicon and is enhanced with information sourcing from the syntactic annotations of the Prague Arabic Dependency Treebank. Functional Arabic Morphology is a formulation of the Arabic inflectional system seeking the working interface between morphology and syntax. ElixirFM is its high-level implementation that reuses and extends the Functional Morphology library for Haskell.

Inflection and derivation are modeled in terms of paradigms, grammatical categories, lexemes and word classes. The computation of analysis or generation is conceptually distinguished from the general-purpose linguistic model. The lexicon of ElixirFM is designed with respect to abstraction, yet is no more complicated than printed dictionaries (Smrz 2007).

3.5. ALESCO Sarf System The Sarf system of ALESCO is a derivation and inflection system for Arabic and is based on root-and-pattern representation. This work has the advantage of being clearly built on a strong linguistic basis that is the standard morphology in Arabic (Neme 2011). As far as we know the Sarf lexicon has the most percentage coverage in terms of roots, verbs and derivative nominals compared to its above works both of them open or proprietary ones.

In this project the lexical materials are acquired from the reference books of Arabic lexicography; from CA dictionaries such as al-Muheet by al-Sahib bin 'Abbad (died 995), al-Sihah by Ismail ibn Hamad al-Jawhari (died 1009), Lisan al-'Arab by ibn Manthour (died 1311), al-Qamous al-Muheet by al Fairouzabadi (died 1414) and Taj al-Arous by Muhammad Murtada al-Zabidi (died 1791) and from the most kwon dictionaries of MSA such as Muheet al-Muheet (1869) by Butrus al-Bustani and al-Mu'jam al-Waseet (1960) by the Academy of the Arabic Language. The number of 7,564 roots gathered in this project, represents almost the entire Arabic language roots. The number of derived verbs is 21,705 triliteral lemmas and 2,308 quadriliteral lemmas which represents over 24,000 verb lemmas. From these roots the Sarf system can generate all derivative nouns, gerunds and adjectives. Although its good coverage, this project don’t include the primitive nominals and gerunds.

3.6. NooJ Arabic lexicon The NooJ NLP platform is a natural language processor; it regroups the linguistic resources for several languages. Its Arabic lexicon is lemma-based and count 10,500 fully vocalized verbs (Mesfar 2008). The project does not use root-and-pattern representation; the author has suggested a new classification of Arabic verbs. The inflection and derivation of these verbs are accomplished by finite state transducers; each transducer represents a derivational or inflectional paradigm. The classification consists of 125 derivational paradigms and 130

87

inflectional paradigms. As it indicates in (Neme 2011) there is no figures on testing and evaluating the systems are available.

4. Proposed approach

4.1. Overview of the algorithm The aim of the algorithm is to produce new entries in both the lemma dictionary and in the word forms dictionary. Figure 2 summarizes this algorithm and further details are given in the subsequent paragraphs.

Figure 2.The general scheme of the algorithm

The statistics of Arabic stated that the number of Arabic verb roots is estimated at more than 7,000 but the used ones do not exceed 1,000 (Kouloughli 1994). In our algorithm, instead of remembering all the verbs and adding them to the dictionary, we suggest adding only those used in texts. To add a new verb to the dictionary the user (who should be at least an Arabic native speaker if not a linguist) is guided by a cursor in the text. So he/she browses through the text word by word and when he/she comes across a verb he/she introduces two of its word forms: the first one matches the verb lemma and the second one matches the 3rd person masculine of the present tense form. The rest of the algorithm can be outlined as follows:

From the two above mentioned word forms, the inflectional pattern is calculated (cf. section 4.2),

The pattern of the introduced word forms is matched to the ones already stored, If they match this means that the inflectional paradigm (the inflectional finite state

transducer or the inflectional graph in the Unitex language) is already known and then we proceed to adding this verb to the lemma dictionary (DELAS) and the word forms dictionary (DELAF)

yes

no

verblemma

calculating inflectional

matching

patterns

exists

adding to

DELAS

adding the pattern+

calculating inflect class

class

5 tenses of the verb

New graph calculating

affixes

264 word forms calculating

adding to

DELAF

word forms

graph

graph template

88

Else the algorithm automatically calculates the new inflectional transducer (inflectional graph) (cf. section 4.3)

4.2. The inflectional pattern The inflectional pattern represents the inflectional paradigm in the form of compressed information; its calculation relies on four principles:

Unlike what is stated in the Arabic morphology, the inflection in our algorithm is based on the lemma rather than on the root

As noticed, the Arabic inflection affects a well-determined subset of consonants and vowels of the verb lemma at well-determined positions

If one can classify the Arabic verbs depending on whether or not their consonants and vowels may be affected by the inflection phenomena, then found classes represent the different inflection paradigms of the Arabic verbs

We can determine the inflection paradigm of a verb from its inflection pattern. The inflection pattern is calculated as follows:

As discussed before, the pattern comprises two parts; The characters of the two word forms are replaced by their corresponding codes,

presented in Table 1.

Otherwise ◌ ◌ ◌ ◌ ◌ ن ت آ ء ئ ؤ أ ي و ى ا

A Y U I H O W H M t n a u i s o c

Table 1.Character correspondence in inflection pattern calculation.

Each of the following examples is presented with the two Arabic word forms of the verb, their HSB transliteration and the English translation of the verb.

Examples: a) كتب kataba yak.tubu/ to write/كتب ی

inflection pattern( كتب cacaca cacocucu=(كتب ی

b) ب كت kataba yak.tibu/ to prescribe/كتب ی

inflection pattern( ب كت cacaca cacocicu=(كتب ی

c) ي ى یول wal~aý yuwal~iy/ to crown/ول

inflection pattern(ي ى یول cacsaY cucacsiI=(ول

d) أدى یؤدي/Ad~aý yuŵd~iy/ to lead

inflection pattern(أدى یؤدي)=HcsaY cuOcsiI

4.3. The new graph generating algorithm In the case where the verb inflection transducer is not found, the algorithm proceeds to the calculation of a new one by combining the three components detailed in the sections below. These components are the template graph representing the framing of the new graph (cf. section 4.4), the second component, affixes, takes part in building the content of the new graph boxes. The numerical template is the final form of the graph boxes (cf. section 4.6)

4.4. The template graph It represents a void structure which can be switched to an inflection graph by switching the inputs of its boxes and leaving the outputs as they are. An inflection graph is a set of boxes (cf. Figure 3) where each box represents a full path in the transducer. The number of word forms for an Arabic verb is about 264 (in max case) represented as 184 Unitex graph boxes.

89

As shown in Figure 3 the input and the output of a box are separated by a slash. For instance <1 ت 23◌ /:A1smc:A1sfc> is the first box of Figure 3. In the case of the template graph the input contains a special character * which means void. The * is replaced by the numerical template of the word form.

4.5. Affixes In Arabic, the verb inflection phenomenon affects the prefix, the suffix and sometimes the stem. In the 264 word forms of the verb, the stem takes only 5 different forms. In our algorithm, these forms are withdrawn from the five elements introduced by the user. The affix file contains the prefixes and the suffixes which will be added to each stem in order to construct the numerical template of the word form which will replace the * in the template graph. The core of the affixes file consists of 184 lines. Each one has the structure <i1, i2, substr1, i3, substr2> and has meaning as follows:

i1 : the line number which also corresponds to the box number in the template graph, it takes values from 0 to 183. i2 : the substring length which is removed at the beginning in the numerical template according to one of the five forms introduced by the user, substr1: the substring which replaces the removed characters at the beginning of the numerical template, i3 : the substring length which is removed at the end of the numerical template,

substr2: the substring which replaces the removed characters at the end of the numerical template.

Figure 3.The inflection graph producing 18 word forms, some of these word forms are ambiguous, for instance the second upper right box represents one word form for four

different DELAF entries.

4.6. The numerical template In Unitex, the inflection of Semitic languages is expressed as numerical templates. For instance Figure 4 shows the numerical template for 3rd masculine singular of the accusative present tense of a lemma composed of three consonants. In fact, words are inflected according to consonant skeletons. A lemma is made of consonants, and the inflection process is supposed to enrich this skeleton with vowels and affixes.

90

The DELAS entry of the lemma ktb in the case of a Semitic language is supposed to be: ktb,$V31-123

The $ sign before the grammatical code indicates that this is a Semitic entry, and the lemma is the consonant skeleton. The V31-123 indicates the used inflection transducer.

Figure 4.Graph box containing a numerical template for one DELAF entry When applying the lemma on the numerical template, the DELAF entry will be:

yakotubu, ktb.V:aP3ms

In our algorithm the numerical template is calculated from the five word forms introduced by the user. Buckwalter in his BAMA used the same five possible stems to produce all possible word forms (more than 260). After removing characters and/or adding affixes as it is explained in section 4.5, we morphologically adjust the result word and then replace the consonant with their numeric order in the lemma. Example:

If the user introduces the following 5 word forms: كتب/kataba/he wrote, ب كت yak.tubu/he/یwrites, ب ب ,yuk.tabu/being written/یكتب ,kutiba/is written/كت كت Auk.tub./you write (imperative)/أ

When removing all diacritics from the first word the result is the lemma كتب, then the numeric order is as follows: 3=ب ,2=ت ,1=ك.

If we try to calculate the numerical template of the 24th box of the inflection graph of the inflection pattern of example a) in section 4.2 the 24th line in the affixes file will be applied to the stem.

In this case the stem in question corresponds to the second word ب كت and theیaffixes line will be: 23,1,ان ,1,ت◌

The result sequence will be ان ب tak.tubaAni/they write (dual) and the/تكتcorresponding numerical template will be ان 123ت /ta1.2u3aAni/.

The adjustment is not necessary in this case but it is indeed necessary in other cases such as for the lemma صمت/Samata/be silent and the 3rd affixes line: 2,-,- ◌ت ,1,

When applying the affixation on the corresponding stem of the lemma, the result sequence is صمتت /Samat.ta/. So it is orthographically not permissible in Arabic to spell the substring تت /t.ta/, it is therefore altered to a geminated ت/ta/ and the adjusted sequence will be صمت /Samat~a/

The third consonant of the lemma is removed and replaced by the Arabic germination character. In this case the numerical template will be 1 ت 2 /1a2at~a/instead of 1 ت 23 /1a2a2.ta/.

5. Experiment and results Our experiments spread over two stages. In the first stage, the approach exploits a corpus which is representative of Modern Standard Arabic and contains over 5 million words. The second stage runs the lists of the Arabic roots with their derivation rules; the rules are converted into derivation transducers. The number of the verbs processed in the first stage is about 1,211(rows 1, 2, till 5 in Table 2). We note that the high number of graphs is made in this stage (155 graphs out of 171, which is more than 90% of the graphs). In the second stage we designed 33 derivation graphs and applied them on root lists in order to obtain lists of verb

91

lemmas. The root lists are extracted from the Sarf project2. The 15,631 derived lemmas only required16 new graphs, i.e. less than 10% of the graphs. This means that our inflection system goes to stabilization, i.e. adding new verbs may not need designing new graphs. The last column of Table 2 shows that the growth rate of the new graphs is decreasing from 100% to 9.36% and the curve in Figure 5 shows that the graphs increase much less than the verbs.

Verb groups Verbs in group Graphs New graphs Verbs/graph Growth of graphs

1 100 33 33 3.03 100.00%

2 200 53 20 3.77 37.73%

3 500 94 41 5.32 43.61%

4 1,000 120 26 8.33 21.67%

5 10,000 155 35 64.52 22.58%

6 16,855 171 16 78.57 9.36%

Table 2: Statistics on obtained results

The experiments also show that the resulting dictionaries have a good coverage. These resources cover more than 70% of Classical and Modern Standard Arabic. Table 3 summarizes the content of the dictionaries; these resources contain 16,855 verb lemmas and 11,080,355 fully, partially and not vocalized verbal word forms. The number of semi automatically generated transducers is 171 and the number of manually designed derivation graphs is 33. All these resources are publicly available and currently used as an open package in the Unitex framework3 under the LGPL.

Figure 5.Graphs increase compared to verbs

2The packages and documentation of the Sarf system can be found at http://sourceforge.net/projects/sarf/ (last accessed Dec 2014) 3The open dictionaries of this work can be found at http://www-igm.univ-mlv.fr/~unitex/zips/Arabic.zip (last accessed Dec 2014)

Verbs; 6; 16855

Total of graphs; 6;

171

Graphs increase compared to verbs

http://sourceforge.net/projects/sarf/

http://www-igm.univ-mlv.fr/~unitex/zips/Arabic.zip

92

POS Number of DELAS entries

Number of DELAF entries with diacritics

Number of DELAF entries without diacritics

Coverage percentage

Incomplete verbs

13

768

902

100%

Verbs 16,842 4,446,288 6,632,397 Over 70%

Total 16,855 4,447,056 6,633,299

Table 3.The actual content of DELAS and DELAF

6. Conclusions and perspectives Although the traditional grammar of the Arabic morphology and the editorial dictionaries are root-pattern based, we can conclude that building Arabic lexica based on lemma is more suitable for NLP tasks and easy to achieve. We consider the performed work in the current paper as the regular part of the Arabic lexica (verbs) and we plan the building of an analog lexica for Arabic nominals (nouns, adjectives and gerunds) in future research.

All built resources will be distributed as open packages in the Unitex platform and therefore will hopefully be used to achieve some high NLP tasks such as Arabic named entity recognition and classification.

References

Abbes, R., Dichy, J., & Hassoun, M. (2004). The Architecture of a Standard Arabic lexical database: some figures, ratios and categories from the DIINAR.1 source program. Paper presented at the COLING'04, 20th International Conference on Computational Linguistics, Workshop Computational Approaches to Arabic Script-bases Languages, Geneva, 28 august

Al-Bawab, M. (2007). Arabic derivation and inflection algorithms. Sarf system documentation. Tunisia: ALESCO : Arab League Educational, Scientific and Cultural Organization.

Al-Bawab, M., Merayati, M., Mir Alam, Y., & Al-Tayene, M. H. (1996). Statistics on Arabic verbs in the computational lexicon. Lebanon: Librairie Du Liban Publishers.

Attia, M. (2011). A lexical database for modern standard Arabic interoperable with finite state morphological transducer. Communications in Computer and Information Science, Volume 100, 98-118.

Daciuk, J., Mihov, S., Watson, B. W., & Watson, R. E. (2000). Incremental construction of minimal acyclic finite-state automata. Computational Linguistics, 26(1), 3-16, doi:Doi 10.1162/089120100561601.

Dichy, J., & Farghaly, A. A. S. (2003). Roots & Patterns vs. Stems plus Grammar-Lexis Specifications: on what basis should a multilingual lexical database centered on Arabic be built? Paper presented at the MT-Summit IX workshop on machine translation for Semitic languages, New Orleans, USA,

Doumi, N., Lehireche, A., Maurel, D., & Ali Cherif, M. (2013a). La conception d'un jeu de ressources libres pour le TAL arabe sous Unitex.Paper presented at the TRADETAL2013, Colloque international en Traductologie et TAL, Oran - Algeria, 5-6 may

Habash, N. (2010). Introduction to Arabic natural language processing (Synthesis Lectures on Human Language Technologies): Morgan & Claypool.

Habash, N. (2007). Arabic morphological representations for machine translation. Paper presented at the Text, Speech, and Language Technology, Arabic Computational Morphology: Knowledge based and Empirical Methods,

Kenneth, R. B. (2001). Finite-State Morphological Analysis and Generation of Arabic at Xerox Research: Status and Plans. Paper presented at the EACL2001 workshop on Arabic Language Processing: Status and Prospects, Toulouse, France,

93

Khoja, S. APT: Arabic Part-of-Speech Tagger. In The student workshop at NAACL-2001, June 2001 (pp. 20-25)

Kouloughli, D. E. (1994). Grammaire de l'arabe d'aujourd'hui (Langues pour tous). UK: Cox and Waymann Ltd.

Maurel, D., & Guenthener, F. (2005). Automata and dictionaries (Vol. 6, Texts in computing). London: King's college.

Mesfar, S. (2008). Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard. Université de Franche-Comté,

Neme, A. A. A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers. In International Workshop on Lexical Resources, Slovenia, 2011 (pp. 78-85)

Sawalha, M. S. S. (2011). Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora. PhD thesis, University of Leeds, UK.

Smrz, O. ElixirFM - Implementation of Functional Arabic Morphology. In ACL2007, Computational Approaches to Semitic Languages: Common Issues and Resources, Prague, Czech Republic, 2007 (pp. 1-8)

94

Development of Arabic particles lexiconusing the LMF framework

Driss Namly *, Karim Bouzoubaa *, Youssef Tahir **, Hakima Khamar *** *Ecole mohammadia d’ingénieurs, Université mohammed V Rabat, Maroc

**Ecole Nationale Supérieure d'Arts et Métiers, Casablanca

*** Faculté des lettres et des sciences humaines, Université mohammed V Rabat,

[email protected]; [email protected]; [email protected]; [email protected]

RÉSUMÉ.Le développement technologique et la croissance rapide dans le domaine du Traitement Automatique de la Langues Arabe (TALA) offrent des applications de plus en plus performantes et engendrent un intérêt particulier pour les ressources linguistiques. Cet article traite le développement de la ressource des particules Arabes. Ce choix s'explique par l'importance des particules dans la constitution d'une phrase. A titre d'exemple, la signification d'une phrase change totalement avec le changement de l'une de ses particules. Nous décrivons dans ce travail le processus de création et la méthodologie utilisés pour construire cette ressource. Cette dernière est constituée de 315 particules avec un ensemble de propriétés morpho-syntaxiques.

ABSTRACT.The technological development and the advanced growing of Arabic Natural Language Processing (ANLP) field offer advanced applications and lead to a particular interest in Language Resources. This paper focuses on Arabic particles resource development. This choice is explained by the importance of particles in sentences structure. As such, the meaning of a sentence changes completely with the change of one of its particles. Specifically, we describe the building process and methodology used for the resource that consists of 315 particles. Each one of them is detailed with its morpho-syntactic features.

MOTS-CLÉS : Langue arabe, lexique linguistique, particules Arabe, LMF.

KEYWORDS: Arabic language, linguistic lexicon, Arabic particles, LMF.

1. Introduction In the high tech area (Smartphone, tablet, 4G, cloud computing, etc.) where the Information and communication technology have reached the maturity stage, Natural Language Processing (NLP) - at the intersection of three disciplines: linguistics, Information Technology and Statistics - is a growing field that offer advanced applications such as Information Retrieval, Machine Translation, Text Briefing and Question-Answering. NLP applications, like any other development programs, must respect during the development process, the software quality assurance requirements1 (design and coding requirements, code control, testing, change and release management, etc.) to ensure portability, interoperability and reusability of the application, and offer a product working in all platforms and compatible with any data format. In reality, many NLP applications suffer from the non-compliance with these exigencies (Nancy Ide, 2008). These quality imperatives have promoted the importance given in recent years to both NLP applications and Language Resources (LRs) with the aim to ensure effective interoperability, because they are certainly a decisive element in this chain (Nancy Ide and James Pustejovsky, 2010).

1730-2014 - IEEE Standard for Software Quality Assurance Processes.



95

This interest in LRs (mono or multi-lingual text, treebanks, dialogues, dictionaries, terminologies, ontologies) prompted experts to work in this specialized research domain and to define them as data language available in an electronic format, and used for the development of language processing systems. LRs can be classified into two categories: corpora and lexicon (Bente Maegaard and al., 2006). As an example of corpora, we enumerate: The Corpus of Contemporary Arabic (Latifa Al-Sulaiti and Eric Atwell, 2006) and Quranic Arabic Corpus (Kais Dukes and Nizar Habash, 2010). As an example of lexicon, we enumerate: Buckwalter’s list of Arabic roots (Tim Buckwalter, 2004) and Bilingual Dictionaries for Colloquial Arabic Dialects (David Graff and Mohamed Maamouri, 2012).

The recognition of the crucial role of LRs in the NLP sphere has led to the expansion and the revival of research and development in the field of language industries. This progress is promoted by the LRs community (Nicoletta Calzolari, 2008) formed by Distributors (LDC, ELRA, OLAC, NICT)2, Research projects (CLARIN, FLaReNet, PAROLE, SIMPLE, WRITE, NEMLAR)2, alliances and associations (META-NET, EAGLES, ELAN, NERC, RELATOR, AFNLP)2 and conferences (LREC, ICGL, TELRI)2.

In spite of this enlargement in the LRs community, many difficulties are encountered in the use of available LRs in a different environment than the original one. These troubles are due to the non-respect during the development process of some fundamental interoperability guides (Nancy Ide and James Pustejovsky, 2010):

Availability: Accessibility (free vs. proprietary), affordability (resources at a very high cost) and customizability (the degree of manipulability of resources)

Portability: ability to serve in different platforms Usability: application programming interfaces (APIs) implementation Standardization: Representation format that allows the coexistence of resources from

different sources.

Arabic LRs as part of the Arabic Natural Language Processing (ANLP), present more challenges (Ali Farghaly and Kkaled Shaalan, 2009) than interoperability instructions due to Arabic language structure as a semitic, highly structured and derivational language with rich templatic morphology.

The most important challenge is shortage in Arabic LRs caused by two main factors. The first one is the independence between LRs and applications. For example, in the Buckwalter Arabic Morphological Analyzer, some resources are integrated in the code such as the integration of Arabic letters in romanizeWord() method, practice which makes the resource unusable outside the analyzer. The second one is the proprietary aspect of LRs such as those offered by distributors like Linguistic Data Consortium3 (LDC) and European Language Resources Association4 (ELRA). Additionally, even those freely available, they suffer from some constraints like the specificity of locally developed resources or the lack of details and linguistic information, except a few ones.

Thus, our main purpose in the current work is to contribute in the development of a set of Arabic LRs complying with the four mentioned interoperability rules (availability, portability, usability and standardization), with the aim of their wide distribution and use in ANLP research.We note that we haven't found similar free resource.

As such, the primary objective of this paper is to present particles resource with these methods, and a usage example for educational purposes. The particles choice as one of three 2Details in Abbreviation list in appendis A 3https://www.ldc.upenn.edu/ 4http://www.elra.info/

https://www.ldc.upenn.edu/

http://www.elra.info/

96

categories of the Arabic word (noun, verb and particle اسم وفعل وحرف- Aism ,fiEl, Harf 5) (Owens, Jonathan, 1989) is due to the non availability of particles resource meeting the above LRs requirement and as a completion of the previous development on the Arabic alphabet and affixes (Taoufik Loukili and Karim Bouzoubaa, 2011). It is natural to work on the particles before working later on the other two great important categories that are nouns and verbs.

In addition, the use of particles resource may be possible in different levels and by different tools in ANLP systems such as:

Morphosyntactic analysis: Arabic sentences contain most of the time particles. Therefore, the knowledge of their morphosyntactic features makes this task easier;

Corpus annotation: annotating particles in a corpus becomes simple with the availability of a particles lexicon giving annotations.

The particles data are designed by the collection of Arabic particles with their morphosyntactic features and their classification into three subsets (particle, special nouns and special verbs) according to the Arabic language word categories ( 2013, محمد الجوھرى ). The structure of this paper is as follows: in the second part we define Arabic particles, in the third section we discuss Lexical Markup Framework (LMF: the ISO 24613 standard) as a data representation format used to hold Arabic particles, in the fourth section we examine particles resource with an example of use and we conclude with a summary and future works.

2. Arabic particles Arabic words are divided into three categories: noun, verb and particle ( 2011, عبد الوھاب حسن ). Nouns are known by symptoms like:

kasra acceptance ( الخفض), for example : "In the neighbor's house - في منزل جاري-fy manzili jAry", the word "manzili - منزل" accept Kasra vowel

double vowels acceptance ( التنوین), for example : "This is a key - ھذا مفتاح- ha*A miftAHN", the word " miftAHN - مفتاح" take dammatayn vowel

definite article acceptance ( دخول األلف والالم), for example : "the weather is clean - الجو .accept the definite article ”الجو - AljawuSaHwN", the word “Aljawu-صحو

Verbs are known by: qad acceptance ( قد), for example : "May your hearing - قد سمعك- qadsamiEaka", the

word "samiEa - سمع" appear after "qad - قد" si~yn acceptance (السین), for example : "I will Wandering - سأتجول- sa>atajawalu", the

word ">atajawalu - أتجول" is preceded by " si~yn - س" sawofa acceptance ( سوف), for example : " you will succeed - سوف تنجح-

sawofatanjaHu ", the word "tanjaHu - تنجح" is preceded by "sawofa - سوف" ta' altanyth acceptance ( تاء التأنیث), for example : "she wrote a wonderful article - ت كتب

رائعا 'is terminated by "ta "كتب - katabat maqaAlF raA}iEaAF ", the word "kataba -مقاالaltanyth - تاء التأنیث".

Particles are words to which noun and verb symptoms cannot apply. They are divided into two categories: building particles ( حروف المباني- HorowfAlmabAny) and meaning particles Building particles are the .(and al., 2008حفني ناصف ) (HorowfAlmaEAny -حروف المعاني )alphabet letters "ا، ب، ت، ث، ج، ح، خ" and meaning particles are what cannot be understood on its own and its shape does not change (مبنیة) such as "من، في، بلى، حتى".

Meaning particles, that are the subject of our work in this article, are categorized in the Arabic literature according to several criteria:

5According to Buckwalter Arabic transliteration.

97

In terms of the work, Meaning particles are, worker (حروف عاملة) [HorowfEAmilap] such as"إن وأخواتھا" or Not worker (حروف غیر عاملة) [Horowf gayr EAmilap] such as ."بلى، نعم"

In terms of association, there is a distinction between particles which combine only with names (مختصة باألسماء) [moxtaS~apbiAl>asmA'] like "preposition - حروف الجر", only with verbs (مختصة باألفعال) [moxtaS~apbiAlOfEaAl] like "accusative particles - and which combine with both names and verbs [mo$tarakap "حروف النصبlil>asmaA'wAl>afEaAl] (مشتركة لألسماء واألفعال) like "conjunction - حروف العطف".

Meaning particles are also divided into groups of several meanings depending on the moral purpose, to form classes with a common meaning:

o Answer particle (حرف جواب) like : ال، نعم، بلى، إي، أجل[>ajal, <iy, balaY, naEam, laA]

o Negative particle (حرف نفي) like : لم، لما، لن، ما، ال، الت، إن[Ino, laA, maA, lano, lam~aA, lam]

o Conditional particle (حرف شرط) like : ،إن، إذ ما، لو، لوال، لوما[lawmaA, lawlaA, law, <i*maA, <ino]

o Exhortation particle (حرف تحضیض) like : لوال، لوما ، ,lawmaA, lawlaA]أال، ھالhalA, >alaA]

o Future particle (حرف استقبال) like : السین، سوف، أن، إن، لن، ھل[hal, lano, <in, >an, sawfa, Alsi~yn]

Some authors divide particles into five sections: mono, bi, tri, quad, and quintet of characters.

In our design we chose to split the particles resource into three modules, similar to Arabic word categories, that are called particle, special nouns and special verbs. This categorization is explained by the fact that there are some names or verbs having the particles morphology. For example, the word " من" [mano] comply with particles symptoms and have particles morphology, but syntactically, it is a question name (اسم استفھام). The multiple usage options of particles resource forces us to adopt a format that meets the above-mentioned interoperability guides (availability, portability, usability and standardization) through the adoption of a recognized standard such as the LMF that we present in the next section.

3. Lexical Markup Framework The diversity and variety in norms and standards of LRs arise from the contribution of several organizations across research projects to propose standards, like BNC project6, EAGLES/ISLE7 (Nicoletta Calzolari and al., 2002) and LIRICS (The Linguistic Infrastructure for Interoperable Resources and Systems). This task of processing market standards is carried by ISO/TC 37/SC 4, the fourth subcommittee of the technical committees "Terminology and other language and content resources" in International Organization for Standardization, which develops ISO international standards for language resource management (LRM). In this work we use the ISO 24613 (ISO 24613:2008, 2008) standard corresponding to the LMF norm (Lexical Markup Framework), in order to offer a LR in a highest degree of acceptability which ensures an easy exchange among NLP applications.

LMF is described by the International Organization for Standardization as a meta-model for representing data in lexical databases used with monolingual and multilingual computer

6http://xml.coverpages.org/bnc-encoding2.html 7www.ilc.cnr.it/EAGLES96/isle/

http://xml.coverpages.org/bnc-encoding2.html

http://www.ilc.cnr.it/EAGLES96/isle/

98

applications, so as to provide mechanisms that allow the development and integration of a variety of electronic lexical resource types. LMF support in its design other standards such as compatibility with the Unicode standard, and the use of linguistic information attribute-value pairs used in the ISO 12620 Data Category Registry (DCR)8. Additionally, LMF uses a subset of UML that is relevant for linguistic description complying with principles defined by the Object Management Group (OMG)9.

LMF is composed of two blocks: LMF core package and LMF extensions. So, for particles resource representation, we use the morphological and syntactic LMF extensions.

4. Particles resource In the respect of the LMF model, the particles resource is presented as follows:

Figure 1.ParticlesXML data fileextract

This figure shows an excerpt of the XML file. According to the Arabic language structure, we have used Lemma and Word Form classes of LMF morphological extension and Syntactic Behaviour of LMF syntactic extension, which are used to describe, respectively, the written form of the lemma, the inflected forms properties and syntactic description. Detailed description of the syntactic behaviour is defined by the sub-categorization frame that can be exploited in the contextual exploration like sentences segmentation. The resource contains three subcategories: particle, special nouns and special verbs.

In full respect of the Arabic language peculiarities, the “particle” sub-group contains the following common meaning Arabic particles: inceptive particle, coordinating conjunction, answer particle, preposition, future particle, conditional particle, amendment particle, exceptive particle, accusative particle, subordinating conjunction, vocative particle, negative particle, exhortation particle and supplemental particle. Figure 1 shows an example of the conjunction "About - عن" represented as a lexical entry.

Particles having name-like morphology such as relative pronoun, personal pronoun, demonstrative pronouns and interrogative pronouns are classified under the “special nouns” subcategory. Figure 1 shows an example of the personal pronoun "you - أنتم". Moreover, particles having verb-like morphology such as certitude verbs, transposition verbs, hopefulness verbs and starting verbs, are classified under the “special verbs” subcategory.

8www.isocat.org 9www.omg.org

http://www.isocat.org

http://www.omg.org

99

The resource elaboration was done manually by linguists using the Arabic litterature such as ) "الجنى الداني في حروف المعاني" فخر الدین قباوة و محمد ندیم فاضل, & المرادي، الحسن بن قاسم ) to come up with a file containing 69 particles, 180 special nouns and 66 special verbs. The number 315 particles (which can reach ten thousand when particles are combined with affixes) may seem small, but it is large and most exhaustive compared to the number of Arabic particles. That file was structured and designed to respect the interoperability features mentioned above:

portability: represented as an XML file, the particles resource can be used and exploited in any platform;

standardization: respecting the LMF format, the particles resource is considered as a standard resource;

usability: as explained below, the resource is usable not only as a file but also through a dedicated APIs

On another hand, to simplify the use of this resource without the need to fully understand its content and the structure of the LMF format, the Particles resources is also available through an API allowing ANLP developers accessing it by calling specific methods. This has been done in the context of the SAFAR platform (Seddik Sidrine and al., 2010) (Software Architecture For Arabic language pRocessing). Let us recall that SAFAR, is an open source platform dedicated for ANLP wich offers an integrated development environment dedicated to the development of Arabic NLP systems, offering tools such as morphological analyzers, morphological stemmers, sentence parsers, tokenization and transliteration. In addition, it offers methods to use and access resources such as corpora, alphabet, clitic, dictionary, ontology and particles.

Figure 2.Particles package in SAFAR plateforme

The particles resource is then integrated as a data in the resources package (Figure 2). Under this package, we find the three categories of the particles resource (particle, special nouns and special verbs). Below is an extract of the most useful methods within this API.

100

Figure 3.Extract of Particles API methods

For example, the following code illustrates the use of the method isParticle() that allows to test the existence of a word in particles data (if it's a particle).

Figure 4.findParticles() method

Through a standard set of classes and methods, constituting a software library which serves as a channel which offer an indirect access to these resources, a programmer don’t needs to know something else to make full use of the resources, without deepening in all internal details of these resources. The second access method is the direct access to resources constituted by xml files exploiting in other tools. The particles package can be easily used in several tools such as morphosyntactic analysis, automatic text generation, spell-checking and information retrieval applications. This example exposes the resource exploited for educational purposes.

Figure 5.Particles learning application

An educational activity (Fanny Rinck and Thomas Lebarbé, 2005) is the implementation of a minimum objective. The educational objective of this activity is to assess the learner's knowledge about a central concept which is "particles" in an exercise. The activity consists for example to determine the most appropriate particle in a sentence or to fix the grammatical properties of some particles in a definition paragraph.

101

Learners in this exercise have to choose the correct answer from a list of choices.

5. Summary and future works In this article, we describe the design process and production mechanisms of an Arabic particles resource with their morphosyntactic features, which consists of three sub-categories (particle, special nouns and special verbs) in the respect of interoperability guides in the context of the LMF-ISO 24613 standard. In future works, we intend to develop other resources such as stop Lists, words roots and patterns lists in order to converge to dictionaries and lexicons so that to offer a wide range of usable resources in different platforms for different purposes.

References Aïda Khemakhem, Imen Elleuch, Bilel Gargouri & Abdelhamid Ben Hamadou. 2009. Towards an automatic

conversion approach of editorial Arabic dictionaries into LMF-ISO 24613 standardized model. In Proceedings of the Second International Conference on Arabic Language Resources and Tools, Cairo, Egypt.

Ali Farghaly and Kkaled Shaalan. 2009. Arabic Natural Language Processing: Challenges and Solutions, the Association for Computing Machinery (ACM), Transactions on Asian Language Information Processing TALIP Vol 8, Issue 4, December.

Bente Maegaard, Steven Krauwer, Khalid Choukri & Lise Damsgaard Jorgensen. 2006. The BLARK concept and BLARK for Arabic. In Fifth International Conference on Language Resources and Evaluation, LREC’06.

David Graff and Mohamed Maamouri. 2012. Developing LMF-XML Bilingual Dictionaries for Colloquial Arabic Dialects. Proceedings of the Second Language Resources and Evaluation Conference (LREC). p. 269-274, Istanbul, Turkey, May 21-27.

Fanny Rinck, Thomas Lebarbé. 2005. Constitution et exploitation pédagogique de ressources linguistiques pour un enseignement / apprentissage du discours rapport. Journées de la Linguistique de Corpus.Lorient, France.

Feten Baccar, Aïda Khemakhem, Bilel Gargouri, Kais Haddar, & Abdelhamid Ben Hamadou. 2008. Modélisation normalisée LMF des dictionnaires électroniques éditoriaux de l’arabe. In Proceedings of the 15eme Conference Annuelle sur le Traitement Automatique des Langues Naturelles (TALN’08).

ISO 24613:2008. 2008. Language resource management - Lexical markup framework (LMF). ISO/FDIS.

Kais Dukes and Nizar Habash.2010, May.Morphological Annotation of Quranic Arabic.In LREC.

Latifa Al-Sulaiti and Eric Atwell. 2006. The design of a corpus of contemporary Arabic. International Journal of Corpus Linguistics, vol. 11, no. 2, pp. 135-171, John Benjamins Publishing Company.

Nancy Ide. 2008. Global Interoperability: How Can We Get There?.The First International Conference on Global Interoperability for Language Resources, ICGL.

Nancy Ide and James Pustejovsky. 2010. What Does Interoperability Mean, Anyway? Toward an Operational Definition of Interoperability for Language Technology.The Second International Conference on Global Interoperability for Language Resources, ICGL.

Nicoletta Calzolari and Ralph Grishman and Martha Stone Palmer. 2002. Standards & best practice for multilingual computational lexicons: ISLE MILE and more. Proceedings of the Language Resources and Evaluation Conference, Gran Canaria.

Nicoletta Calzolari. 2008. Approaches towards a "Lexical Web": the role of Interoperability. The First International Conference on Global Interoperability for Language Resources, ICGL

Owens Jonathan. 1989. The syntactic Basis of Arabic word classification. Arabica, 211-234.

Seddik Sidrine and Younes Souteh and Karim Bouzoubaa and Taoufik Loukili. 2010. SAFAR: vers une plateforme ouverte pour le traitement automatique de la langue Arabe. in the Special Issue on "Advances in Arabic Language Processing" for the International Journal on Information and Communication Technologies (IJICT), Serial Publications, June 2010, 11:2533-2541.

102

Taoufik Loukili and Karim Bouzoubaa.2011. Structuration et Standardisation des ressources linguistiques de l’Arabe cas de l’alphabet, préfixes et suffixes. 3ème édition des Journées Doctorales en Technologies de l'Information et de la Communication, ENSA de Tanger.

Tim Buckwalter. 2004. Buckwalter Arabic Morphological Analyzer Version 2.0. Linguistic Data Consortium, catalog number LDC2004L02 and ISBN 1-58563-324-0.

الدانیفیحروفالمعاني.فخرالدینقباوةومحمدندیمفاضل& ,المرادي،الحسنبنقاسم .الجن

مكتبة اآلداب . قواعد اللغة العربیة. 2008. طموم ومحمود عمر وسلطان محمد والشیخ محمد علي طھ الدرةحفني ناصف ومحمد دیاب ومصطفى .الطبعة األولى

.العراق –جامعة بابل .وظیفة البناء الصرفي. 2011. عبد الوھاب حسن حمد احمد

.25.25مصر -مجلة جامعة المدینة العالمیة لعلوم اللغة |Al-Madinah Language Studies.أنواع الجمل والقوالب النحویة 2013.الجوھرى

Appendix A: List of abbreviations

LDC: Linguistic Data Consortium ELRA:European Language Resources Association OLAC:Open Language Archives Community NICT: National Institute of Information and Communication Technology CLARIN:Common Language Resources and Technologies Infrastructure FLaReNet:Fostering Language Resources Network PAROLE:Preparatory Action for Linguistic Resources Organisation for Language

Engineering SIMPLE:Semantic Information for Multifunctional Plurilingual Lexica WRITE:Written Resources Infrastructure, Technology and Evaluation NEMLAR:Network for Euro-Mediterranean LAnguage Resources META-NET:Multilingual Europe Technology Alliance Network EAGLES:Expert Advisory Group on Language Engineering Standards ELAN:European Language Activity Network NERC:Network of European Reference Corpora RELATOR:European Network of Repositories for Linguistic Resources AFNLP:Asian Federation of Natural Language Processing LREC:Language Resources and Evaluation Conference ICGL:International Conference on Global Interoperability TELRI:Trans-European Language ResourcesInfrastructure