1 génération dun analyseur syntaxique basé sur hpsg avec le lkb sirine boukedi, noureddine loukil...

Post on 04-Apr-2015

108 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Génération d’un analyseur syntaxique basé sur HPSG avec le LKB

Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

2

Introduction (1/2)

• TALN (Traitement Automatique des Langues Naturelles)

Tester les hypothèses sur la communication humaine

Traiter les informations naturelles

• TALN couvre quatre niveaux de traitement : Niveau lexical

Niveau syntaxique

Niveau sémantique

Niveau pragmatique

3

• L’analyse syntaxique est une phase fondamentale

Introduction (2/2)

Insuffisance des recherches pour la langue arabe

Choix d’un formalisme adéquat

Complexité de la phase d’analyse

beaucoup d’efforts et de temps

Vérification de plusieurs contraintes

Simplification de la construction d’un analyseur

(i.e., Outils de génération, Heuristiques)

4

Objectifs

• Élaboration d’une grammaire HPSG pour la langue arabe :

Identification d’une hiérarchie de types

Spécification TDL (Type Description Language) de la grammaire conçue

Expérimentation avec l’outil de génération LKB(Linguistic Knowledge Building)

5

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

6

État de l’art • Il existe deux principales approches :

Construction propre d’un analyseur syntaxique

Génération d’un analyseur syntaxique Extensibilité du code

Maintenance facile

Choix de l’algorithme

Coût élevé (plus de temps et d’efforts)

Résultats et efficacité non garantis

Extensibilité difficile

Problème de maintenance

Algorithmes expérimentés

Coût moins cher et efficacité garantie

Ergonomie testée

Entrées sorties bien définis

Génération d’un analyseur syntaxique

(Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006)

(Oscar, 2005), (Laurens, 2007)

7

• Deux systèmes pour l’implémentation de HPSG :

LKB : Linguistic Knowledge Building

TRALE : extension de ALE (Attribute Logic Engine)

Générateurs disponibles

Deux systèmes différents mais de résultats similaires

• En terme d’accessibilité : LKB = TRALE simplifiée

• Interface LKB plus ergonomique

LKB

…État de l’art

8

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

9

Identification d’une hiérarchie de types

• En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992)

Unités simples : des mots

Unités composées : des syntagmes

Signe

SyntagmeMot

PrépositionnelVerbal Nominal

Nom

Décliné Non décliné

Particule

opérativeNon opérative

Verbe

QuadrilitèreTrilitère

10

Verbe

QuadrilatèreTrilitère

DéfectueuxSainDéfectueux Sain

سالم

مهموز

مضعف

مثال

ناقص

أجوف

لفيف

واوي مضعف

يائي مضعف

• Différents critères de catégorisation

• Catégorisation suivant le nombre de lettres

Pour les verbes

…Identification d’une hiérarchie de types

11

• Différents critères de catégorisation

Pour les noms

…Identification d’une hiérarchie de types

• Catégorisation suivant la déclinaison

Nom

Décliné Non décliné

Variable Non Variable Pronoms Non Significatif

بارز

مستتر

االشارة اسم

الموصول اسم

12

• Différents critères de catégorisation

Pour les particules

…Identification d’une hiérarchie de types

Particule

opérativeNon opérative

NomVerbe

الجرالنسخ

االستثناء

الجزم

النصب

العطف

النفي

• Opératives (عاملة) ou non opérative (مهملة)

13

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

14

• HPSG : Head-driven Phrase Structure Grammar

HPSG arabisée

• Une grammaire d’unification à base de contraintes

• Deux composants de base :

Structures Attributs Valeurs Entrées lexicales

Schémas de Domination Immédiate (DI)

Arbres de dérivation

Entrées lexicales(SAV)

Entrées lexicalesélargies

Syntagmes

Règles lexicales

Schémas de DI

Aperçu sur HPSG

15

Structure générale d’une SAV

• Une SAV se compose d’un ensemble de traits• A chaque type de mot est associé un ensemble de traits

PHON< >

SS LOC

NONLOC

CONT

CAT VAL

S-ARG <>

TETE MAJ

…HPSG arabisée

16

• HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications )

• Chaque schéma décrit un phénomène syntaxique bien déterminé

• La composition des syntagmes se fait par vérification des contraintes : Principes

Les schémas de DI

…HPSG arabisée

17

• Un ensemble de contraintes à vérifier

Principe des traits de tête

Principe de valence

Principe de spécification

Les valeurs de traits de tête d’un syntagmeet celles du fils tête doivent être identiques

PHON < le garçon >

SS LOC CATTETE

S-ARG < >

PHON < garçon >

SS LOC CAT TETE

VAL [SPR | SUJ < >]

1

1

2

PHON < le>

SS LOC CAT TÊTE []

2

Les principes

…HPSG arabisée

18

• HPSG a été conçue pour des langues latines

• Adaptation de HPSG à la langue arabe :

Au niveau des traits

Au niveau des schémas

…HPSG arabisée

Modifications apportées

19

• VFORM : Sain / Défectueux

• RADICAL : Trilitère / Quadrilatère

• TYPE : صحيح, مهموزالعين صحيح, مهموزالفاء صحيح

الالم مهموز

• VOIX : Passif /Actif

• ASPECT : Accompli / Inaccompli / Impératif

• RACINE : pour déterminer la racine (جذر) du verbe

Pour les verbes…HPSG arabisée

PHON < يشرب>

SS CAT

TETE

VAL

S – ARG < , >

SPR< particule >

COMPS < SN >

MAJVFORMRADICALTYPEVOIXASPECTRACINEDEC

verbeSainTrilitèreIntact sainَ$ActifInaccompli

ب.ر.شélidé

Opérative-verbe,جزم حرف

2

1

masc

21

LOC

20

• NFORM : Décliné (معرب)/ Non Décliné(مبني)

• DEFINI : oui / non

• NAT : Variable, non Variable, pronom démonstratif,

pronom caché, pronom apparent, pronom relatif

• TOPIC, ATTRIBUT : au niveau du trait VALENCE

Pour les noms

…HPSG arabisée

PHON < هذا>

SS

CAT TETE

MAJNFORMDEFININATDECSPEC

nomnon déclinénulp.demonstratif $saturée

CONT RESTIND 1Décliné, masc, sing

SPR< nom >

PHON < الولد>

SS CAT

TETE

VAL

MAJNFORMDEFININATDEC

nomdéclinéouivariableَ$régulière

Non décliné مبني,

non significatif مبهم

1

1

21

Pour les particules…HPSG arabisée

• PFORM : opérative_nom, opérative_verbe, non_opérative

• NATP : حرف, نصب حرف, نسخ حرف, جر حرف عطف

PHON < <لم

SS

CAT

TETE

MAJPFORMNATPDECSPEC

ParticuleOpèrative_verbe

جزم حرفsaturée $

1LOC

22

• Adaptation de HPSG à la langue arabe:

Au niveau des traits

Au niveau des schémas

…HPSG arabisée

Modifications apportées

23

Règle de spécification 1

PHON< هذا < الولد

SSLOC CAT

S-ARG <>

TETE

PHON< الولد >

SSLOC CAT TETE 1

1

VAL [SPR< >]2

PHON< هذا >

SSLOC CAT TETENFORM non décDEFINI nonNAT p.dem

2

24

Règle de spécification 2

PHON< الولد < جميل

SSLOC CAT

VAL < >

TETE 1

2

PHON< جميل >

SSLOC CAT TETENFORM déclinéDEFINI non

PHON< الولد >

SSLOC CAT TETE 1

VAL ATTRIBUT< >

2

Fils – tête Fils – non tête

25

Règle de complémentation

PHON< ولد < الجار

SSLOC CAT

VAL < >

TETE

PHON< ولد >

SSLOC CATTETE 1

1

VAL [COMPS < >]

2

NFORM déclinéDEFINI nonADJ non

PHON< الجار >

SS LOC CATTETE

NFORM déclinéDEFINI ouiADJ nonDEC réduite

2

Fils – tête Fils – comps

26

Règle de modificationPHON<فتاة < جميلة

SSLOC CAT

VAL < >

TETE 1

2

PHON<فتاة >

SSLOC CAT

VAL < >

TETE 1

2

PHON< جميلة >

SSLOC CAT

VAL < >

TETE

3

[MOD ]3

Fils – tête Fils – modifieur

27

Plan

Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

28

Spécification TDL

• TDL : Type Description Language

OPÉRATEUR

: =

&

.

,

[ ]

< >

# [a-z]

#| ... |#

FONCTION

L’élément à gauche est une instance de celui de droite

Adjonction de constraintes

Fin d’une description de type. Aussi équivalent de [ ]

Séparation des couples attribut-valeur dans une SAV

SAV

Liste

Ettiquette pour indiquer la coréference

Commentaires de plusieurs lignes

29

PHON< هذا >

SSLOC

CAT TETEMAJ nomNFORM non décDEFINI nonNAT p.dem

CONT IND NOMB singGEN masc

hadha:=lex-nom-non-decline &[PHON <!«hadha»!>,

SS[LOC[CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]],

CONT[ IND[NOMB sing, GEN masc]]]].

Spécification d’une SAV

…Spécification TDL

30

PHON< ولد < الجار

SSLOC CAT

VAL < >

TETE

PHON< ولد >

SSLOC CATTETE 1

1

VAL [COMPS] < >

2

NFORM déclinéDEFINI nonADJ non

PHON< الجار >

SS LOC CATTETE

NFORM déclinéDEFINI ouiADJ nonDEC réduite

2

…Spécification TDL Spécification d’un schéma

regle_annexion := regle-bin-t-init &[SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]].

31

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

32

• LKB (Linguistic Knowledge Building)

• Outil de génération

• Deux types de fichiers

Fichiers TDL (i.e., types.tdl, rsynt.tdl)

Fichiers LISP (i.e., script.lsp)

Expérimentation avec LKB Aperçu sur LKB

33

Étape 1 : Chargement de la grammaire conçueÉtape 2 : Expérimentation de l’analyseur syntaxique généré

Etapes d’analyses

…Expérimentation avec LKB

34

Analyse complète

…Expérimentation avec LKB

35

…Expérimentation avec LKB

Fichier in : « test.txt » Fichier out : « résultat.txt »

36

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

37

Évaluation

• Corpus de 200 phrases découpées et translittérées

• Phrases simples verbales et nominales phrases nominales : SN + SN

phrases nominales : SN + SV

phrases verbales : SV + Sujet

phrases verbales : SV + Sujet + Comps

lexique de 781 mots

38

…Évaluation

Nbre d’analyse (n) Nbre de phrasesayant n

analyse(s)

0 25

1 170

2 5

200

• 85 % des phrases sont analysées correctement

39

…Évaluation

• Cas d’échec :

Le phénomène de coordination

Le phénomène des relatives

Le phénomène de l’ellipse

Absence de règles syntaxiques

Ambiguïté

40

Plan Introduction Objectif État de l’art

Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

41

Conclusion et perspectives

• Identification d’une hiérarchie de types pour l’arabe

• Élaboration d’une grammaire HPSG arabisée

• Spécification TDL

• Expérimentation sur le système LKB

• Spécification plus précise des contraintes

• Couvrir d’autres phénomènes syntaxiques

• Spécification de règles flexionnelles

42

Merci pour votre attention

top related