1 génération dun analyseur syntaxique basé sur hpsg avec le lkb sirine boukedi, noureddine loukil...

42
1 Génération d’un analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

Upload: paulette-cros

Post on 04-Apr-2015

108 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

1

Génération d’un analyseur syntaxique basé sur HPSG avec le LKB

Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

Page 2: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

2

Introduction (1/2)

• TALN (Traitement Automatique des Langues Naturelles)

Tester les hypothèses sur la communication humaine

Traiter les informations naturelles

• TALN couvre quatre niveaux de traitement : Niveau lexical

Niveau syntaxique

Niveau sémantique

Niveau pragmatique

Page 3: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

3

• L’analyse syntaxique est une phase fondamentale

Introduction (2/2)

Insuffisance des recherches pour la langue arabe

Choix d’un formalisme adéquat

Complexité de la phase d’analyse

beaucoup d’efforts et de temps

Vérification de plusieurs contraintes

Simplification de la construction d’un analyseur

(i.e., Outils de génération, Heuristiques)

Page 4: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

4

Objectifs

• Élaboration d’une grammaire HPSG pour la langue arabe :

Identification d’une hiérarchie de types

Spécification TDL (Type Description Language) de la grammaire conçue

Expérimentation avec l’outil de génération LKB(Linguistic Knowledge Building)

Page 5: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

5

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 6: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

6

État de l’art • Il existe deux principales approches :

Construction propre d’un analyseur syntaxique

Génération d’un analyseur syntaxique Extensibilité du code

Maintenance facile

Choix de l’algorithme

Coût élevé (plus de temps et d’efforts)

Résultats et efficacité non garantis

Extensibilité difficile

Problème de maintenance

Algorithmes expérimentés

Coût moins cher et efficacité garantie

Ergonomie testée

Entrées sorties bien définis

Génération d’un analyseur syntaxique

(Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006)

(Oscar, 2005), (Laurens, 2007)

Page 7: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

7

• Deux systèmes pour l’implémentation de HPSG :

LKB : Linguistic Knowledge Building

TRALE : extension de ALE (Attribute Logic Engine)

Générateurs disponibles

Deux systèmes différents mais de résultats similaires

• En terme d’accessibilité : LKB = TRALE simplifiée

• Interface LKB plus ergonomique

LKB

…État de l’art

Page 8: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

8

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 9: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

9

Identification d’une hiérarchie de types

• En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992)

Unités simples : des mots

Unités composées : des syntagmes

Signe

SyntagmeMot

PrépositionnelVerbal Nominal

Nom

Décliné Non décliné

Particule

opérativeNon opérative

Verbe

QuadrilitèreTrilitère

Page 10: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

10

Verbe

QuadrilatèreTrilitère

DéfectueuxSainDéfectueux Sain

سالم

مهموز

مضعف

مثال

ناقص

أجوف

لفيف

واوي مضعف

يائي مضعف

• Différents critères de catégorisation

• Catégorisation suivant le nombre de lettres

Pour les verbes

…Identification d’une hiérarchie de types

Page 11: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

11

• Différents critères de catégorisation

Pour les noms

…Identification d’une hiérarchie de types

• Catégorisation suivant la déclinaison

Nom

Décliné Non décliné

Variable Non Variable Pronoms Non Significatif

بارز

مستتر

االشارة اسم

الموصول اسم

Page 12: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

12

• Différents critères de catégorisation

Pour les particules

…Identification d’une hiérarchie de types

Particule

opérativeNon opérative

NomVerbe

الجرالنسخ

االستثناء

الجزم

النصب

العطف

النفي

• Opératives (عاملة) ou non opérative (مهملة)

Page 13: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

13

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 14: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

14

• HPSG : Head-driven Phrase Structure Grammar

HPSG arabisée

• Une grammaire d’unification à base de contraintes

• Deux composants de base :

Structures Attributs Valeurs Entrées lexicales

Schémas de Domination Immédiate (DI)

Arbres de dérivation

Entrées lexicales(SAV)

Entrées lexicalesélargies

Syntagmes

Règles lexicales

Schémas de DI

Aperçu sur HPSG

Page 15: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

15

Structure générale d’une SAV

• Une SAV se compose d’un ensemble de traits• A chaque type de mot est associé un ensemble de traits

PHON< >

SS LOC

NONLOC

CONT

CAT VAL

S-ARG <>

TETE MAJ

…HPSG arabisée

Page 16: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

16

• HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications )

• Chaque schéma décrit un phénomène syntaxique bien déterminé

• La composition des syntagmes se fait par vérification des contraintes : Principes

Les schémas de DI

…HPSG arabisée

Page 17: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

17

• Un ensemble de contraintes à vérifier

Principe des traits de tête

Principe de valence

Principe de spécification

Les valeurs de traits de tête d’un syntagmeet celles du fils tête doivent être identiques

PHON < le garçon >

SS LOC CATTETE

S-ARG < >

PHON < garçon >

SS LOC CAT TETE

VAL [SPR | SUJ < >]

1

1

2

PHON < le>

SS LOC CAT TÊTE []

2

Les principes

…HPSG arabisée

Page 18: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

18

• HPSG a été conçue pour des langues latines

• Adaptation de HPSG à la langue arabe :

Au niveau des traits

Au niveau des schémas

…HPSG arabisée

Modifications apportées

Page 19: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

19

• VFORM : Sain / Défectueux

• RADICAL : Trilitère / Quadrilatère

• TYPE : صحيح, مهموزالعين صحيح, مهموزالفاء صحيح

الالم مهموز

• VOIX : Passif /Actif

• ASPECT : Accompli / Inaccompli / Impératif

• RACINE : pour déterminer la racine (جذر) du verbe

Pour les verbes…HPSG arabisée

PHON < يشرب>

SS CAT

TETE

VAL

S – ARG < , >

SPR< particule >

COMPS < SN >

MAJVFORMRADICALTYPEVOIXASPECTRACINEDEC

verbeSainTrilitèreIntact sainَ$ActifInaccompli

ب.ر.شélidé

Opérative-verbe,جزم حرف

2

1

masc

21

LOC

Page 20: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

20

• NFORM : Décliné (معرب)/ Non Décliné(مبني)

• DEFINI : oui / non

• NAT : Variable, non Variable, pronom démonstratif,

pronom caché, pronom apparent, pronom relatif

• TOPIC, ATTRIBUT : au niveau du trait VALENCE

Pour les noms

…HPSG arabisée

PHON < هذا>

SS

CAT TETE

MAJNFORMDEFININATDECSPEC

nomnon déclinénulp.demonstratif $saturée

CONT RESTIND 1Décliné, masc, sing

SPR< nom >

PHON < الولد>

SS CAT

TETE

VAL

MAJNFORMDEFININATDEC

nomdéclinéouivariableَ$régulière

Non décliné مبني,

non significatif مبهم

1

1

Page 21: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

21

Pour les particules…HPSG arabisée

• PFORM : opérative_nom, opérative_verbe, non_opérative

• NATP : حرف, نصب حرف, نسخ حرف, جر حرف عطف

PHON < <لم

SS

CAT

TETE

MAJPFORMNATPDECSPEC

ParticuleOpèrative_verbe

جزم حرفsaturée $

1LOC

Page 22: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

22

• Adaptation de HPSG à la langue arabe:

Au niveau des traits

Au niveau des schémas

…HPSG arabisée

Modifications apportées

Page 23: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

23

Règle de spécification 1

PHON< هذا < الولد

SSLOC CAT

S-ARG <>

TETE

PHON< الولد >

SSLOC CAT TETE 1

1

VAL [SPR< >]2

PHON< هذا >

SSLOC CAT TETENFORM non décDEFINI nonNAT p.dem

2

Page 24: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

24

Règle de spécification 2

PHON< الولد < جميل

SSLOC CAT

VAL < >

TETE 1

2

PHON< جميل >

SSLOC CAT TETENFORM déclinéDEFINI non

PHON< الولد >

SSLOC CAT TETE 1

VAL ATTRIBUT< >

2

Fils – tête Fils – non tête

Page 25: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

25

Règle de complémentation

PHON< ولد < الجار

SSLOC CAT

VAL < >

TETE

PHON< ولد >

SSLOC CATTETE 1

1

VAL [COMPS < >]

2

NFORM déclinéDEFINI nonADJ non

PHON< الجار >

SS LOC CATTETE

NFORM déclinéDEFINI ouiADJ nonDEC réduite

2

Fils – tête Fils – comps

Page 26: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

26

Règle de modificationPHON<فتاة < جميلة

SSLOC CAT

VAL < >

TETE 1

2

PHON<فتاة >

SSLOC CAT

VAL < >

TETE 1

2

PHON< جميلة >

SSLOC CAT

VAL < >

TETE

3

[MOD ]3

Fils – tête Fils – modifieur

Page 27: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

27

Plan

Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 28: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

28

Spécification TDL

• TDL : Type Description Language

OPÉRATEUR

: =

&

.

,

[ ]

< >

# [a-z]

#| ... |#

FONCTION

L’élément à gauche est une instance de celui de droite

Adjonction de constraintes

Fin d’une description de type. Aussi équivalent de [ ]

Séparation des couples attribut-valeur dans une SAV

SAV

Liste

Ettiquette pour indiquer la coréference

Commentaires de plusieurs lignes

Page 29: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

29

PHON< هذا >

SSLOC

CAT TETEMAJ nomNFORM non décDEFINI nonNAT p.dem

CONT IND NOMB singGEN masc

hadha:=lex-nom-non-decline &[PHON <!«hadha»!>,

SS[LOC[CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]],

CONT[ IND[NOMB sing, GEN masc]]]].

Spécification d’une SAV

…Spécification TDL

Page 30: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

30

PHON< ولد < الجار

SSLOC CAT

VAL < >

TETE

PHON< ولد >

SSLOC CATTETE 1

1

VAL [COMPS] < >

2

NFORM déclinéDEFINI nonADJ non

PHON< الجار >

SS LOC CATTETE

NFORM déclinéDEFINI ouiADJ nonDEC réduite

2

…Spécification TDL Spécification d’un schéma

regle_annexion := regle-bin-t-init &[SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]].

Page 31: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

31

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 32: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

32

• LKB (Linguistic Knowledge Building)

• Outil de génération

• Deux types de fichiers

Fichiers TDL (i.e., types.tdl, rsynt.tdl)

Fichiers LISP (i.e., script.lsp)

Expérimentation avec LKB Aperçu sur LKB

Page 33: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

33

Étape 1 : Chargement de la grammaire conçueÉtape 2 : Expérimentation de l’analyseur syntaxique généré

Etapes d’analyses

…Expérimentation avec LKB

Page 34: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

34

Analyse complète

…Expérimentation avec LKB

Page 35: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

35

…Expérimentation avec LKB

Fichier in : « test.txt » Fichier out : « résultat.txt »

Page 36: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

36

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 37: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

37

Évaluation

• Corpus de 200 phrases découpées et translittérées

• Phrases simples verbales et nominales phrases nominales : SN + SN

phrases nominales : SN + SV

phrases verbales : SV + Sujet

phrases verbales : SV + Sujet + Comps

lexique de 781 mots

Page 38: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

38

…Évaluation

Nbre d’analyse (n) Nbre de phrasesayant n

analyse(s)

0 25

1 170

2 5

200

• 85 % des phrases sont analysées correctement

Page 39: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

39

…Évaluation

• Cas d’échec :

Le phénomène de coordination

Le phénomène des relatives

Le phénomène de l’ellipse

Absence de règles syntaxiques

Ambiguïté

Page 40: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

40

Plan Introduction Objectif État de l’art

Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Page 41: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

41

Conclusion et perspectives

• Identification d’une hiérarchie de types pour l’arabe

• Élaboration d’une grammaire HPSG arabisée

• Spécification TDL

• Expérimentation sur le système LKB

• Spécification plus précise des contraintes

• Couvrir d’autres phénomènes syntaxiques

• Spécification de règles flexionnelles

Page 42: 1 Génération dun analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

42

Merci pour votre attention