aree t eeraparbseree geta-clips-imag grenoble, france soutenance de thèse, 27 septembre 2005

83
Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

Upload: vivian-wilkerson

Post on 03-Jan-2016

19 views

Category:

Documents


0 download

DESCRIPTION

Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies. Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005. EN. EN. FR. JA. DE. MS. FR. JMDict. FeM. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à

lexies et axies

Aree TEERAPARBSEREEGETA-CLIPS-IMAG

Grenoble, FRANCE

Soutenance de thèse, 27 septembre 2005

Page 2: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

2

Bases lexicales multilingues (BDLM)

3 catégories principales

1. Structure en fourche

1 langue source n langues cibles

ex. JMDict, FeM

JA

FR

DE

EN

JMDict

FR

MS

EN

FeM

Page 3: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

3

Bases lexicales multilingues (BDLM)

2. Structure pivot naturel

n langues sources n langues cibles

une langue naturelle comme pivot

ex. Projet EuroWordNet

FR

DE

EN

ETCS

ES

NL IT Problème : phénomène contrastif

river (en)fleuve (fr)

rivière (fr)

?

?

Page 4: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

4

Bases lexicales multilingues (BDLM)

3. Structure pivot artificiel

n langues sources n langues cibles

un langage artificiel comme pivot

ex. Projet Papillon

LO

VT

TH

JA

FR

DEEN

MS

river (en)fleuve (fr)

rivière (fr)

?

?

river (en)fleuve (fr)

rivière (fr)

Avantage- Phénomènes contrastifs correctement traités

Page 5: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

5

Bases lexicales multilingues (BDLM)

3. Structure pivot artificiel

n langues sources n langues cibles

un langage artificiel comme pivot

ex. Projet Papillon

LO

VT

TH

JA

FR

DEEN

MS

Problème- Comment définir le pivot ?

Peut-on construire automatiquementune base à pivot artificielle à partir d'informations existantes

Page 6: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

6

Papillon : Base lexicale multilingue

But : Construction collaborative d’une grande BDLM

Dico Ja

lexie 1

Dico Fr

lexie affection 1(tendresse)

lexie affection 2(maladie)

lexie maladie 1

Dico En

lexie affection 1

axie

Dico Th

lexie 1

lexie disease 1

axie = interlinguelexie = sens de mot

Page 7: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

7

Papillon : construction des données

1 Phase d’amorçage 2 Phase de contribution

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2

Axie

L3L5

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

Page 8: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

8

Papillon : construction des données

1 Phase d’amorçage

L1<->L3

L2<->L3L1

L2L3

Données récupérées

Amorçage

AxieV1

L1

L3

L2

Base papillon

Serveur papillon

2 Phase de contribution

Page 9: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

9

Papillon : construction des données

1 Phase d’amorçage 2 Phase de contribution

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2AxieV2

L3L5

Page 10: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

10

Papillon : construction des données

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

Base papillon

Serveur papillon

1 Phase d’amorçage 2 Phase de contribution

L1

L4

L2AxieV3

L3L5

Page 11: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

11

Papillon : construction des données

1 Phase d’amorçage

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2

Axie

L3L5

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

2 Phase de contribution

Page 12: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

12

Objectif de la thèse

Amorçage automatique d’une BDLM à pivot Qualité raisonnableUtilisable par humain ou machineCorrespond aux objectifs du lexicologue et aux

ressources disponiblesL2

L1

L4

L3

ressources existantes BDLM à pivot

mot

axielexie

BDmnl

Dicosbl

Page 13: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

13

Plan

1. Bases lexicales multilingues

2. Structuration d’une base d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’une base d’axies Proposition des mesures Expérimentation

Page 14: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

14

Problèmes de la construction des BDLM

Manque de ressources disponibles

Non cohérence des ressources disponibles : format de

données, richesse des informations, etc.

Mise en correspondance de lexies de différentes langues

Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée

Page 15: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

15

Trois volets de problèmes d’amorçage des BDLM

1. Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données

récupérées

2. Amélioration incrémentale par humain

3. Évaluation de la qualité de BDLM produite

Page 16: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

16

Trois volets de problèmes d’amorçage des BDLM

1. Construction initiale des lexies et des axies Récupération de données existantes

Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données

récupérées

2. Amélioration incrémentale par humain

3. Évaluation de la qualité de BDLM produite

Page 17: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

17

Exemples des travaux existants pour la structuration des lexies & axies

1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]

2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

Page 18: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

18

Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5)

But : Construire des liens traductionnels entre trois langues

Ressources nécessaires :

BDLM1-2-3

Résultat

Monolinguelangue 1

Monolinguelangue 3

Monolinguelangue 2

Bilingue L 3-> L 2

Bilingue L 2-> L 1

Bilingue L 2-> L 3

Bilingue L1-> L 2

[Tanaka & Umemura,1994]

Page 19: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

19

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

kyousou

JP EN FR

[Tanaka & Umemura,1994]

Page 20: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

20

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

competitioncontestrace

kyousou

JP EN FR

[Tanaka & Umemura,1994]

Page 21: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

21

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

competitioncontestrace

compétitionconcourscourseracehâte

kyousou

JP EN FR

[Tanaka & Umemura,1994]

On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source

Page 22: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

22

Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5)

Méthode de consultation inverse 1 fois

matchcompetitioncontestraceancestryhaste

compétitionconcourscourseracehâte

kyousou

JP EN FR

??

??

On garde : mot dont la traduction est en commun avec mot source

On enlève : mot dont aucune traduction n’est en commun avec mot source

[Tanaka & Umemura,1994]

Page 23: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

23

Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5)

Méthode de consultation inverse 2 fois

matchcompetitioncontestraceancestry

compétitionconcourscourserace

kyougikyousoujinshusenzo

JP EN FR

[Tanaka & Umemura,1994]

Page 24: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

24

Avantage Facile à construire

Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies

Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)

Page 25: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

25

Exemples des travaux existants pour la structuration des lexies & axies

1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]

2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

Page 26: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

26

Méthode de comparaison de vecteurs conceptuels (1/5)

[Chauché 1990, Lafourcade, 2002]

lexie

Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition

Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci))

Ci = un concept feuille d’un thésaurus

P.ex : 873 concepts feuilles du thésaurus Larousse V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0>

Page 27: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

27

Méthode de comparaison de vecteurs conceptuels (2/5)

Calcul récursif des vecteurs des lexies

{ V(Ci) } , { mot-concepts}

Ensemble initial de VCpour les mots indexés

« bootstrap » : combinaison linéaire des concepts, selon l'index

VC associés aux lexies

1ère itération

VC associés aux mots-vedettes

combinaison linéaire des vecteurs des lexies pour chaque mot-vedette

n-ième itération

Page 28: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

28

Méthode de comparaison de vecteurs conceptuels (3/5)

Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger »

Définition : « disposer à sa place dans l'ordre »

Mots importants : « disposer », « place », « ordre »

analyse morpho-syntaxiqueBD : VC pour les mots « disposer », « place », « ordre », ...

VC pour la lexie

combinaison linéaire des vecteurs des mots de la définition

Page 29: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

29

Méthode de comparaison de vecteurs conceptuels (4/5)

[Chauché 1990, Lafourcade, 2002]

X

Y

DA ("profit" , "profit" ) = 0DA ("profit" , "benefit" ) = 10DA ("profit" , "joy" ) = 39DA ("profit" , "sadness" ) = 65

Comparer la distance thématique entre lexies

Distance angulaire entre 2 vecteurs (DA )

DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90

Page 30: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

30

Méthode de comparaison de vecteurs conceptuels (5/5)

Avantages Fonctionne au niveau lexie Relativement efficace

Limitations Nécessite analyseur morpho-syntaxique Besoin d’un index mot-concepts pour initialiser

des VC Les VC doivent utiliser les mêmes ensembles de

concepts pour pouvoir comparer

Page 31: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

31

Discussion

Chaque méthode nécessite des ressources lexicales spécifiques

Chaque méthode a des avantages et des limitations différents

Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes

existantes

Page 32: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

32

Notre proposition

Avantages

dépasser limitations d’utilisation de méthode

adaptabilité à de nombreuses situations possibles

1 N32algorithmes de structurationd’axies existantes …

Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles

+ +

+ +

+

1

1

1

2

2

3

N

3

Page 33: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

33

Notre contribution

Idée : appliquer des techniques de génie logiciel

Réalisation :

Jeminie : canevas logiciel (framework) modulaire et adaptable

Conception

DéveloppementSystème de structuration automatique des BDLM

Évaluation des BDLM+

Page 34: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

34

Jeminie

Trois fonctions principales1. Préparation des données2. Production et filtrage d’axies3. Évaluation de la qualité de la base d’axies

produites

Trois types d’utilisateur1. Linguiste2. Programmeur3. Utilisateur de base de données

Page 35: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

35

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Page 36: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

36

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus / mesure de qualtié

Persistance O/R

Base de données

utilisateur

Interpréteur de mesure de qualité

programmeur

- Modèle de données- Outils de base, p. ex.

-Connexion à l’analyseur morpho-syntaxique-Connexion à la base de données-Importation de dictionnaires

Page 37: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

37

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Module est uneimplémentation d’un algorithme de structuration d’axies

Page 38: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

38

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Module est uneimplémentation d’un algorithme de structuration d’axies

Jeminie peut être étenduen développant de nouveaux modules

Page 39: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

39

Module de structuration d’axie

Public interface AxieCreator {

void updateAxieDatabase(AxieDatabaseContext context, List parameters)

boolean checkAxieCreatorParameters (List parameters)}

updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par

l’algorithme, ou les informations supplémentaires selon l’algorithme

Page 40: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

40

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Processus est une séquence d’exécutions de modules de structuration d’axies

Page 41: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

41

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Page 42: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

42

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Page 43: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

43kyousou competition

Exemple de modules implémentés (1/3)

Nom : BlingTransfertAxieCreator

Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa )

Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa competition

contestrace

compétitionconcourscourseracehâte

kyousou

JP EN FR

race

concourscourse

Page 44: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

44

Exemple de modules implémentés (2/3)

Nom : BlingTransfertInverseAxieCreator

Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa )

Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa

competitioncontestrace

compétitionconcourscourse

kyousou

JP EN FR

kyousou competition concourscourse

Page 45: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

45

Exemple de modules implémentés (3/3)

Nom : VCAxieFilter

Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale

Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels

2 lexies

XY

On enlève l’axie où

DA (X,Y) > un seuil

> 2 lexies

XY

On enlève l’axie où la distanceangulaire moyenne > un seuil

Z

Page 46: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

46

Plan

1. Bases lexicales multilingues

2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation

Page 47: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

47

Expérimentation : données

Données monolingues<HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B><BR><I> with 5 parts </I><blockquote><B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font><BR>

100015787,artifact,n100015787,artefact,n100016679,article,n100016840,psychological feature,n100016993,abstraction,n100017218,cognition,n100017218,knowledge,n

100015787,a man-made object taken as a whole100016679,one of a class of artifacts100016840,a feature of the mental life of a living organism100016993,a general concept formed by extracting common features from specific examples100017218,the psychological result of perception and learning and reasoning

Donnée de Lirmm

Royal Institute

WordNet

Page 48: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

48

Expérimentation : données

Données monolingues

Langue Monolingues # mots # lexies #lexies/mot

anglais WordNet 53 000 91 270 1,7

français Donnée de Lirmm 21 700 46 000 2,1

thaï Royal Institute 5 440 9 360 1,7

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

html

texte

<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>

xmlPapillon

Page 49: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

49

Expérimentation : données

Données bilingues

Dictionnaires bilingues Nombre de mots d’entrées

Oxford french mini EN-FR 8 122

Oxford french mini FR-EN 7 155

FeM 14 690

So Sethaputra EN-TH 9 900

FR-TH 18 000

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

xml

html

<volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry></volume>

xml

Page 50: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

50

Jeminie : Préparation des données

InitLexieSimple(Dico.xml, BDa, fr)

<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>

Créer une lexie avecinformation minimale-Mot-vedette-Partie de discours-Définition-Ressource-Langue

Base BDa

Page 51: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

51

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 52: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

52

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 53: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

53

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 54: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

54

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Nécessite

Page 55: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

55

Expérimentation : méthodes Structuration d’une BDLM de 3 langues :

FR,EN,TH

3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC

4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4

Page 56: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

56

Exemples des BDLMUne lexie du mot l’anglais : transfer

BDLM1

(tr)

BDLM2

(trin)

BDLM3

(tr+fvc)

BDLM4

(trin+fvc)

1 lexie4 axies

1 lexie2 axies

1 lexie2 axies

1 lexie1 axie

Page 57: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

57

Plan

1. Bases lexicales multilingues

2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation

Page 58: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

58

Proposition des critères d’évaluation la qualité d’une BDLM produite

Critère basé sur une référence Critère structural Critère vectoriel

Page 59: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

59

Critère basé sur une référence

#axies définies dans R et G

#axies dans GQ-précision =

#axies définies dans R et G

#axies dans RQ-rappel (coverage) =

[ Hovy et al. 2002 ; Papineni et al. 2002 ]

Qualité Q-rappel Q-précision

R G= ?

Base d’axies de référence Base d’axies générée

Page 60: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

60

Critère structural

[Teeraparbseree, 2004]

Qualité Q-lexiecorrecte

Q-lexiecorrecte = | { L où |conn(L)| = 1} |

|L|

Axie1Axie2

Lexie

Incorrecte

|conn(L)| > 1

Correcte

|conn(L)| = 1

Axie1

Lexie

Incomplétude

|conn(L)| = 0

Axie1

Lexie

Page 61: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

61

Critère vectoriel

La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie

Mesure

Qualité distance

Distance moyenne =1n

n

i=1( 1nbpl(i)

nbpl(i)

k=1distancek ))

[Teeraparbseree, 2004]

Page 62: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

62

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration / d’évaluation

Persistance O/R

Base de données

utilisateur

Q1 Q2 Qn

Interpréteur de Stratégie d’évaluation

programmeur

Ajouter la partie d’évaluation dans Jeminie

Page 63: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

63

Chaque critère = un module logiciel

Chaque module retourne une valeur numérique Qi

Jeminie

Q1

Noyau de programme

Q2 Q3 Qn

Interpréteur de Stratégie d’évaluation

Base de donnéeslexies & axies

public interface AxieEvaluation { boolean checkAxieEvaluationParameters

(List parameters);float getQualityValue(AxieDatabaseContext

context, List parameters); }

Approche similaire à celle de la structuration

Page 64: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

64

Discussion

Chaque critère évalue une dimension différente d’une BDLM

Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration d’axies disponiblesP. ex. TraInverse augmente la précision, mais diminue le

rappel Donc il est nécessaire au lexicologue de faire un choix :

Des critères qui l’intéressentDe l’importance relative qu’il accorde aux critères

Page 65: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

65

Critère global

Notre proposition

Q n’est pas une mesure absolue (pas d’unité..) Mais est utile pour comparer la qualité de 2 BDLM

Q = #modules

i = 1poidsi • Qi

Page 66: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

66

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 67: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

67

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 68: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

68

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH

Page 69: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

69

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 70: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

70

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

les processus 1 et 2 ont une structure d’axies assez mauvaise, carles méthodes fonctionnent au niveau des mots,et pas au niveau des lexies.Précision avec transfert-inverse > transfert simple

Page 71: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

71

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Processus 3 et 4 : utilisent FVC en plus-la précision est améliorée -la structure est très significativement amélioréecar FVC fonctione au niveau des lexies

Page 72: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

72

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Combiner les techniques de structuration et de filtrage permet d’améliorer significativement la qualité des bases produites

Page 73: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

73

Remarques

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

1. Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction

simple2. Si on avait pu mesurer le rappel et le choisi comme critère

important Prédiction : la traduction simple aurait eu une meilleure

mesure de rappel que la traduction bilingue inverse

La mesure de la qualité d’une BDLM-est subjective,-dépend des objectifs d’un lexicolgueexprimé sous la forme du choix des critères, et des poids.

Intérêt de notre approche modulaire et extensible pour la mesure de qualité

Page 74: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

74

Conclusion

ProblématiqueProblème : automatisation de structuration et

d’évaluation des lexies et axies Proposition

Conception d’un système de structuration et d’évaluation des lexies et axies

Réalisation de la plate-forme JeminieComposition flexible des techniquesSimilarité entre la structuration et l’évaluation

Expérimentation Création des BDLM de 3 langues : FR, EN, TH

Page 75: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

75

Recherches futures

Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies

Intégrer au système une IHM pour manipuler des données (lexies et axies)

Offrir plus de possibilité aux linguistes pour s’exprimer sur la façon de manipuler le système

Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et d’évaluation, et pour guider leur composition

Page 76: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

76

Merci

Merci

Page 77: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

77

FIN

FIN

Page 78: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

78

Composition de modules de création d’axies pour créer ou filtrer des axies

Composition de modules de critères pour évaluer la qualité des axies

Processus itératif pour l’amorçage

Fin de l’amorçage

Page 79: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

79

[Hai, 1998]

PRODUCDIC : Opérations de base (1/4)

1. Sélection

2. Extraction

3. Regroupement

4. Inverse

5. Enchaînement

6. Combinaison parallèle

7. Combinaison en étoile

Page 80: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

80

PRODUCDIC : Opérations de base (2/4)

…accept(vt)acceptable(a)acceptance(n)access(n,vt):

…accept(vt)

access(vt)

:

sélection

abaisser lower,pull down, push down merendahkan, tarik ke bawah

abaisser merendahkan, tarik ke bawah

extraction

love(n) amourlove(v) aimer

love(n) amourlove(v) aimer

regroupementinverse

aimer(v) love, likecomme(prép) as, like

like(v) aimer;like(prép) commelove(v) aimer

[Hai, 1998]

Page 81: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

81

PRODUCDIC : Opérations de base (3/4)

enchaînement

love : mencintailike : menyukai

aimer :1. love2. like

aimer :1. love

mencintai2. like

menyukai

aimer :1 mencintai2 menyukai

paquet : packet, parcel ;

bundle

(A1)

paquet : packet, pack ;

bag, parcel

(A2)

paquet : (A1) packet, parcel; bundle(A2) packet, pack; bag, parcel

combinaison parallèle

B A A B

D A A DC A A C A

BCD

BCD

combinaison en étoile[Hai, 1998]

Page 82: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

82

PRODUCDIC : Opérations de base (4/4)

Avantage Facile à construire

Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans

l’étape de la préparation des données par.ex. la sélection, l’extraction, le regroupement, et l’inversion

Page 83: Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse,  27 septembre 2005

83

Exemples des BDLM (2/2)Une lexie de mot l’anglais : arrest

BDLM1

(tr)

BDLM2

(trin)

BDLM3

(tr+fvc)

BDLM4

(trin+fvc)

1 lexie2 axies

1 lexie1 axie

1 lexie2 axies

1 lexie1 axie