jadt'04 - mars 2004, belgique 1 exit: un système itératif pour l'extraction de la...

24
JADT'04 - Mars 2004, Belg ique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI

Upload: emmanuel-hoarau

Post on 03-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique1

EXIT: un système itératif pour l'extraction de la terminologie du

domaine à partir de corpus spécialisés

Mathieu Roche, Thomas Heitz,

Oriane Matte-Tailliez, Yves Kodratoff

LRI – Université Paris XI

Page 2: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique2

Plan de l’exposé

État de l’art de différents systèmes

Présentation du processus global

Les paramètres d’EXIT– Généralité sur les paramètres– Description de mesures statistiques– Évaluation des mesures

Perspectives

Page 3: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique3

État de l’Art de différents systèmes

Trois types de méthodes

– Méthodes linguistiques : LEXTER, ANA, FASTR,etc.

– Méthodes statistiques : Xtract, etc.– Méthodes mixtes : ACABIT, EXIT, etc.

Page 4: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique4

Processus global en terminologie

Corpus étiqueté avec ETIQ [Amrani et al., 04]

Termes verbaux

Collocations verbales

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

Termesvariants

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

Corpus brut

--------------------------------------------------------

Corpus nettoyé

--------------------------------------------------------

--------------------------------------------------------

Termesvariants

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

Termes Nom-Prép-Nom avec le rapport de vraisemblance

1. mise en place (111)

2. traitement de texte (57)

3. assistante de direction (60)

4. hôtesse de caisse (28)

Exemples :

Termes Nom-Prép-Nom avec l’information mutuelle

1. beurre de karité (3)

2. jéjunum de rat (3)

3. puy en velay (3)

4. chalon sur saône (4)

Collocationsnominales

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

Termesnominaux

+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +

Page 5: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique5

Les paramètres d’EXIT

Élagage.

Privilégier les termes qui apparaissent dans des textes différents.

Règles lexicales pour valider ou rejeter des termes semi automatiquement.

Choix de mesures.

Page 6: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique6

Les paramètres d’EXIT

Les mesures

Information Mutuelle [Church et Hanks, 90]

)()(

),(log),( 2 yPxP

yxPyxIM

Page 7: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique7

Les paramètres d’EXIT

Les mesures Rapport de Vraisemblance [Dunning, 93]

RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d)

y y' avec y' y

x a b

x' avec x' x c d

D’autres mesures : information mutuelle au cube, mesure d’association, coefficient de Dice et mesures du domaine de l’extraction des règles d’associations [Roche et al., 03]

Page 8: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique8

Les paramètres d’EXIT

Évaluation des mesures : la précision

extraites nscollocatio de nombre

spertinente extraites nscollocatio de nombreprécision

1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…

1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…

Collocations extraites

- Utilisation des courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à l’expert.

Page 9: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique9

Les paramètres d’EXIT

Évaluation des mesures : le rappel

spertinente nscollocatio de nombre

spertinenteextraitesnscollocatio de nombrerappel

Impossible à calculer !

Page 10: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique10

Les paramètres d’EXIT

Évaluation des mesures : les corpus

Corpus de Ressources Humaines (société PerformanSe) - 3784 Ko (en français)

Corpus de CV (Groupe VediorBis) – 2470 Ko (en français)

Corpus d’introductions d’articles sur la Fouille de Données – 369 Ko (en anglais)

Corpus de résumés d’articles sur la Biologie Moléculaire – 9424 Ko (en anglais)

Page 11: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique11

Les paramètres d’EXIT

Évaluation des mesures : l’expertise des termes

Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines).

Corpus de Biologie Moléculaire : termes pertinents et non valides (7057 termes).

Page 12: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique12

Les paramètres d’EXIT

Évaluation des mesures : courbe d’élévation

Page 13: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique13

Les paramètres d’EXIT

L’interface graphique

Page 14: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique14

Perspectives

Calculer le rappel sur un sous-ensemble des corpus.

Déterminer une combinaison de mesures statistiques pour classer les termes.

Page 15: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique15

ANNEXE

Page 16: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique16

Quelques mesures (1/4)

Information Mutuelle [Church et Hanks, 90]

Information Mutuelle au Cube [Daille, 94]

)()(

),(log),( 2 yPxP

yxPyxIM

)()(

),(log),( 2 ynbxnb

yxnbyxI

)()(

),(log),(

3

23

ynbxnb

yxnbyxI

Page 17: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique17

Quelques mesures (2/4)

Mesure d’Association [Jacquemin, 97] :

– isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences.

),(min),,(max

),(min),,(max

),(

2

1),(

2

1),(

qpnbm

nbqpnbM

nb

qpImIqpI

MI

nbnb

yxnb

II

yxIyxa

mMmM

Page 18: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique18

Quelques mesures (3/4)

Coefficient de Dice [Smadja, 96]

)()(

),(2),(

yPxP

yxPyxDice

)().(_)().(_

),(2),(

ynbxtypenbxnbytypenb

yxnbyxD

Page 19: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique19

Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines

Elagage à 3

Nb collocations Nb collocations

après élagage

FD RH CV FD RH CV

Nom-Prep-Nom 313 4703 3634 7 1268 307

Nom-Nom 2070 98 1781 223 11 162

Adjectif-Nom 2411 1260 1291 176 478 103

Nom-Adjectif X 5768 3455 X 1628 448

Exemples :emploi solidarité

action communication

fichier client

service achat

Page 20: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique20

Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif)

Courbes d’élévation avec cinq mesures.

Page 21: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique21

Expérimentations : corpus de Biologie Moléculaire

Elagage à 4

Nb collocations Nb collocations après élagage

Pourcentage élagage

Nom-Prep-Nom 4363 251 94.2 %

Nom-Nom 22241 3332 85.0 %

Adjectif-Nom 23284 2547 89.1 %

Page 22: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique22

Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)

Précision avec cinq mesures.

Collocations extraitesI I3 Ass Dice RV

20 % 82.8% (49.8%)

86.8 %(80.7 %)

84.1 %(53.1 %)

86.5 %(65.7 %)

88.5 %(87.5 %)

40 % 86.9 %(42.6 %)

88.9 %(58.5 %)

87.4 %(47.7 %)

87.8 %(47.7 %)

88.9 %(58.2 %)

60 % 89.4 %(38.9 %)

90.0 %(46.0 %)

89.7 %(40.4 %)

88.7 %(39.4 %)

89.6 %(44.1 %)

Page 23: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique23

Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)

Courbes d’élévation avec cinq mesures.

Page 24: JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

JADT'04 - Mars 2004, Belgique24

Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)

Classement selon le nombre d’occurrences + une mesure statistique pour les collocations ayant le même nombre d’occurrences.