JADT'04 - Mars 2004, Belgique1
EXIT: un système itératif pour l'extraction de la terminologie du
domaine à partir de corpus spécialisés
Mathieu Roche, Thomas Heitz,
Oriane Matte-Tailliez, Yves Kodratoff
LRI – Université Paris XI
JADT'04 - Mars 2004, Belgique2
Plan de l’exposé
État de l’art de différents systèmes
Présentation du processus global
Les paramètres d’EXIT– Généralité sur les paramètres– Description de mesures statistiques– Évaluation des mesures
Perspectives
JADT'04 - Mars 2004, Belgique3
État de l’Art de différents systèmes
Trois types de méthodes
– Méthodes linguistiques : LEXTER, ANA, FASTR,etc.
– Méthodes statistiques : Xtract, etc.– Méthodes mixtes : ACABIT, EXIT, etc.
JADT'04 - Mars 2004, Belgique4
Processus global en terminologie
Corpus étiqueté avec ETIQ [Amrani et al., 04]
Termes verbaux
Collocations verbales
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
Termesvariants
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
Corpus brut
--------------------------------------------------------
Corpus nettoyé
--------------------------------------------------------
--------------------------------------------------------
Termesvariants
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
Termes Nom-Prép-Nom avec le rapport de vraisemblance
1. mise en place (111)
2. traitement de texte (57)
3. assistante de direction (60)
4. hôtesse de caisse (28)
…
Exemples :
Termes Nom-Prép-Nom avec l’information mutuelle
1. beurre de karité (3)
2. jéjunum de rat (3)
3. puy en velay (3)
4. chalon sur saône (4)
…
Collocationsnominales
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
Termesnominaux
+ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + ++ + + + + +
JADT'04 - Mars 2004, Belgique5
Les paramètres d’EXIT
Élagage.
Privilégier les termes qui apparaissent dans des textes différents.
Règles lexicales pour valider ou rejeter des termes semi automatiquement.
Choix de mesures.
JADT'04 - Mars 2004, Belgique6
Les paramètres d’EXIT
Les mesures
Information Mutuelle [Church et Hanks, 90]
)()(
),(log),( 2 yPxP
yxPyxIM
JADT'04 - Mars 2004, Belgique7
Les paramètres d’EXIT
Les mesures Rapport de Vraisemblance [Dunning, 93]
RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d)
y y' avec y' y
x a b
x' avec x' x c d
D’autres mesures : information mutuelle au cube, mesure d’association, coefficient de Dice et mesures du domaine de l’extraction des règles d’associations [Roche et al., 03]
JADT'04 - Mars 2004, Belgique8
Les paramètres d’EXIT
Évaluation des mesures : la précision
extraites nscollocatio de nombre
spertinente extraites nscollocatio de nombreprécision
1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…
1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…
Collocations extraites
- Utilisation des courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à l’expert.
JADT'04 - Mars 2004, Belgique9
Les paramètres d’EXIT
Évaluation des mesures : le rappel
spertinente nscollocatio de nombre
spertinenteextraitesnscollocatio de nombrerappel
Impossible à calculer !
JADT'04 - Mars 2004, Belgique10
Les paramètres d’EXIT
Évaluation des mesures : les corpus
Corpus de Ressources Humaines (société PerformanSe) - 3784 Ko (en français)
Corpus de CV (Groupe VediorBis) – 2470 Ko (en français)
Corpus d’introductions d’articles sur la Fouille de Données – 369 Ko (en anglais)
Corpus de résumés d’articles sur la Biologie Moléculaire – 9424 Ko (en anglais)
JADT'04 - Mars 2004, Belgique11
Les paramètres d’EXIT
Évaluation des mesures : l’expertise des termes
Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines).
Corpus de Biologie Moléculaire : termes pertinents et non valides (7057 termes).
JADT'04 - Mars 2004, Belgique12
Les paramètres d’EXIT
Évaluation des mesures : courbe d’élévation
JADT'04 - Mars 2004, Belgique13
Les paramètres d’EXIT
L’interface graphique
JADT'04 - Mars 2004, Belgique14
Perspectives
Calculer le rappel sur un sous-ensemble des corpus.
Déterminer une combinaison de mesures statistiques pour classer les termes.
JADT'04 - Mars 2004, Belgique15
ANNEXE
JADT'04 - Mars 2004, Belgique16
Quelques mesures (1/4)
Information Mutuelle [Church et Hanks, 90]
Information Mutuelle au Cube [Daille, 94]
)()(
),(log),( 2 yPxP
yxPyxIM
)()(
),(log),( 2 ynbxnb
yxnbyxI
)()(
),(log),(
3
23
ynbxnb
yxnbyxI
JADT'04 - Mars 2004, Belgique17
Quelques mesures (2/4)
Mesure d’Association [Jacquemin, 97] :
– isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences.
),(min),,(max
),(min),,(max
),(
2
1),(
2
1),(
qpnbm
nbqpnbM
nb
qpImIqpI
MI
nbnb
yxnb
II
yxIyxa
mMmM
JADT'04 - Mars 2004, Belgique18
Quelques mesures (3/4)
Coefficient de Dice [Smadja, 96]
)()(
),(2),(
yPxP
yxPyxDice
)().(_)().(_
),(2),(
ynbxtypenbxnbytypenb
yxnbyxD
JADT'04 - Mars 2004, Belgique19
Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines
Elagage à 3
Nb collocations Nb collocations
après élagage
FD RH CV FD RH CV
Nom-Prep-Nom 313 4703 3634 7 1268 307
Nom-Nom 2070 98 1781 223 11 162
Adjectif-Nom 2411 1260 1291 176 478 103
Nom-Adjectif X 5768 3455 X 1628 448
Exemples :emploi solidarité
action communication
fichier client
service achat
…
JADT'04 - Mars 2004, Belgique20
Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif)
Courbes d’élévation avec cinq mesures.
JADT'04 - Mars 2004, Belgique21
Expérimentations : corpus de Biologie Moléculaire
Elagage à 4
Nb collocations Nb collocations après élagage
Pourcentage élagage
Nom-Prep-Nom 4363 251 94.2 %
Nom-Nom 22241 3332 85.0 %
Adjectif-Nom 23284 2547 89.1 %
JADT'04 - Mars 2004, Belgique22
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)
Précision avec cinq mesures.
Collocations extraitesI I3 Ass Dice RV
20 % 82.8% (49.8%)
86.8 %(80.7 %)
84.1 %(53.1 %)
86.5 %(65.7 %)
88.5 %(87.5 %)
40 % 86.9 %(42.6 %)
88.9 %(58.5 %)
87.4 %(47.7 %)
87.8 %(47.7 %)
88.9 %(58.2 %)
60 % 89.4 %(38.9 %)
90.0 %(46.0 %)
89.7 %(40.4 %)
88.7 %(39.4 %)
89.6 %(44.1 %)
JADT'04 - Mars 2004, Belgique23
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)
Courbes d’élévation avec cinq mesures.
JADT'04 - Mars 2004, Belgique24
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom)
Classement selon le nombre d’occurrences + une mesure statistique pour les collocations ayant le même nombre d’occurrences.