acquisition de probabilités de sous-catégorisation à partir de très gros corpus didier...
TRANSCRIPT
Acquisition de probabilités desous-catégorisation à partir de très gros corpus
Didier BOURIGAULTEquipe de Recherche en Syntaxe et Sémantique
CNRS – Université Toulouse Le Mirail
www.univ-tlse2.fr/erss/
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 2
TAL, linguistique et méthodes quantitatives
TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous-catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel
Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites d’un lexique (le Lexique Grammaire) construit par des linguistes
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 3
Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance
Résoudre les ambiguïté de rattachement prépositionnel
Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus
Je vois un homme avec un télescope
Je mange une pizza avec des olives
voir + avec ?homme + avec ?
manger + avec ?pizza + avec ?
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 4
Syntex : un analyseur syntaxique de corpus
Analyseur en dépendance
Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties
du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition,
Adjectif En sortie : corpus annotés avec des relations syntaxiques entre
mots
Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur
l’analyse de corpus
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 5
Un exemple d’analyse
Le chat de Marie mange une petite souris.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
OBJSUJ
Etiquetage morphosyntaxique (Treetagger)
Analyse syntaxique (Syntex)
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 6
Les relations syntaxiques
Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Les mots ont été préalablement étiquetés
Une relation de dépendance syntaxique est orientée d’un régi vers son recteur Contrainte 1 : un régi n’a qu’un seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas.
Principales relations : SUJ : sujet de verbe OBJ : complément d’objet direct de verbe PREP : complément d’objet indirect de verbe, de nom, d’adjectif ADJ : épithète de nom
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 7
Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase
Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom
le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom
OBJ
Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom
OBJ
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 8
Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase
Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom
le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb
SUJ
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 9
Algorithme PREP : ambiguïté de rattachement prépositionnel
1- Rechercher_candidats Parcours des mots de la phrase
Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes
2- Sélectionner_candidat À l’aide d’indices
dont propriété de sous-catégorisation syntaxique
Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom
?
installer + sur ?logiciel + sur ?
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 10
Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ?
Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…)
Acquisition de probabilités de sous-catégorisation à partir de corpus A partir d’un corpus étiqueté automatiquement
Corpus Le Monde Web
A partir d’un corpus annoté manuellement (~ Penn Tree Bank)
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 11
Lexique grammaire
Choix de la ressource : Objectif d’exhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout
domaine
Mode de constitution (C. FREROT, ERSS) Extraire l’information sur la sous-catégorisation verbale à
distance des prépositions à, dans, sur Appartenance à la forme canonique N0 V N1 Prep N2
Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans
l’analyseur (traits humain, non humain…) Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une
gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 12
Calcul des probabilités de sous-catégorisation
Corpus partiellement annoté Le Monde (1990-1996) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules
Syntex
A partir des cas non ambigus :1- Pour une préposition p, qui régit le mot m’, le module
Recherche_candidats a trouvé un seul candidat recteur : m
2- Pour un mot m, le module Recherche_candidats ne l’a retenu comme candidat recteur pour aucune préposition
freq (m, p,m’) + 1
Je l’ai mangé avec une fourchette
freq (manger, avec, fourchette) + 1
freq (m,0) + 1
Jean a mangé.
freq (manger, 0) + 1
1- 2-
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 13
Calcul des probabilités de sous-catégorisation
freq(m,p)proba(m,p) = freq(m)
productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 }
fréquence de m sans préposition : freq(m,0)
fréquence de m avec la préposition p : freq(m,p) = m’ freq(m,p,m’)
fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p)
log ( 1 + prod(m,p) )* k
freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1freq(manger,avec)=5 freq(manger,à)=5prod(manger,avec)=1 prod(manger,à)=5
proba(manger,avec)=0.28 proba(manger,à)=0.72
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 14
Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un
corpus médicalproba mot prep prod freq p freq freq0
0,444 accord avec 4 4 9 5
0,246 accouchement par 2 9 33 19
0,418 allergie à 21 41 98 57
0,200 amylasémie à 2 2 10 8
0,469 analgésie par 6 20 44 23
0,200 anémie à 5 11 61 47
0,735 antibioprophylaxie par 10 21 30 7
0,355 antibiothérapie par 29 63 195 123
0,235 anticoagulation par 4 4 19 13
0,616 argument pour 14 16 28 2
0,312 argument en faveur de 8 10 28 2
0,308 arme à 3 24 78 54
0,600 bactériémie à 5 6 10 4
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 15
Calcul des probabilités de sous-catégorisation
Itérations Etape 0 : ressources exogènes R0
Etape i : Résoudre les ambiguïtés de rattachement à l’aide de la ressource
construite à l’étape i-1 (Ri-1)
Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand }
S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) : (rattachement certain) freq(mk,p,m’) + 1
freq(mjk,0) + 1 Sinon (rattachement incertain)
freq(mj,P,m’) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les
fréquences calculées sur les cas non ambigus (étape 0) : Ri
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 16
Calcul des probabilités de sous-catégorisation
Résultats Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96) Convergence après 4 itérations Nombre de couples (m,p) : 10 759
freq(m)>=50 proba(m,p) >0.05
cat Total Nom VINF
Adj 569 531 38
Nom 3813 3676 137
Vb 6377 5878 499
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 17
Probabilités de sous-catégorisation de noms
proba mot prep prod freq freqtot freq0
0,622 accès à 1238 6180 10185 3741
0,864 accession à 136 1417 1665 213
0,539 accointance avec 39 48 95 41
0,606 allusion à 791 1319 2227 867
0,537 appartenance à 338 1318 2479 1146
0,528 assignation à 16 156 345 109
0,564 assujettissement à 35 56 101 44
0,554 butte à 162 365 684 301
0,773 cofinancé par 30 45 61 13
0,510 conformité avec 126 362 761 234
0,606 croupière à 38 49 86 32
0,745 haro sur 52 63 86 22
0,546 hockey sur 3 310 570 253
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 18
Validation de la liste LG sur le corpus LM
100 1000 10000 100000
500
400
300
200
100
freq
nb
(412) (375) (271) (124)
770 verbes / 11821 117 couples (vb, prep) / 1659
Histogramme des fréquences des verbes de LG dans le corpus LM
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 19
Verbes de LG écartés de l’analyse
chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ;
aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…)
Verbes de LG dont la fréquence d’occurrence dans le corpus LM est inférieure à 100 :
Verbes de LG dont la fréquence d’occurrence dans le corpus LM est nulle :
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 20
Probabilités des couples (vb,prep) de LG calculées sur le corpus LM
lg = 1 si (vb,prep) LG
f = freq(vb,prep)
f tot =freq(vb)
p = f / f tot
cat = catégorie du régi de prep
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 21
Histogramme des probabilités des couples (vb,prep) de LG
Si seuil probabilité = 0.05 550 couples « infirmés » par le corpus
freq(vb,prep) = 0 Ou p(vb,prep) < 0.05
567 couples « confirmés » par le corpus p(vb,prep)>= 0.05
proba nb cumul
0 39 39
[ 0.00 , 0.01 [ 70 109
[ 0.01 , 0.02 [ 208 317
[ 0.02 , 0.05 [ 233 550
[ 0.05 , 0.10 [ 212 762
[ 0.10 , 0.25 [ 225 987
[ 0.25 , 0.50 [ 99 1086
[ 0.50 , 1.00 [ 31 1117
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 22
Couples (vb,prep) de LG absents du corpus
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 23
Couples (vb,prep) de LG de probabilité inférieure à 0.05
pas (peu) fréquent/probable, (…) , très fréquent/probable≠
«impossible », « * », « facultatif », « optionnel », (…) , « obligatoire »
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 24
Couples (vb,prep) de LG de probabilité supérieure à 0.05
Proportion des cas oùvb est construit avec prep et vb n’a pas d’objet(analyse Syntex)
Rappel : la liste LG est construite à partir du schéma :N0 V N1 prep N2
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 25
Couples de LG (vb,prep) sans objet dans le corpus LM
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 26
Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG
p vb
0,2 axer sur
0,39 calquer sur
0,28 concentrer sur
0,24 déverser sur
0,2 fonder sur
0,64 indexer sur
0,21 interroger sur
(…)
p vb
0,28 entasser dans
0,5 replacer dans
0,23 réfugier dans
0,22 réinstaller dans
0,2 se frayer dans
0,63 spécialiser dans
0,27 transposer dans
(…)
p vb
0,59 affilier à
0,31 chiffrer à
0,32 comparer à
0,55 confronter à
0,24 coter à
0,29 coupler à
0,38 déférer à
(…)
à (243) dans (135) dans (65)
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 27
Réflexions
La vérité ne jaillit pas d’elle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste
choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application)
Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple :
Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de sous-
catégorisation
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 28
Réflexions (suite) : quantitatif/qualitatif
« gro cé bo ? » Oui,
Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs d’analyse, les
approximations, la faible précision des outils automatiques Mais :
« Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats
Il faut procéder à des analyses contrastives inter-corpus
« probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues
ont besoin de propriétés probabilisées
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 29
Résultats de l’évaluation
50
80
90
100
70
60
base endo exo mixte
Prec %
base endo exo mixte
BAL 83.7 84.7 87.4 87.4
LMO 70.5 81.9 86.6 86.7
CTR 61.8 81.1 85.8 86.2
MED 54.0 76.3 65.8 77.6
% précision choix par défaut : le dernier