une palette mathématique pour appréhender le langage
Post on 12-Apr-2017
37 Views
Preview:
TRANSCRIPT
INRIA
Une palette mathématiquepour appréhender le langage
Éric de la Clergerie<Eric.De_La_Clergerie@inria.fr>
http://alpage.inria.frINRIA Paris-Rocquencourt
Olympiades de mathématiques 2017Versailles – 25 Janvier 2017
INRIA É. de la Clergerie Math & TAL 25/01/2017 1 / 48
INRIA
Expliquer ce que je fais !
De l’analyse syntaxique,une composante du Traitement Automatique des Langues (TAL).
L’ordinateur en classe de primaire,objectif: Retrouver les fonctions des mots dans la phrase
Vue par dépendances
INRIA É. de la Clergerie Math & TAL 25/01/2017 2 / 48
INRIA
ou alternativement
Retrouver les constituants de la phrase
Paul mange un délicieux gâteau
Ph
GN
np
GV
v GN
det N
adj nc
sujetdet
N
objet
INRIA É. de la Clergerie Math & TAL 25/01/2017 3 / 48
INRIA
Mais c’est plus compliqué . . .
de nombreuses constructions syntaxiquesdes rôles obscurs ou ambiguës dans la phraseil observe une maman avec ses jumelles. . .
INRIA É. de la Clergerie Math & TAL 25/01/2017 4 / 48
INRIA
En fait, beaucoup plus compliqué
Paul, je t’ai dit que François Flore est sorti furieux de chez son banquier carcelui-ci lui avait ex abrupto refusé son prêt pour sa future maison ?
Morphologie: les mots et leur structure (lubéronisation)découpage du texte en mots, catégories syntaxiques:celui/pro -ci/adj lui/cld avait/aux ex_abrupto/adv ...flexion (conjugaison) : avait=avoir+3s+Ind+Imparfaitentités nommées (personnes, lieux, . . . ) : (François Flore) PERSON_m
Syntaxe: structure des phrases et relations entre motsfonctions syntaxiques (sujet, objet, . . . ) : celui-ci=sujet, prêt=objet,lui=obj indirect de refusé
Sémantique: sens des énoncés et des motsstructure prédicatives, rôle des actants (agent, patient, . . . )refuser(agent=celui-ci,patient=lui,theme=prêt)
Pragmatique: contexte & connaissancesréférants: celui-ci=banquier, lui=son=sa=François, t’=Paulstructures argumentatives: refus explique furieuxscénarios, implicites
INRIA É. de la Clergerie Math & TAL 25/01/2017 5 / 48
INRIA
Pour quoi faire ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaissances (à partir de grands corpus)
http://alpage.inria.fr/Lbx
INRIA É. de la Clergerie Math & TAL 25/01/2017 6 / 48
INRIA
Beaucoup d’applications potentielles . . .2010: Google translate
2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux
Siri, Google Now, Cortana
recherche d’information, veille, extraction, questions-réponsesaccès à l’information: traduction, résumés, annotations/liens sémantiquesanalyse d’opinion, e-réputationgénération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires,aide à la rédaction: correction grammaticale, stylistique; saisie prédictiveaide pédagogique: apprentissage des langues; tutorat; évaluationinteraction: agents conversationnels, chatbots, assistants numériques,
INRIA É. de la Clergerie Math & TAL 25/01/2017 7 / 48
INRIA
Outline
1 Les approches algébriques
2 Les approches probabilistes avec apprentissage supervisé
3 Les approches neuronales profondes
INRIA É. de la Clergerie Math & TAL 25/01/2017 8 / 48
INRIA
La langue est structureOn trouve des structures à tous les niveaux de la langue
au niveau des mots: lubéronisation ≡ ((lubéron ◦ +iser) ◦ +tion)
au niveau des phrases: GN
ncdet
au niveau sémantique (lambda-calcul)
S(Paul mange un fruit) = (λ s. ((λ o. /m/(s,o)) /f/)) /P/ (1); /m/(/P/, /f/) (2)
; utilisation de langages formels pourdécrire les structureset la manière de les combiner
INRIA É. de la Clergerie Math & TAL 25/01/2017 9 / 48
INRIA
Hiérarchie de Chomsky
Hiérarchie de Chomsky (1959):sur les langages et grammaires (qui les génèrent)
Type 3: Langages réguliers a(b|c)*d
A −→ a, A −→ aB
Type 2: Langages hors-contextes (Context-Freee Grammar – CFG)
A −→ γ
Type 1: Langages dépendants du contexte
αAβ −→ αγβ, |γ| > 0
Type 0: Langages récursivement énumérables
α −→ β
INRIA É. de la Clergerie Math & TAL 25/01/2017 10 / 48
INRIA
CFG & Langues naturelles
Les CFG utilisées pour réécrire des non-terminaux par substitutionLes séquences de substitution (dérivations) aussi représentables par desarbres d’analyse
S --> NP VPNP --> pnNP --> det nNP --> NP PPVP --> v NPVP --> VP PPPP --> prep NP
S =⇒ NP VP =⇒ pn VP =⇒ pn VP PP =⇒ pn v NP PP =⇒?
pn v det nc prep det ncS =⇒ S
VPNP
=⇒ S
VPNP
pn
=⇒? S
VP
PP
NP
ncdet
prep
VP
NP
ncdet
v
NP
pn
Les CFG suffisent pour de nombreux phénomènes syntaxiques,dont les enchassements comme anbn ≡ a(an−1bn−1)b
INRIA É. de la Clergerie Math & TAL 25/01/2017 11 / 48
INRIA
Mais les CFG suffisent-elles ?2 aspects:
Comment vérifier qu’un langage n’est pas hors-contexte ?utilisation du lemme de pompage
Theorem (Lemme de pompage Bar Hillel)
L est un langage hors-contexte ssi
∃N > 0,∀w ∈ L, |w | > N =⇒ ∃u, v ,w , x , y , ∧
w = uvwxy|vwx | ≤ N ∧ |vx | > 0∀n ≥ 0, uvnwxny ∈ L
En particulier le langage anbmcndm, n,m ≥ 0 n’est pas hors-contexte(dépendances croisées)
a a b c c d
Peut-on trouver un contre-exemple linguistique ? Pas si évident !
INRIA É. de la Clergerie Math & TAL 25/01/2017 12 / 48
INRIA
Exemple du Suisse-Allemand (Shieber 1985)
Jan säit das mer em Hans es huus hälfed asstriicheJean dit que nous Hans-DAT la maison-ACC aider à-peindre
Les croisements peuvent être multiples
Jan säit das mer d’chind em Hans es huus lönd hälfed asstriicheJean dit que nous les enfants-ACC Hans-DAT la maison-ACC laisser aider à-peindre
On peut théoriquement itérer et se rapprocher de anbmcndm
. . . das mer (d’chind)n (em Hans)m es huus (lönd)n (hälfed)m asstriiche. . . que nous (les enfants-ACC)n (Hans-DAT)m la maison-ACC (laisser)n (aider)m à-peindre
INRIA É. de la Clergerie Math & TAL 25/01/2017 13 / 48
INRIA
Et pour le français
Il existe plusieurs phénomènes syntaxiques en français dont la structuresyntaxique naturelle (ie attendue) ne correspond pas à des analyses CFG.
Par exemple, les comparatives:
Note: Possible de fournir une CFG pour couvrir la phrase mais pas avec labonne structure
INRIA É. de la Clergerie Math & TAL 25/01/2017 14 / 48
INRIA
Aller plus loin que les CFGs
Toute une gamme de formalismes grammaticaux ont été proposés pour:dépasser le pouvoir expressif des CFGsrester si possible analysable efficacementfaciliter la description linguistique
; développement de FRMG, une (méta-) grammaire TAG à large couverturepour le français (http://alpage.inria.fr/frmgwiki)
INRIA É. de la Clergerie Math & TAL 25/01/2017 15 / 48
INRIA
Grammaire d’Arbres Adjoints (TAG)Introduites par Joshi, les TAGs’appuient sur des arbres et 2 opérations pour les combiner
la substitution d’une feuille par un arbrel’adjonction d’un arbre au sein d’un autre arbre
INRIA É. de la Clergerie Math & TAL 25/01/2017 16 / 48
INRIA
Un exemple plus complet: les comparatives
adjP
supermod
3adv
plus
?adjPadjP
3adj
grand
supermod
?supermod CS
3csu
que
NP
S
NP
pn
Paul
VP
v
est
adjP
supermod
supermod
adv
plus
adjP
adj
grand
CS
csu
que
NP
pro
lui
INRIA É. de la Clergerie Math & TAL 25/01/2017 17 / 48
INRIA
Limites des approches algébriques
Problème pour recenser et décrire une très grande variété de phénomènessyntaxiquesde plus, beaucoup de phénomènes sont rares, voire très rares(distribution zipfienne)
I pb de maintenance de grosses grammairesI pb d’efficacité dans les analyses
une grammaire complexe tend à fournir beaucoup d’analyses possiblespour une phrase (ambiguité)
I il commence un livreI il commence cette nuitI il aime la nuitI il prend une tarte maison aux fruitsI il prend un glace fraise des boisI il prend une tarte maison au restaurant
; comment choisir la bonne analyse ? contraintes ou probabilités
INRIA É. de la Clergerie Math & TAL 25/01/2017 18 / 48
INRIA
Outline
1 Les approches algébriques
2 Les approches probabilistes avec apprentissage supervisé
3 Les approches neuronales profondes
INRIA É. de la Clergerie Math & TAL 25/01/2017 19 / 48
INRIA
Une formulation probabiliste générique
Étant donnée une observation x , trouver la meilleure structure (cachée)expliquant x (décodage)
une séquence d’étiquettes ti for chaque mot wi
un arbre syntaxique T couvrant w1:n
Approches discriminatives: fondées sur des configurations
y = argmaxy∈Y(x)
p(y |x)
Approches génératives: fondées sur la combinaison de structures
y = argmaxy∈Y(x)
p(y |x) = argmaxy∈Y(x)
p(x |y)p(y)
p(x)= argmax
y∈Y(x)
likehood︷ ︸︸ ︷p(x |y)
prior︷︸︸︷p(y)
INRIA É. de la Clergerie Math & TAL 25/01/2017 20 / 48
INRIA
Étiquetage syntaxique
Tâche: Assigner une catégorie syntaxique à chaque mot,problème des ambiguïtés
La/DET belle/N ferme/V le/DET voile/NLa/DET belle/ADJ ferme/N le/CL voile/V
Mais aussi:La/CL belle/ADJ ferme/V le/CL voile/NLa/DET belle/N ferme/V le/DET voile/VLa/N belle/N ferme/V le/DET voile/V
; Un nombre exponentiel de séquences d’étiquettes O(|T |n)
INRIA É. de la Clergerie Math & TAL 25/01/2017 21 / 48
INRIA
Treillis
L’ensemble des possibilités représentable par un treillis(graphe orienté acyclique – DAG)
START
La/DET
La/CL
La/N
belle/N
belle/ADJ
ferme/N
ferme/V
le/DET
le/CL
voile/N
voile/V
END
Objectif: Rechercher le meilleur chemin dans ce treillis
INRIA É. de la Clergerie Math & TAL 25/01/2017 22 / 48
INRIA
Approximer le problèmeOn cherche t1 . . . tn tel que
t1 . . . tn = argmax p(t1 . . . tn|w1 . . .wn) = argmax p(w1:n|t1:n)p(t1:n)
Approximations:une étiquette ne dépend que de la précédente
p(ti+1|t1:i ) ≈ p(ti+1|ti )
un mot ne dépend que de son étiquette
p(w1:n|t1:n) ≈n∏
i=1
p(wi |ti )
Si on assume une étiquette initiale t0 (en début de phrase)
t1:n ≈ argmaxn∏
i=1
p(ti |ti−1)p(wi |ti )
INRIA É. de la Clergerie Math & TAL 25/01/2017 23 / 48
INRIA
Modèle de Markov Caché (HMM)
La formulation correpond à un automate pondéré à états finis
0 D
la
p(D|0)
p(la|D)
N
belle
p(N|D)
p(belle|N)
V
ferme
p(V |N)
p(ferme|V )
D
le
p(D|V )
p(le|D)
N
voile
p(N|D)
p(voile|N)
Formalisation en tant que HMM H:
un ensemble fini d’états Q = {0,D,N,V , . . .}
q0 = 0 et qf = $ les états initiaux et finaux
une matrice de transitions entre états aqr = p(r |q) avec∑
r∈Q aqr = 1
des probabilités d’emission bq(w) = p(w |q)
INRIA É. de la Clergerie Math & TAL 25/01/2017 24 / 48
INRIA
HMM: Décodage
Étant donné H, recherche du meilleur chemin dans le trellis
t1:n = argmaxt1:n
∏i
p(ti |ti−1)p(wi |ti )
= argmax∏
i
ati−1,ti bti (wi )
Mais si t1:n est un meilleur chemin,alors t1:k meilleur sous-chemin atteignant k dans l’état tk
; résolution d’un problème plus général, acceptant une décompositionrécursive
viterbik (r) = maxt1:k−1
p(w1, . . . ,wk , t0, . . . , tk = r |H)
= maxq
viterbik−1(q)aq,r br (wk )
INRIA É. de la Clergerie Math & TAL 25/01/2017 25 / 48
INRIA
Décomposition récursive de Viterbi
Initialisationviterbi1(q) = aq0,qbq(w1)
Recursion, pour 1 < k ≤ n
viterbik (q) = maxp
viterbik−1(p)ap,qbq(wk )
Terminaisonviterbin(qF )
similaire à la recherche de plus court cheminadaptée à des algorithmes de programmation dynamique; complexité polynomiale (quadratique) plutôt que exponentielle
INRIA É. de la Clergerie Math & TAL 25/01/2017 26 / 48
INRIA
Estimation des paramètres (approche supervisée)
Comment obtenir les paramètres aq,r et bq(w) ?En les estimant à partir d’un corpus annoté (par des humains), comme leCorpus Brown (1Mmots)
Les probabilités p approchées par des probabilités empiriques p,fournies par les fréquences observées sur corpus
pour ap,q
aq,r = p(ti+1 = r |ti = q) =#(ti = q, ti+1 = r)
#(ti = q)
pour bp
bq(w) = p(wi = w |ti = q) =#(wi = w , ti = q)
#(ti = q)
Note: la constitution d’un corpus annoté est une tâche complexe, longue,fastidieuse et couteuse !
INRIA É. de la Clergerie Math & TAL 25/01/2017 27 / 48
INRIA
Limites des approches génératives
Les approches génératives donnent des résultats corrects, mais
Peu de prise en compte du contexte, avec juste l’état précédent p(qi+1|qi )
Problèmes pour estimer les emissions p(wi |qi ) pour les mots rares wior la langue suit une distribution en loi de puissance (loi de Zipf)
La fréquence f décroit exponentiellement avec le rang r :
fr ∼1rα
α > 1
Autrement dit, quelques mots sont très fréquents mais il existe une trèslongue traîne de mots rares.
INRIA É. de la Clergerie Math & TAL 25/01/2017 28 / 48
INRIA
Zipf: distribution de lemmes
Distribution des mots (lemmes) dans un corpus de 500 millions de mots, avec3 234 274 lemmes distincts dont 71 348 hors noms propres:
0 20 40 60 80 100
0
2
4
6
8
10
rang
fréqu
ence
(%)
0 20 40 60 80 100
10
20
30
40
50
60
rang
cum
ulfre
q(%
)
Les mots les plus fréquents: le, de, “,”, “.”, à, un, et, cln, “:”, en, être/v, . . .80% des occurrences couvertes avec ∼1500 lemmes et 90% avec 6000 mots
INRIA É. de la Clergerie Math & TAL 25/01/2017 29 / 48
INRIA
Methodes discriminantes
On reprend la tâche d’étiquetage de x = w1 · · ·wn,reformulée avec des probabilités conditionnelles
y = argmaxy∈Y(x)
p(y |x) = argmaxt1:n∈Y(x)
p(t1|x).p(t2|x , t1). · · · .p(tn|x , t1:n−1)
chaque x , t1, · · · tk est vu comme une configuration ck−1
y = argmaxt1:n∈Y(x)
p(t1|c0).p(t2|c1). · · · .p(tn|cn−1)
Pas assez de données (annotées) pour calculer des probabilités fiables p(.|c)pour chaque configuration c
INRIA É. de la Clergerie Math & TAL 25/01/2017 30 / 48
INRIA
Abstraire par des traits
Une configuration c est alors résumée par un ensemble de propriétés(trait – features)
La configuration c
Paul/PN pense/V que le chat dort
abstraite par
f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...
...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...
...
INRIA É. de la Clergerie Math & TAL 25/01/2017 31 / 48
INRIA
Pondérer les traits
On approche p(t |c) à partir de poids λi,t associés aux traits fi de cMéthode MaxEnt (ou régression logistique)
p(t |c) =eΣiλi,t fi
Zavec (normalisation)
Z = ΣteΣiλi,t fi
Mais on peut oublier Z pour aujourd’hui
Décodage (glouton – greedy): à chaque mot wk et configuration ck−1
tk = argmaxtp(t |ck−1)
Décodage par faisceau (beam), on garde les b meilleurs configurations ckà chaque étape
INRIA É. de la Clergerie Math & TAL 25/01/2017 32 / 48
INRIA
Calcul des paramètres: perceptron
Comment calculer les paramètres λi,t pour les traits fi ?
Apprentissage possible par perceptron (rétroaction)méthode itérative avec mise à jour des λi,t en fonction des succès et des échecs
on initialise λ(0)i,t (aléatoirement ou par décompte)
si pour une configuration c, on choisit t = argmaxt p(t |c) en place de labonne étiquette salors
I on pénalise les paramètres pour t par µ
λ(m+1)i,t = λ
(m)i,t − µ
I on favorise les paramètres pour s par µ
λ(m+1)i,s = λ
(m)i,s + µ
En pratique, convergence des paramètres
INRIA É. de la Clergerie Math & TAL 25/01/2017 33 / 48
INRIA
Limites des approches discriminantes
Les approches discriminantes (Perceptron, MaxEnt, SVM, CRF, . . . ) donnentd’excellents résultats.
Mais
elles nécessitent un effort important d’identification du bon jeu de traits.=⇒ en pratique, on considère d’immense jeux (plusieurs millions à dizainesde millions de traits)
toujours quelques soucis pour des mots inconnus/rares dans les corpusannotés.
INRIA É. de la Clergerie Math & TAL 25/01/2017 34 / 48
INRIA
Outline
1 Les approches algébriques
2 Les approches probabilistes avec apprentissage supervisé
3 Les approches neuronales profondes
INRIA É. de la Clergerie Math & TAL 25/01/2017 35 / 48
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings
2013: Word embeddingsanalogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReplysuggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits
INRIA É. de la Clergerie Math & TAL 25/01/2017 36 / 48
INRIA
BasesModélisation des neurones biologiques:
les neurones portent des vecteurs (réels) de dimension moyenne (d=100 à500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie
y
x1 x2 x3 x4
y = σ(ΣiAixi ) avec Ai matrice
Fonction d’activation σ: en générale non linéaireelle doit faire basculer l’état du neurone de sortie vers oui ou non
INRIA É. de la Clergerie Math & TAL 25/01/2017 37 / 48
INRIA
Fonctions d’activation
Utilisation de fonctions proches d’une bascule oui/non mais dérivables
tanh(x) =ex − e−x
ex + e−x tanh′(x) = 1− tanh2(x)
tangente hyperbolique tanh
D’autres fonctions sont aussi utilisées (softmax, sigmoïde)
INRIA É. de la Clergerie Math & TAL 25/01/2017 38 / 48
INRIA
Sorties multiples
On peut avoir plusieurs neurones de sortie
y1 y2
x1 x2 x3 x4
INRIA É. de la Clergerie Math & TAL 25/01/2017 39 / 48
INRIA
Couches cachéesOn peut intercaler des couches cachées intermédiairesces couches permettent de progressivement abstraire les informations desneurones d’entrée
y1 y2
x1 x2 x3 x4
INRIA É. de la Clergerie Math & TAL 25/01/2017 40 / 48
INRIA
Apprentissage: backpropagation
y1 y2
x1 x2 x3 x4
Similaire au perceptronon fait descendre les erreurs des neurones de sortie vers les neuronesd’entrée (backpropagation)mise à jour des paramètres Wi par descente de gradient
W (t+1)i = W (t)
i − µ ∗∂y∂Wi
INRIA É. de la Clergerie Math & TAL 25/01/2017 41 / 48
INRIA
Réseaux récurrentsPour le TAL, on veut des structures de réseaux adaptées au traitement deséquences de mots =⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1
(crédit illustration: http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA É. de la Clergerie Math & TAL 25/01/2017 42 / 48
INRIA
LSTM
Encore mieux: des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTMÉtat de l’art actuellement en TAL (bi-LSTM)
INRIA É. de la Clergerie Math & TAL 25/01/2017 43 / 48
INRIA
LSTM: oublier des info
INRIA É. de la Clergerie Math & TAL 25/01/2017 44 / 48
INRIA
LSTM: ajouter des info
INRIA É. de la Clergerie Math & TAL 25/01/2017 45 / 48
INRIA
LSTM: mettre à jour la mémoire
INRIA É. de la Clergerie Math & TAL 25/01/2017 46 / 48
INRIA
LSTM: avancer
INRIA É. de la Clergerie Math & TAL 25/01/2017 47 / 48
INRIA
Conclusion
Un large éventail mathématique utilisé en TALalgèbre (langages formels), probabilités, optimisation, calcul matriciel,analyse (dérivées partielles), calculs de gradients, . . .
encore de nombreuses techniques non présentées ici (apprentissagenon-supervisée)espaces à grande dimensions, variétés, topologie, métriques
certaines techniques très sophistiquées (ex. convergence rapide de calculsde gradients)mais résultats intéressants avec des techniques simples: fréquences,n-grammesma présentation ISN en 2014https://euler.ac-versailles.fr/IMG/pdf/eric_de_la_clergerie.pdf
INRIA É. de la Clergerie Math & TAL 25/01/2017 48 / 48
top related