une palette mathématique pour appréhender le langage

Une palette mathématiquepour appréhender le langage

Éric de la Clergerie<Eric.De_La_Clergerie@inria.fr>

http://alpage.inria.frINRIA Paris-Rocquencourt

Olympiades de mathématiques 2017Versailles – 25 Janvier 2017

INRIA É. de la Clergerie Math & TAL 25/01/2017 1 / 48

Expliquer ce que je fais !

De l’analyse syntaxique,une composante du Traitement Automatique des Langues (TAL).

L’ordinateur en classe de primaire,objectif: Retrouver les fonctions des mots dans la phrase

Vue par dépendances

ou alternativement

Retrouver les constituants de la phrase

Paul mange un délicieux gâteau

adj nc

sujetdet

Mais c’est plus compliqué . . .

de nombreuses constructions syntaxiquesdes rôles obscurs ou ambiguës dans la phraseil observe une maman avec ses jumelles. . .

En fait, beaucoup plus compliqué

Paul, je t’ai dit que François Flore est sorti furieux de chez son banquier carcelui-ci lui avait ex abrupto refusé son prêt pour sa future maison ?

Morphologie: les mots et leur structure (lubéronisation)découpage du texte en mots, catégories syntaxiques:celui/pro -ci/adj lui/cld avait/aux ex_abrupto/adv ...flexion (conjugaison) : avait=avoir+3s+Ind+Imparfaitentités nommées (personnes, lieux, . . . ) : (François Flore) PERSON_m

Syntaxe: structure des phrases et relations entre motsfonctions syntaxiques (sujet, objet, . . . ) : celui-ci=sujet, prêt=objet,lui=obj indirect de refusé

Sémantique: sens des énoncés et des motsstructure prédicatives, rôle des actants (agent, patient, . . . )refuser(agent=celui-ci,patient=lui,theme=prêt)

Pragmatique: contexte & connaissancesréférants: celui-ci=banquier, lui=son=sa=François, t’=Paulstructures argumentatives: refus explique furieuxscénarios, implicites

Pour quoi faire ?

Extraction d’information & Annotations

http://alpage.inria.fr/sapiens

Acquisition de connaissances (à partir de grands corpus)

http://alpage.inria.fr/Lbx

Beaucoup d’applications potentielles . . .2010: Google translate

2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux

Siri, Google Now, Cortana

recherche d’information, veille, extraction, questions-réponsesaccès à l’information: traduction, résumés, annotations/liens sémantiquesanalyse d’opinion, e-réputationgénération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires,aide à la rédaction: correction grammaticale, stylistique; saisie prédictiveaide pédagogique: apprentissage des langues; tutorat; évaluationinteraction: agents conversationnels, chatbots, assistants numériques,

Outline

1 Les approches algébriques

2 Les approches probabilistes avec apprentissage supervisé

3 Les approches neuronales profondes

La langue est structureOn trouve des structures à tous les niveaux de la langue

au niveau des mots: lubéronisation ≡ ((lubéron ◦ +iser) ◦ +tion)

au niveau des phrases: GN

au niveau sémantique (lambda-calcul)

S(Paul mange un fruit) = (λ s. ((λ o. /m/(s,o)) /f/)) /P/ (1); /m/(/P/, /f/) (2)

; utilisation de langages formels pourdécrire les structureset la manière de les combiner

Hiérarchie de Chomsky

Hiérarchie de Chomsky (1959):sur les langages et grammaires (qui les génèrent)

Type 3: Langages réguliers a(b|c)*d

A −→ a, A −→ aB

Type 2: Langages hors-contextes (Context-Freee Grammar – CFG)

A −→ γ

Type 1: Langages dépendants du contexte

αAβ −→ αγβ, |γ| > 0

Type 0: Langages récursivement énumérables

α −→ β

CFG & Langues naturelles

Les CFG utilisées pour réécrire des non-terminaux par substitutionLes séquences de substitution (dérivations) aussi représentables par desarbres d’analyse

S --> NP VPNP --> pnNP --> det nNP --> NP PPVP --> v NPVP --> VP PPPP --> prep NP

S =⇒ NP VP =⇒ pn VP =⇒ pn VP PP =⇒ pn v NP PP =⇒?

pn v det nc prep det ncS =⇒ S

=⇒ S

=⇒? S

Les CFG suffisent pour de nombreux phénomènes syntaxiques,dont les enchassements comme anbn ≡ a(an−1bn−1)b

Mais les CFG suffisent-elles ?2 aspects:

Comment vérifier qu’un langage n’est pas hors-contexte ?utilisation du lemme de pompage

Theorem (Lemme de pompage Bar Hillel)

L est un langage hors-contexte ssi

∃N > 0,∀w ∈ L, |w | > N =⇒ ∃u, v ,w , x , y , ∧

w = uvwxy|vwx | ≤ N ∧ |vx | > 0∀n ≥ 0, uvnwxny ∈ L

En particulier le langage anbmcndm, n,m ≥ 0 n’est pas hors-contexte(dépendances croisées)

a a b c c d

Peut-on trouver un contre-exemple linguistique ? Pas si évident !

Exemple du Suisse-Allemand (Shieber 1985)

Jan säit das mer em Hans es huus hälfed asstriicheJean dit que nous Hans-DAT la maison-ACC aider à-peindre

Les croisements peuvent être multiples

Jan säit das mer d’chind em Hans es huus lönd hälfed asstriicheJean dit que nous les enfants-ACC Hans-DAT la maison-ACC laisser aider à-peindre

On peut théoriquement itérer et se rapprocher de anbmcndm

. . . das mer (d’chind)n (em Hans)m es huus (lönd)n (hälfed)m asstriiche. . . que nous (les enfants-ACC)n (Hans-DAT)m la maison-ACC (laisser)n (aider)m à-peindre

Et pour le français

Il existe plusieurs phénomènes syntaxiques en français dont la structuresyntaxique naturelle (ie attendue) ne correspond pas à des analyses CFG.

Par exemple, les comparatives:

Note: Possible de fournir une CFG pour couvrir la phrase mais pas avec labonne structure

Aller plus loin que les CFGs

Toute une gamme de formalismes grammaticaux ont été proposés pour:dépasser le pouvoir expressif des CFGsrester si possible analysable efficacementfaciliter la description linguistique

; développement de FRMG, une (méta-) grammaire TAG à large couverturepour le français (http://alpage.inria.fr/frmgwiki)

Grammaire d’Arbres Adjoints (TAG)Introduites par Joshi, les TAGs’appuient sur des arbres et 2 opérations pour les combiner

la substitution d’une feuille par un arbrel’adjonction d’un arbre au sein d’un autre arbre

Un exemple plus complet: les comparatives

supermod

?adjPadjP

supermod

?supermod CS

supermod

Limites des approches algébriques

Problème pour recenser et décrire une très grande variété de phénomènessyntaxiquesde plus, beaucoup de phénomènes sont rares, voire très rares(distribution zipfienne)

I pb de maintenance de grosses grammairesI pb d’efficacité dans les analyses

une grammaire complexe tend à fournir beaucoup d’analyses possiblespour une phrase (ambiguité)

I il commence un livreI il commence cette nuitI il aime la nuitI il prend une tarte maison aux fruitsI il prend un glace fraise des boisI il prend une tarte maison au restaurant

; comment choisir la bonne analyse ? contraintes ou probabilités

Outline

Une formulation probabiliste générique

Étant donnée une observation x , trouver la meilleure structure (cachée)expliquant x (décodage)

une séquence d’étiquettes ti for chaque mot wi

un arbre syntaxique T couvrant w1:n

Approches discriminatives: fondées sur des configurations

y = argmaxy∈Y(x)

p(y |x)

Approches génératives: fondées sur la combinaison de structures

y = argmaxy∈Y(x)

p(y |x) = argmaxy∈Y(x)

p(x |y)p(y)

p(x)= argmax

y∈Y(x)

likehood︷︸︸︷p(x |y)

prior︷︸︸︷p(y)

Étiquetage syntaxique

Tâche: Assigner une catégorie syntaxique à chaque mot,problème des ambiguïtés

La/DET belle/N ferme/V le/DET voile/NLa/DET belle/ADJ ferme/N le/CL voile/V

Mais aussi:La/CL belle/ADJ ferme/V le/CL voile/NLa/DET belle/N ferme/V le/DET voile/VLa/N belle/N ferme/V le/DET voile/V

; Un nombre exponentiel de séquences d’étiquettes O(|T |n)

Treillis

L’ensemble des possibilités représentable par un treillis(graphe orienté acyclique – DAG)

La/DET

belle/N

belle/ADJ

ferme/N

ferme/V

le/DET

voile/N

voile/V

Objectif: Rechercher le meilleur chemin dans ce treillis

Approximer le problèmeOn cherche t1 . . . tn tel que

t1 . . . tn = argmax p(t1 . . . tn|w1 . . .wn) = argmax p(w1:n|t1:n)p(t1:n)

Approximations:une étiquette ne dépend que de la précédente

p(ti+1|t1:i ) ≈ p(ti+1|ti )

un mot ne dépend que de son étiquette

p(w1:n|t1:n) ≈n∏

p(wi |ti )

Si on assume une étiquette initiale t0 (en début de phrase)

t1:n ≈ argmaxn∏

p(ti |ti−1)p(wi |ti )

Modèle de Markov Caché (HMM)

La formulation correpond à un automate pondéré à états finis

p(D|0)

p(la|D)

p(N|D)

p(belle|N)

p(V |N)

p(ferme|V )

p(D|V )

p(le|D)

p(N|D)

p(voile|N)

Formalisation en tant que HMM H:

un ensemble fini d’états Q = {0,D,N,V , . . .}

q0 = 0 et qf = $ les états initiaux et finaux

une matrice de transitions entre états aqr = p(r |q) avec∑

r∈Q aqr = 1

des probabilités d’emission bq(w) = p(w |q)

HMM: Décodage

Étant donné H, recherche du meilleur chemin dans le trellis

t1:n = argmaxt1:n

p(ti |ti−1)p(wi |ti )

= argmax∏

ati−1,ti bti (wi )

Mais si t1:n est un meilleur chemin,alors t1:k meilleur sous-chemin atteignant k dans l’état tk

; résolution d’un problème plus général, acceptant une décompositionrécursive

viterbik (r) = maxt1:k−1

p(w1, . . . ,wk , t0, . . . , tk = r |H)

= maxq

viterbik−1(q)aq,r br (wk )

Décomposition récursive de Viterbi

Initialisationviterbi1(q) = aq0,qbq(w1)

Recursion, pour 1 < k ≤ n

viterbik (q) = maxp

viterbik−1(p)ap,qbq(wk )

Terminaisonviterbin(qF )

similaire à la recherche de plus court cheminadaptée à des algorithmes de programmation dynamique; complexité polynomiale (quadratique) plutôt que exponentielle

Estimation des paramètres (approche supervisée)

Comment obtenir les paramètres aq,r et bq(w) ?En les estimant à partir d’un corpus annoté (par des humains), comme leCorpus Brown (1Mmots)

Les probabilités p approchées par des probabilités empiriques p,fournies par les fréquences observées sur corpus

pour ap,q

aq,r = p(ti+1 = r |ti = q) =#(ti = q, ti+1 = r)

#(ti = q)

pour bp

bq(w) = p(wi = w |ti = q) =#(wi = w , ti = q)

#(ti = q)

Note: la constitution d’un corpus annoté est une tâche complexe, longue,fastidieuse et couteuse !

Limites des approches génératives

Les approches génératives donnent des résultats corrects, mais

Peu de prise en compte du contexte, avec juste l’état précédent p(qi+1|qi )

Problèmes pour estimer les emissions p(wi |qi ) pour les mots rares wior la langue suit une distribution en loi de puissance (loi de Zipf)

La fréquence f décroit exponentiellement avec le rang r :

fr ∼1rα

α > 1

Autrement dit, quelques mots sont très fréquents mais il existe une trèslongue traîne de mots rares.

Zipf: distribution de lemmes

Distribution des mots (lemmes) dans un corpus de 500 millions de mots, avec3 234 274 lemmes distincts dont 71 348 hors noms propres:

0 20 40 60 80 100

fréqu

0 20 40 60 80 100

Les mots les plus fréquents: le, de, “,”, “.”, à, un, et, cln, “:”, en, être/v, . . .80% des occurrences couvertes avec ∼1500 lemmes et 90% avec 6000 mots

Methodes discriminantes

On reprend la tâche d’étiquetage de x = w1 · · ·wn,reformulée avec des probabilités conditionnelles

y = argmaxy∈Y(x)

p(y |x) = argmaxt1:n∈Y(x)

p(t1|x).p(t2|x , t1). · · · .p(tn|x , t1:n−1)

chaque x , t1, · · · tk est vu comme une configuration ck−1

y = argmaxt1:n∈Y(x)

p(t1|c0).p(t2|c1). · · · .p(tn|cn−1)

Pas assez de données (annotées) pour calculer des probabilités fiables p(.|c)pour chaque configuration c

Abstraire par des traits

Une configuration c est alors résumée par un ensemble de propriétés(trait – features)

La configuration c

Paul/PN pense/V que le chat dort

abstraite par

f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...

...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...

Pondérer les traits

On approche p(t |c) à partir de poids λi,t associés aux traits fi de cMéthode MaxEnt (ou régression logistique)

p(t |c) =eΣiλi,t fi

Zavec (normalisation)

Z = ΣteΣiλi,t fi

Mais on peut oublier Z pour aujourd’hui

Décodage (glouton – greedy): à chaque mot wk et configuration ck−1

tk = argmaxtp(t |ck−1)

Décodage par faisceau (beam), on garde les b meilleurs configurations ckà chaque étape

Calcul des paramètres: perceptron

Comment calculer les paramètres λi,t pour les traits fi ?

Apprentissage possible par perceptron (rétroaction)méthode itérative avec mise à jour des λi,t en fonction des succès et des échecs

on initialise λ(0)i,t (aléatoirement ou par décompte)

si pour une configuration c, on choisit t = argmaxt p(t |c) en place de labonne étiquette salors

I on pénalise les paramètres pour t par µ

λ(m+1)i,t = λ

(m)i,t − µ

I on favorise les paramètres pour s par µ

λ(m+1)i,s = λ

(m)i,s + µ

En pratique, convergence des paramètres

Limites des approches discriminantes

Les approches discriminantes (Perceptron, MaxEnt, SVM, CRF, . . . ) donnentd’excellents résultats.

elles nécessitent un effort important d’identification du bon jeu de traits.=⇒ en pratique, on considère d’immense jeux (plusieurs millions à dizainesde millions de traits)

toujours quelques soucis pour des mots inconnus/rares dans les corpusannotés.

Outline

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits

BasesModélisation des neurones biologiques:

les neurones portent des vecteurs (réels) de dimension moyenne (d=100 à500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie

x1 x2 x3 x4

y = σ(ΣiAixi ) avec Ai matrice

Fonction d’activation σ: en générale non linéaireelle doit faire basculer l’état du neurone de sortie vers oui ou non

Fonctions d’activation

Utilisation de fonctions proches d’une bascule oui/non mais dérivables

tanh(x) =ex − e−x

ex + e−x tanh′(x) = 1− tanh2(x)

tangente hyperbolique tanh

D’autres fonctions sont aussi utilisées (softmax, sigmoïde)

Sorties multiples

On peut avoir plusieurs neurones de sortie

x1 x2 x3 x4

Couches cachéesOn peut intercaler des couches cachées intermédiairesces couches permettent de progressivement abstraire les informations desneurones d’entrée

x1 x2 x3 x4

Apprentissage: backpropagation

x1 x2 x3 x4

Similaire au perceptronon fait descendre les erreurs des neurones de sortie vers les neuronesd’entrée (backpropagation)mise à jour des paramètres Wi par descente de gradient

W (t+1)i = W (t)

i − µ ∗∂y∂Wi

Réseaux récurrentsPour le TAL, on veut des structures de réseaux adaptées au traitement deséquences de mots =⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1

(crédit illustration: http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA É. de la Clergerie Math & TAL 25/01/2017 42 / 48

Encore mieux: des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTMÉtat de l’art actuellement en TAL (bi-LSTM)

LSTM: oublier des info

LSTM: ajouter des info

LSTM: mettre à jour la mémoire

LSTM: avancer

Conclusion

Un large éventail mathématique utilisé en TALalgèbre (langages formels), probabilités, optimisation, calcul matriciel,analyse (dérivées partielles), calculs de gradients, . . .

encore de nombreuses techniques non présentées ici (apprentissagenon-supervisée)espaces à grande dimensions, variétés, topologie, métriques

certaines techniques très sophistiquées (ex. convergence rapide de calculsde gradients)mais résultats intéressants avec des techniques simples: fréquences,n-grammesma présentation ISN en 2014https://euler.ac-versailles.fr/IMG/pdf/eric_de_la_clergerie.pdf

une palette mathématique pour appréhender le langage

Presentations & Public Speaking

mathématique financières

m. mathÉmatique

objectifs appréhender les différents procédés

rallye mathÉmatique

culture mathématique

14. appréhender la transition démocratique

fiche technique - planchers-acor 3 volets acor.pdfebm 13 :...

physique mathématique epfl

mathématique :

analyse mathématique

renÉ clÉment entre palette et pellicule

l'analyse systémique pour appréhender la soutenabilité

théorie mathématique de l'élasticité - numdamthÉorie...

la morphologie mathématique

palette de couleurs atelierslea boite aux lettres...

enigme mathématique 1 -...

palette francophone 2

la chimie crée sa couleur sur la palette du peintre · la...

appréhender la dynamique d'évolution des organisations

explorer et appréhender le web