modéliser le langage
TRANSCRIPT
MODÉLISER LE LANGAGEAdrien Guille
Université de Lyon
BIOEnseignant-chercheur
Fouille de données Université de Lyon , IUT Lumière & Laboratoire ERIC
Doctorat Diffusion de l’information dans les médias sociaux : modélisation et analyse
Université Lumière Lyon 2
Master Fouille de données
École Polytechnique de l’Université de Nantes
Licence Informatique, mathématiques et application à l'économie
Université de La Rochelle
“Words that occur in the same contexts tend to have similar meanings.
- Zellig S. Harris, 1954
“You shall know a word by the company it keeps.
- John Rupert Firth, 1957
50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang
➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un vecteur ligne = un mot
➤ Un vecteur colonne = un mot “contexte”
0
BBBBB@
mot1 mot2 · · · motn
mot1 0 x12 . . . x1n
mot2 x21 0 . . . x2n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
motn x1n xn2 . . . 0
1
CCCCCA
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Le langage = un espace vectoriel
➤ Un mot = un vecteur
➤ Les mots sémantiquement proches sont proches dans l’espace
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice X des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un mot = un vecteur ligne
➤ Transformer la matrice X
➤ X : grande dimension, creuse, colonnes corrélées
➤ W : faible dimension, dense
➤ Réduire la dimension de la matrice X
➤ Solution traditionnelle = SVD tronquée, i.e. ACP
➤ Solutions récentes plus efficaces
MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES
➤ GloVe: Global Vectors for Word Representation, J. Pennington et al.
➤ Word2Vec: Distributed Representations of Words and Phrases and their Compositionality, T. Mikolov et al.
GLOVEJ. Pennington, R. Socher, C. D. Manning
Glove: Global Vectors for Word Representation
EMNLP 2014, pp 1532-1543
GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
Probabilité et ratio k = solide k = gaz k = eau k = aléatoire
P(k|glace) probabilité élevée
probabilité faible
probabilité élevée
probabilité faible
P(k|vapeur) probabilité faible
probabilité élevée
probabilité élevée
probabilité faible
P(k|glace) P(k|vapeur)
ratio important
ratio proche de zéro
ratio proche de 1
ratio proche de 1
GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
➤ Trouver la matrice W telle que
➤ Pour toute paire de mots
➤ Pour tout triplet de mots
➤ La différence entre les mots a et b est encodée par un ratio de probabilités conditionnelles
wi · wj = logP (k = i|j)
wc · (wa � wb) = log
P (k = c|a)P (k = c|b)
GLOVE : FORMULATION
➤ Factoriser la matrice X
➤ Résoudre un problème d’optimisation
➤ Problème de type “moindres carrés pondérés”
➤ Introduction de biais
➤ Introduction d’une fonction de pondération
J =
nX
i=1
nX
j=1
f(Xij)(w>i w̃j + bi +˜bj � log(Xij))
2
X ' W ⇥ fWX 2 Nn⇥n,W 2 Rn⇥d,fW 2 Rd⇥n
MESURER LA SIMILARITÉ SÉMANTIQUEComparer des vecteurs
MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité basée sur la distance euclidienne
Se(u, v) =1
ku� vk
MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité cosinus
Sc(u, v) =u · v
kukkvk
INTERPRÉTER DES ASSOCIATIONS
Sommer des vecteurs
INTERPRÉTATION D’UNE PAIRE DE MOTS
À quoi correspond l’association des mots “monnaie” et “tchèque” ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Dans l’espace vectoriel : monnaie + tchèque = ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Dans l’espace vectoriel : monnaie + tchèque = ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Cette association désigne la Couronne, devise nationale de la République tchèque
DÉCOUVRIR DES RELATIONS SÉMANTIQUES
Composer des vecteurs
RÉSOLUTION D’UNE ANALOGIE
L’homme est au roi, ce que la femme est à _______ ?
Dans l’espace vectoriel : roi - homme + femme = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = reine
RÉSOLUTION D’UNE ANALOGIE
L’homme est au roi, ce que la femme est à la reine
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : reine - roi = femme - homme
RÉSOLUTION D’UNE ANALOGIE
Le modèle a capturé la notion de “genre”
RÉSOLUTION D’UNE ANALOGIE
TRADUIRE AUTOMATIQUEMENTAppliquer une rotation de matrice
Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais
TRADUCTION MOT À MOT
Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation
TRADUCTION MOT À MOT
DÉCOUVRIR DES RELATIONS GRAMMATICALES
Composer des vecteurs
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Le modèle a capturé les notions de “superlatif relatif ” et de “superlatif absolu”