modéliser le langage

40
MODÉLISER LE LANGAGE Adrien Guille Université de Lyon

Upload: adrien-guille

Post on 10-Feb-2017

88 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Modéliser le langage

MODÉLISER LE LANGAGEAdrien Guille

Université de Lyon

Page 2: Modéliser le langage

BIOEnseignant-chercheur

Fouille de données Université de Lyon , IUT Lumière & Laboratoire ERIC

Doctorat Diffusion de l’information dans les médias sociaux : modélisation et analyse

Université Lumière Lyon 2

Master Fouille de données

École Polytechnique de l’Université de Nantes

Licence Informatique, mathématiques et application à l'économie

Université de La Rochelle

Page 3: Modéliser le langage

“Words that occur in the same contexts tend to have similar meanings.

- Zellig S. Harris, 1954

Page 4: Modéliser le langage

“You shall know a word by the company it keeps.

- John Rupert Firth, 1957

Page 5: Modéliser le langage

50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang

➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

Page 6: Modéliser le langage

➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log

Page 7: Modéliser le langage

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Construire la matrice des co-occurrences entre mots

➤ Matrice symétrique, n par n (nombre de mots distincts)

➤ Un vecteur ligne = un mot

➤ Un vecteur colonne = un mot “contexte”

0

BBBBB@

mot1 mot2 · · · motn

mot1 0 x12 . . . x1n

mot2 x21 0 . . . x2n

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

motn x1n xn2 . . . 0

1

CCCCCA

Page 8: Modéliser le langage

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Le langage = un espace vectoriel

➤ Un mot = un vecteur

➤ Les mots sémantiquement proches sont proches dans l’espace

Page 9: Modéliser le langage

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Construire la matrice X des co-occurrences entre mots

➤ Matrice symétrique, n par n (nombre de mots distincts)

➤ Un mot = un vecteur ligne

➤ Transformer la matrice X

➤ X : grande dimension, creuse, colonnes corrélées

➤ W : faible dimension, dense

➤ Réduire la dimension de la matrice X

➤ Solution traditionnelle = SVD tronquée, i.e. ACP

➤ Solutions récentes plus efficaces

Page 10: Modéliser le langage

MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES

➤ GloVe: Global Vectors for Word Representation, J. Pennington et al.

➤ Word2Vec: Distributed Representations of Words and Phrases and their Compositionality, T. Mikolov et al.

Page 11: Modéliser le langage

GLOVEJ. Pennington, R. Socher, C. D. Manning

Glove: Global Vectors for Word Representation

EMNLP 2014, pp 1532-1543

Page 12: Modéliser le langage

GLOVE : INTUITION

➤ Encoder le sens des mots via des ratios de probabilités

Probabilité et ratio k = solide k = gaz k = eau k = aléatoire

P(k|glace) probabilité élevée

probabilité faible

probabilité élevée

probabilité faible

P(k|vapeur) probabilité faible

probabilité élevée

probabilité élevée

probabilité faible

P(k|glace) P(k|vapeur)

ratio important

ratio proche de zéro

ratio proche de 1

ratio proche de 1

Page 13: Modéliser le langage

GLOVE : INTUITION

➤ Encoder le sens des mots via des ratios de probabilités

➤ Trouver la matrice W telle que

➤ Pour toute paire de mots

➤ Pour tout triplet de mots

➤ La différence entre les mots a et b est encodée par un ratio de probabilités conditionnelles

wi · wj = logP (k = i|j)

wc · (wa � wb) = log

P (k = c|a)P (k = c|b)

Page 14: Modéliser le langage

GLOVE : FORMULATION

➤ Factoriser la matrice X

➤ Résoudre un problème d’optimisation

➤ Problème de type “moindres carrés pondérés”

➤ Introduction de biais

➤ Introduction d’une fonction de pondération

J =

nX

i=1

nX

j=1

f(Xij)(w>i w̃j + bi +˜bj � log(Xij))

2

X ' W ⇥ fWX 2 Nn⇥n,W 2 Rn⇥d,fW 2 Rd⇥n

Page 15: Modéliser le langage

MESURER LA SIMILARITÉ SÉMANTIQUEComparer des vecteurs

Page 16: Modéliser le langage

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS

➤ Similarité basée sur la distance euclidienne

Se(u, v) =1

ku� vk

Page 17: Modéliser le langage

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS

➤ Similarité cosinus

Sc(u, v) =u · v

kukkvk

Page 18: Modéliser le langage

INTERPRÉTER DES ASSOCIATIONS

Sommer des vecteurs

Page 19: Modéliser le langage

INTERPRÉTATION D’UNE PAIRE DE MOTS

À quoi correspond l’association des mots “monnaie” et “tchèque” ?

Page 20: Modéliser le langage

INTERPRÉTATION D’UNE PAIRE DE MOTS

Dans l’espace vectoriel : monnaie + tchèque = ?

Page 21: Modéliser le langage

INTERPRÉTATION D’UNE PAIRE DE MOTS

Dans l’espace vectoriel : monnaie + tchèque = ?

Page 22: Modéliser le langage

INTERPRÉTATION D’UNE PAIRE DE MOTS

Cette association désigne la Couronne, devise nationale de la République tchèque

Page 23: Modéliser le langage

DÉCOUVRIR DES RELATIONS SÉMANTIQUES

Composer des vecteurs

Page 24: Modéliser le langage

RÉSOLUTION D’UNE ANALOGIE

L’homme est au roi, ce que la femme est à _______ ?

Page 25: Modéliser le langage

Dans l’espace vectoriel : roi - homme + femme = ?

RÉSOLUTION D’UNE ANALOGIE

Page 26: Modéliser le langage

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Page 27: Modéliser le langage

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Page 28: Modéliser le langage

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Page 29: Modéliser le langage

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Page 30: Modéliser le langage

Dans l’espace vectoriel : roi + (femme - homme) = reine

RÉSOLUTION D’UNE ANALOGIE

Page 31: Modéliser le langage

L’homme est au roi, ce que la femme est à la reine

RÉSOLUTION D’UNE ANALOGIE

Page 32: Modéliser le langage

Dans l’espace vectoriel : reine - roi = femme - homme

RÉSOLUTION D’UNE ANALOGIE

Page 33: Modéliser le langage

Le modèle a capturé la notion de “genre”

RÉSOLUTION D’UNE ANALOGIE

Page 34: Modéliser le langage

TRADUIRE AUTOMATIQUEMENTAppliquer une rotation de matrice

Page 35: Modéliser le langage

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais

TRADUCTION MOT À MOT

Page 36: Modéliser le langage

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation

TRADUCTION MOT À MOT

Page 37: Modéliser le langage

DÉCOUVRIR DES RELATIONS GRAMMATICALES

Composer des vecteurs

Page 38: Modéliser le langage

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais

Page 39: Modéliser le langage

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais

Page 40: Modéliser le langage

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Le modèle a capturé les notions de “superlatif relatif ” et de “superlatif absolu”