modéliser le langage

Post on 10-Feb-2017

88 Views

Category:

Science

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

MODÉLISER LE LANGAGEAdrien Guille

Université de Lyon

BIOEnseignant-chercheur

Fouille de données Université de Lyon , IUT Lumière & Laboratoire ERIC

Doctorat Diffusion de l’information dans les médias sociaux : modélisation et analyse

Université Lumière Lyon 2

Master Fouille de données

École Polytechnique de l’Université de Nantes

Licence Informatique, mathématiques et application à l'économie

Université de La Rochelle

“Words that occur in the same contexts tend to have similar meanings.

- Zellig S. Harris, 1954

“You shall know a word by the company it keeps.

- John Rupert Firth, 1957

50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang

➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News)

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Construire la matrice des co-occurrences entre mots

➤ Matrice symétrique, n par n (nombre de mots distincts)

➤ Un vecteur ligne = un mot

➤ Un vecteur colonne = un mot “contexte”

0

BBBBB@

mot1 mot2 · · · motn

mot1 0 x12 . . . x1n

mot2 x21 0 . . . x2n

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

motn x1n xn2 . . . 0

1

CCCCCA

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Le langage = un espace vectoriel

➤ Un mot = un vecteur

➤ Les mots sémantiquement proches sont proches dans l’espace

APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Construire la matrice X des co-occurrences entre mots

➤ Matrice symétrique, n par n (nombre de mots distincts)

➤ Un mot = un vecteur ligne

➤ Transformer la matrice X

➤ X : grande dimension, creuse, colonnes corrélées

➤ W : faible dimension, dense

➤ Réduire la dimension de la matrice X

➤ Solution traditionnelle = SVD tronquée, i.e. ACP

➤ Solutions récentes plus efficaces

MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES

➤ GloVe: Global Vectors for Word Representation, J. Pennington et al.

➤ Word2Vec: Distributed Representations of Words and Phrases and their Compositionality, T. Mikolov et al.

GLOVEJ. Pennington, R. Socher, C. D. Manning

Glove: Global Vectors for Word Representation

EMNLP 2014, pp 1532-1543

GLOVE : INTUITION

➤ Encoder le sens des mots via des ratios de probabilités

Probabilité et ratio k = solide k = gaz k = eau k = aléatoire

P(k|glace) probabilité élevée

probabilité faible

probabilité élevée

probabilité faible

P(k|vapeur) probabilité faible

probabilité élevée

probabilité élevée

probabilité faible

P(k|glace) P(k|vapeur)

ratio important

ratio proche de zéro

ratio proche de 1

ratio proche de 1

GLOVE : INTUITION

➤ Encoder le sens des mots via des ratios de probabilités

➤ Trouver la matrice W telle que

➤ Pour toute paire de mots

➤ Pour tout triplet de mots

➤ La différence entre les mots a et b est encodée par un ratio de probabilités conditionnelles

wi · wj = logP (k = i|j)

wc · (wa � wb) = log

P (k = c|a)P (k = c|b)

GLOVE : FORMULATION

➤ Factoriser la matrice X

➤ Résoudre un problème d’optimisation

➤ Problème de type “moindres carrés pondérés”

➤ Introduction de biais

➤ Introduction d’une fonction de pondération

J =

nX

i=1

nX

j=1

f(Xij)(w>i w̃j + bi +˜bj � log(Xij))

2

X ' W ⇥ fWX 2 Nn⇥n,W 2 Rn⇥d,fW 2 Rd⇥n

MESURER LA SIMILARITÉ SÉMANTIQUEComparer des vecteurs

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS

➤ Similarité basée sur la distance euclidienne

Se(u, v) =1

ku� vk

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS

➤ Similarité cosinus

Sc(u, v) =u · v

kukkvk

INTERPRÉTER DES ASSOCIATIONS

Sommer des vecteurs

INTERPRÉTATION D’UNE PAIRE DE MOTS

À quoi correspond l’association des mots “monnaie” et “tchèque” ?

INTERPRÉTATION D’UNE PAIRE DE MOTS

Dans l’espace vectoriel : monnaie + tchèque = ?

INTERPRÉTATION D’UNE PAIRE DE MOTS

Dans l’espace vectoriel : monnaie + tchèque = ?

INTERPRÉTATION D’UNE PAIRE DE MOTS

Cette association désigne la Couronne, devise nationale de la République tchèque

DÉCOUVRIR DES RELATIONS SÉMANTIQUES

Composer des vecteurs

RÉSOLUTION D’UNE ANALOGIE

L’homme est au roi, ce que la femme est à _______ ?

Dans l’espace vectoriel : roi - homme + femme = ?

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : roi + (femme - homme) = ?

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : roi + (femme - homme) = reine

RÉSOLUTION D’UNE ANALOGIE

L’homme est au roi, ce que la femme est à la reine

RÉSOLUTION D’UNE ANALOGIE

Dans l’espace vectoriel : reine - roi = femme - homme

RÉSOLUTION D’UNE ANALOGIE

Le modèle a capturé la notion de “genre”

RÉSOLUTION D’UNE ANALOGIE

TRADUIRE AUTOMATIQUEMENTAppliquer une rotation de matrice

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais

TRADUCTION MOT À MOT

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation

TRADUCTION MOT À MOT

DÉCOUVRIR DES RELATIONS GRAMMATICALES

Composer des vecteurs

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais

IDENTIFICATION DES DEGRÉS DE COMPARAISON

Le modèle a capturé les notions de “superlatif relatif ” et de “superlatif absolu”

top related