data mining/machine learning - paris dauphine universityatif/lib/exe/fetch.php?... ·...

89
Data Mining/Machine Learning Apprentissage non-supervisé – EM Jamal Atif [email protected] Université Paris-Dauphine, M2 ID 18 décembre 2015 Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 1 / 32

Upload: others

Post on 27-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Data Mining/Machine LearningApprentissage non-supervisé – EM

Jamal [email protected]

Université Paris-Dauphine, M2 ID

18 décembre 2015

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 1 / 32

Page 2: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Outline

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 3 / 32

Page 3: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

k-moyennes, un bref rappel

vous êtes ici

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 4 / 32

Page 4: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

k-moyennes, un bref rappel

Rappel sur les K-means

LimitationsI Mauvaise prise en compte des outliers.

I Points extrémes en dehors des groupes.I Faussent les moyennes et donc les centres.

I Problémes avec des clusters de :I différentes tailles,I différentes densités,I de formes non-globulaires.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 5 / 32

Page 5: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de taille différente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 6 / 32

Page 6: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de densité différente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 7 / 32

Page 7: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de form non globular

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 8 / 32

Page 8: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

vous êtes ici

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 9 / 32

Page 9: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Page 10: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Page 11: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Page 12: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 13: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 14: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 15: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 16: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 17: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Page 18: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Page 19: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Page 20: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Page 21: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Page 22: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Modèle de mélange : illustration

Modèle de mélange gaussien :

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

avec π1 + π2 = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 13 / 32

Page 23: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Page 24: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Page 25: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Page 26: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Page 27: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Page 28: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Page 29: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Page 30: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Page 31: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Page 32: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Page 33: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Page 34: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Page 35: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Page 36: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Page 37: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Page 38: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Page 39: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Page 40: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Page 41: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Page 42: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Page 43: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Page 44: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Page 45: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Page 46: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Page 47: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Page 48: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Page 49: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Page 50: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Page 51: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Page 52: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Page 53: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Page 54: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Page 55: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Page 56: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Loi de Bayes :

Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)

f (xi)

Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)

I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.

EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32

Page 57: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Loi de Bayes :

Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)

f (xi)

Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)

I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.

EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32

Page 58: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EMRépéter :

1. Etape E (Expectation) :calcul des probabilités a posteriori Pr(zi = 1|xi) et Pr(zi = 0|xi)

γ(1)i =

π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2), i = 1, ...,N

Remarque : γ(2)i = Pr(zi = 0|xi) = 1− γ(1)

i : probabilité a posteriori que xi ∈ C2

2. Etape M (Maximisation) : calcul des paramètres

µj =

∑Ni=1 γ

(j)i xi∑N

i=1 γ(j)i

;πj =

∑Ni=1 γ

(j)i

N; j ∈ {1, 2}

Σj =

∑Ni=1 γ

(j)i (xi − µj)(xi − µj)

T∑Ni=1 γ

(j)i

; j ∈ {1, 2}

Jusqu’à convergence

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 25 / 32

Page 59: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Page 60: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Page 61: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Page 62: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Page 63: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Illustration

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 27 / 32

Page 64: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Page 65: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Page 66: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Page 67: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Page 68: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Page 69: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Page 70: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Page 71: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Page 72: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Page 73: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 74: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 75: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 76: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 77: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 78: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 79: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 80: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 81: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 82: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Page 83: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Page 84: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Page 85: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Page 86: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Page 87: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Page 88: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous

ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32

Page 89: Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Clustering : modélisation statistique

Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous

ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32