data mining/machine learning - paris dauphine universityatif/lib/exe/fetch.php?... ·...

Report

Post on 27-Jul-2020

3 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Data Mining/Machine LearningApprentissage non-supervisé – EM

Jamal Atifjamal.atif@dauphine.fr

Université Paris-Dauphine, M2 ID

18 décembre 2015

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 1 / 32

Outline

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 3 / 32

k-moyennes, un bref rappel

vous êtes ici

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 4 / 32

k-moyennes, un bref rappel

Rappel sur les K-means

LimitationsI Mauvaise prise en compte des outliers.

I Points extrémes en dehors des groupes.I Faussent les moyennes et donc les centres.

I Problémes avec des clusters de :I différentes tailles,I différentes densités,I de formes non-globulaires.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 5 / 32

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de taille différente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 6 / 32

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de densité différente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 7 / 32

k-moyennes, un bref rappel

Rappel sur les K-means

Limitations : clusters de form non globular

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 8 / 32

Clustering : modélisation statistique

vous êtes ici

1 k-moyennes, un bref rappel

2 Approches de clustering par modélisation statistique – EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 9 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exemple

I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.

I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions

gaussiennes.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où

X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une

variable aléatoire.I Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)

(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.

Z est aussi appelée variable latente

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Introduction par l’exempleI Loi marginale de X :

f (X) = f (X,Z = 1) + f (X,Z = 2)

f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)

I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)

I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.

I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Modèle de mélange : illustration

Modèle de mélange gaussien :

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

avec π1 + π2 = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 13 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj

et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori

d’appartenance du point X = x à C1 et C2 :

Pr(Z = 1|X = x) =π1f (X = x|Z = 1)

f (X = x)

Pr(Z = 2|X = x) =π2f (X = x|Z = 2)

f (X = x)

I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Du modèle de mélange au clustering

Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori

C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)

C2 ← x, sinon

I Ceci se généralise aisement pour K > 2 clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Estimation des paramètres du modèle

Retour à l’exemple.I Modèle de mélange gaussien

f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)

I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2

I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ

θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T

I Comment estimer les paramètres à partir des données ?

⇒Maximiser la vraisemblance (ou le log de la vraisemblance)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment

distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :

Λ(θ; x1, ..., xN) =

N∏i=1

f (X = xi; θ)

I En général, on utilise la Log-vraisemblance :

L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =

N∑i=1

log(f (X = xi; θ))

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Maximisation de la vraisemblanceOn a donc le problème suivant :

θ̂ML := arg maxθ

L(θ; x1, ..., xN) = arg maxθ

N∑i=1

log(f (X = xi; θ))

Approche directe

I La solution θ̂ML du problème vérifie :

∇L(θ̂ML; x1, ..., xN) = 0

I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation

des paramètres d’une loi normale)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.

N (X|µ,Σ) =1√

(2π)d|Σ|exp{−

12

(X − µ)TΣ−1(X − µ)}

I La log vraisemblance est :

L(µ,Σ; x1, ..., xN) =N∑

i=1

log(N (X|µ,Σ))

L(µ,Σ; x1, ..., xN) = −12

N log((2π)d|Σ|)−12

N∑i=1

(xi − µ)TΣ−1(xi − µ)

I Estimation de la moyenne µ et de la matrice de covariance Σ :

arg maxµ,Σ

L(µ,Σ; x1, ..., xN)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de

vraisemblance.I Conditions d’optimalité

∇µL = 0⇒ −N∑

i=1

Σ−1(xi − µ) = 0

∇ΣL = 0⇒ −N2

Σ−1 +12

N∑i=1

Σ−1(xi − µ)T(xi − µ)Σ−1 = 0

I Solutions analytiques

µ̂ =1N

N∑i=1

xi; Σ̂ =1N

N∑i=1

(xi − µ̂)(xi − µ̂)T

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance

Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.

L(θ; x1, ..., xN) =

N∑i=1

log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))

I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)

I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi

I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la

log-vraisemblance complétée

Lc(θ; {xi, zi}i=1,...,N) =N∑

i=1

zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))

avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2

I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc

Esp(Lc|{xi}i=1,...,N) =

N∑i=1

Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))

I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1

I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Loi de Bayes :

Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)

f (xi)

Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)

I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.

EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

EM par l’exempleI Loi de Bayes :

Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)

f (xi)

Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)

I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.

EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EMRépéter :

1. Etape E (Expectation) :calcul des probabilités a posteriori Pr(zi = 1|xi) et Pr(zi = 0|xi)

γ(1)i =

π1N (xi;µ1,Σ1)

π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2), i = 1, ...,N

Remarque : γ(2)i = Pr(zi = 0|xi) = 1− γ(1)

i : probabilité a posteriori que xi ∈ C2

2. Etape M (Maximisation) : calcul des paramètres

µj =

∑Ni=1 γ

(j)i xi∑N

i=1 γ(j)i

;πj =

∑Ni=1 γ

(j)i

N; j ∈ {1, 2}

Σj =

∑Ni=1 γ

(j)i (xi − µj)(xi − µj)

T∑Ni=1 γ

(j)i

; j ∈ {1, 2}

Jusqu’à convergence

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 25 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2

I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering

I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)

i soit maximal

C1 ← xi, si γ(1)i > γ

(2)i

C2 ← xi, sinon

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32

Clustering : modélisation statistique

Maximisation de la vraisemblance : Algorithme EM

Algorithme EM appliqué au mélange de 2 gaussiennes

Illustration

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 27 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Extensions au cas généralI Modèle de mélange

f (x) =

K∑k=1

πkf (x; θk) avecK∑

k=1

πk = 1

I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck

γ(k)i =

πkf (xi; θk)∑Ki=1 πkf (xi; θk)

, i = 1, ...,N; k = 1, ..K

et∑K

i=1 γ(k)i = 1

I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance

(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme

l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0, ∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Clustering par modélisation statistique

Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :

1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K

2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ

(l)i

I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)

i = 0,∀l 6= k

3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées

I Jusqu’à convergence

A la fin de l’algo, on a directement les clusters.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Clustering : modélisation statistique

Exemple complet

I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB

I Distribution binomiale pour le calcul de probabilités :(n

k

)pk(1− p)n−k

I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les

probabilités du Maximum de Vraisemblance.

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32

Clustering : modélisation statistique

Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous

ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32

Clustering : modélisation statistique

Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous

ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM

Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32

top related

algorithm design (12) clustering...

Documents

jboss clustering et tuning (lab 3/3)

Documents

techniques de localisation et de résumé des données dans...

Documents

1 regroupement (clustering). cest quoi ? regroupement...

Documents

queduweb 2015 : trois exemples de clustering pour le...

Marketing

clustering grappe d'ordinateurs. clustering présentation...

Documents

journal de la société française de statistique ·...

Documents

cenni di jboss clustering - unibo.itlia.deis.unibo.it ›...

Documents

cenni di jboss clustering - unibo.itlia.deis.unibo.it ›...

Documents

techniques du data mining -...

Documents

modélisation statistique

Documents

improving of clustering partitions fitness and clustering

Documents

clustering efficace avec les divergences de bregman

Technology

clustering geo-markets using self- organizing maps … ·...

Documents

trading haute fréquence modélisation et arbitrage...

Documents

methodes de clustering présenté par : mohsen ben hassine

Documents

modélisation statistique bayesienne du modèle de...

Documents

bat-cluster : une approche de clustering automatique des...

Documents

chapitre 3 clustering

Documents

fouille de données processus ecd, fouille de motifs,...

Documents