data mining/machine learning - paris dauphine universityatif/lib/exe/fetch.php?... ·...
Post on 27-Jul-2020
3 Views
Preview:
TRANSCRIPT
Data Mining/Machine LearningApprentissage non-supervisé – EM
Jamal Atifjamal.atif@dauphine.fr
Université Paris-Dauphine, M2 ID
18 décembre 2015
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 1 / 32
Outline
1 k-moyennes, un bref rappel
2 Approches de clustering par modélisation statistique – EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 3 / 32
k-moyennes, un bref rappel
vous êtes ici
1 k-moyennes, un bref rappel
2 Approches de clustering par modélisation statistique – EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 4 / 32
k-moyennes, un bref rappel
Rappel sur les K-means
LimitationsI Mauvaise prise en compte des outliers.
I Points extrémes en dehors des groupes.I Faussent les moyennes et donc les centres.
I Problémes avec des clusters de :I différentes tailles,I différentes densités,I de formes non-globulaires.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 5 / 32
k-moyennes, un bref rappel
Rappel sur les K-means
Limitations : clusters de taille différente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 6 / 32
k-moyennes, un bref rappel
Rappel sur les K-means
Limitations : clusters de densité différente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 7 / 32
k-moyennes, un bref rappel
Rappel sur les K-means
Limitations : clusters de form non globular
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 8 / 32
Clustering : modélisation statistique
vous êtes ici
1 k-moyennes, un bref rappel
2 Approches de clustering par modélisation statistique – EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 9 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exemple
I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.
I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions
gaussiennes.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exemple
I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.
I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions
gaussiennes.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exemple
I On considère N données {xi ∈ Rd}i=1,..,N formant deux classes.
I On veut trouver le modèle statistique des données.I On constate que pour modéliser les données, il faut deux distributions
gaussiennes.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 10 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Dans la classe 1, les données suivent une loi normale multidimensionnelleN (X;µ1,Σ1) où
X désigne une variable aléatoire (µ : moyenne, Σ = matrice de variance-covariance).I Dans la classe 2, les données suivent une loi normaleN (X;µ2,Σ2) où X désigne une
variable aléatoire.I Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = f (X|Z = 1)Pr(Z = 1) + f (X|Z = 2)Pr(Z = 2)
(bayes)f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
avec f (X|Z = 1) ≡ N (X;µ1,Σ1) et f (X|Z = 2) ≡ N (X;µ2,Σ2)Z : variable aléatoire cachée indiquant la classe du point X.
Z est aussi appelée variable latente
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 11 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)
I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.
I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)
I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.
I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)
I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.
I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Introduction par l’exempleI Loi marginale de X :
f (X) = f (X,Z = 1) + f (X,Z = 2)
f (X) = π1f (X|Z = 1) + π2f (X|Z = 2)
I π1 et π2 désignent la probabilité a priori que X relève de la classe C1respectivement C2. (π1 + π2 = 1)
I f (X|Z = 1) et f (X|Z = 2) désignent la densité conditionnelle de Xrespectivement à Z = 1 et Z = 2.
I f (X) est entièrement déterminé par la connaissance de πj, µj, Σj, j ∈ {1, 2}.On l’appelle modèle de mélange de densités.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 12 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Modèle de mélange : illustration
Modèle de mélange gaussien :
f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)
avec π1 + π2 = 1
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 13 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj
et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori
d’appartenance du point X = x à C1 et C2 :
Pr(Z = 1|X = x) =π1f (X = x|Z = 1)
f (X = x)
Pr(Z = 2|X = x) =π2f (X = x|Z = 2)
f (X = x)
I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj
et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori
d’appartenance du point X = x à C1 et C2 :
Pr(Z = 1|X = x) =π1f (X = x|Z = 1)
f (X = x)
Pr(Z = 2|X = x) =π2f (X = x|Z = 2)
f (X = x)
I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Interêt du modèle statistique pour faire du clusteringI Si on connait le modèle de mélange, on connait les probabilités a priori πj
et les lois conditionnelles f (X|Z = j), j ∈ {1, 2}I D’après le théorème de Bayes, on en déduit les probabilités a posteriori
d’appartenance du point X = x à C1 et C2 :
Pr(Z = 1|X = x) =π1f (X = x|Z = 1)
f (X = x)
Pr(Z = 2|X = x) =π2f (X = x|Z = 2)
f (X = x)
I Remarque : Pr(Z = 1|X = x) + Pr(Z = 2|X = x) = 1
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 14 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori
C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)
C2 ← x, sinon
I Ceci se généralise aisement pour K > 2 clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori
C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)
C2 ← x, sinon
I Ceci se généralise aisement pour K > 2 clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Du modèle de mélange au clustering
Affectation des points aux clustersI Affectation probabilisteI Le point x est affecté à la classe de plus grande probabilité a posteriori
C1 ← x,Pr(Z = 1|X = x) > Pr(Z = 2|X = x)
C2 ← x, sinon
I Ceci se généralise aisement pour K > 2 clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 15 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Estimation des paramètres du modèle
Retour à l’exemple.I Modèle de mélange gaussien
f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)
I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2
I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ
θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T
I Comment estimer les paramètres à partir des données ?
⇒Maximiser la vraisemblance (ou le log de la vraisemblance)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Estimation des paramètres du modèle
Retour à l’exemple.I Modèle de mélange gaussien
f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)
I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2
I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ
θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T
I Comment estimer les paramètres à partir des données ?
⇒Maximiser la vraisemblance (ou le log de la vraisemblance)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Estimation des paramètres du modèle
Retour à l’exemple.I Modèle de mélange gaussien
f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)
I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2
I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ
θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T
I Comment estimer les paramètres à partir des données ?
⇒Maximiser la vraisemblance (ou le log de la vraisemblance)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Estimation des paramètres du modèle
Retour à l’exemple.I Modèle de mélange gaussien
f (X) = π1N (X;µ1,Σ1) + π2N (X;µ2,Σ2)
I Paramètres à estimer : π1, π2, µ1, µ2,Σ1,Σ2
I On regroupe tous les paramètres du modèle de mélange dans le vecteur θ
θ = [π1, π2, µ1,Σ1(:)T, µ2,Σ2(:)T]T
I Comment estimer les paramètres à partir des données ?
⇒Maximiser la vraisemblance (ou le log de la vraisemblance)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 16 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment
distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :
Λ(θ; x1, ..., xN) =
N∏i=1
f (X = xi; θ)
I En général, on utilise la Log-vraisemblance :
L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =
N∑i=1
log(f (X = xi; θ))
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment
distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :
Λ(θ; x1, ..., xN) =
N∏i=1
f (X = xi; θ)
I En général, on utilise la Log-vraisemblance :
L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =
N∑i=1
log(f (X = xi; θ))
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Notion de vraisemblanceI On suppose des données {xi}i=1,...,N identiquement et indépendamment
distribuées. Ces données suivent une loi f (X; θ) de paramètres θ.I Vraisemblance :
Λ(θ; x1, ..., xN) =
N∏i=1
f (X = xi; θ)
I En général, on utilise la Log-vraisemblance :
L(θ; x1, ..., xN) = log(Λ(θ; x1, ..., xN)) =
N∑i=1
log(f (X = xi; θ))
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 17 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Maximisation de la vraisemblanceOn a donc le problème suivant :
θ̂ML := arg maxθ
L(θ; x1, ..., xN) = arg maxθ
N∑i=1
log(f (X = xi; θ))
Approche directe
I La solution θ̂ML du problème vérifie :
∇L(θ̂ML; x1, ..., xN) = 0
I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation
des paramètres d’une loi normale)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Maximisation de la vraisemblanceOn a donc le problème suivant :
θ̂ML := arg maxθ
L(θ; x1, ..., xN) = arg maxθ
N∑i=1
log(f (X = xi; θ))
Approche directe
I La solution θ̂ML du problème vérifie :
∇L(θ̂ML; x1, ..., xN) = 0
I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation
des paramètres d’une loi normale)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Maximisation de la vraisemblanceOn a donc le problème suivant :
θ̂ML := arg maxθ
L(θ; x1, ..., xN) = arg maxθ
N∑i=1
log(f (X = xi; θ))
Approche directe
I La solution θ̂ML du problème vérifie :
∇L(θ̂ML; x1, ..., xN) = 0
I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation
des paramètres d’une loi normale)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Maximisation de la vraisemblanceOn a donc le problème suivant :
θ̂ML := arg maxθ
L(θ; x1, ..., xN) = arg maxθ
N∑i=1
log(f (X = xi; θ))
Approche directe
I La solution θ̂ML du problème vérifie :
∇L(θ̂ML; x1, ..., xN) = 0
I Pas de solution analytique en général.I Problème d’optimisation difficile en général.I Il existe des cas simples où la solution analytique existe (e.g. estimation
des paramètres d’une loi normale)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 18 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.
N (X|µ,Σ) =1√
(2π)d|Σ|exp{−
12
(X − µ)TΣ−1(X − µ)}
I La log vraisemblance est :
L(µ,Σ; x1, ..., xN) =N∑
i=1
log(N (X|µ,Σ))
L(µ,Σ; x1, ..., xN) = −12
N log((2π)d|Σ|)−12
N∑i=1
(xi − µ)TΣ−1(xi − µ)
I Estimation de la moyenne µ et de la matrice de covariance Σ :
arg maxµ,Σ
L(µ,Σ; x1, ..., xN)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.
N (X|µ,Σ) =1√
(2π)d|Σ|exp{−
12
(X − µ)TΣ−1(X − µ)}
I La log vraisemblance est :
L(µ,Σ; x1, ..., xN) =N∑
i=1
log(N (X|µ,Σ))
L(µ,Σ; x1, ..., xN) = −12
N log((2π)d|Σ|)−12
N∑i=1
(xi − µ)TΣ−1(xi − µ)
I Estimation de la moyenne µ et de la matrice de covariance Σ :
arg maxµ,Σ
L(µ,Σ; x1, ..., xN)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Soit des données {xi ∈ Rd}i=1,..,N tirées selon une loi de distribution gaussienne.
N (X|µ,Σ) =1√
(2π)d|Σ|exp{−
12
(X − µ)TΣ−1(X − µ)}
I La log vraisemblance est :
L(µ,Σ; x1, ..., xN) =N∑
i=1
log(N (X|µ,Σ))
L(µ,Σ; x1, ..., xN) = −12
N log((2π)d|Σ|)−12
N∑i=1
(xi − µ)TΣ−1(xi − µ)
I Estimation de la moyenne µ et de la matrice de covariance Σ :
arg maxµ,Σ
L(µ,Σ; x1, ..., xN)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 19 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de
vraisemblance.I Conditions d’optimalité
∇µL = 0⇒ −N∑
i=1
Σ−1(xi − µ) = 0
∇ΣL = 0⇒ −N2
Σ−1 +12
N∑i=1
Σ−1(xi − µ)T(xi − µ)Σ−1 = 0
I Solutions analytiques
µ̂ =1N
N∑i=1
xi; Σ̂ =1N
N∑i=1
(xi − µ̂)(xi − µ̂)T
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de
vraisemblance.I Conditions d’optimalité
∇µL = 0⇒ −N∑
i=1
Σ−1(xi − µ) = 0
∇ΣL = 0⇒ −N2
Σ−1 +12
N∑i=1
Σ−1(xi − µ)T(xi − µ)Σ−1 = 0
I Solutions analytiques
µ̂ =1N
N∑i=1
xi; Σ̂ =1N
N∑i=1
(xi − µ̂)(xi − µ̂)T
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Approche directe : exemple de solution analytiqueI Par dérivation de L, on trouve l’estimation des paramètres µ et Σ au sens du maximum de
vraisemblance.I Conditions d’optimalité
∇µL = 0⇒ −N∑
i=1
Σ−1(xi − µ) = 0
∇ΣL = 0⇒ −N2
Σ−1 +12
N∑i=1
Σ−1(xi − µ)T(xi − µ)Σ−1 = 0
I Solutions analytiques
µ̂ =1N
N∑i=1
xi; Σ̂ =1N
N∑i=1
(xi − µ̂)(xi − µ̂)T
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 20 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.
L(θ; x1, ..., xN) =
N∑i=1
log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))
I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)
I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi
I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.
L(θ; x1, ..., xN) =
N∑i=1
log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))
I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)
I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi
I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.
L(θ; x1, ..., xN) =
N∑i=1
log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))
I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)
I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi
I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance
Exemple où la solution analytique n’existe pasI Log-vraisemblance du modèle de mélange de deux gaussiennes.
L(θ; x1, ..., xN) =
N∑i=1
log(π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2))
I Solution non analytique à cause du log de la somme des termesπjN (xi;µj,Σj)
I Problème : on ne connait pas a priori le cluster auquel appartient le pointxi
I Si on a cette information, on peut construire une démarche itérative⇒Algorithme EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 21 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la
log-vraisemblance complétée
Lc(θ; {xi, zi}i=1,...,N) =N∑
i=1
zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))
avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2
I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la
log-vraisemblance complétée
Lc(θ; {xi, zi}i=1,...,N) =N∑
i=1
zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))
avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2
I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI Si on donne arbitrairement l’appartenance de xi à un cluster, on peut définir la
log-vraisemblance complétée
Lc(θ; {xi, zi}i=1,...,N) =N∑
i=1
zilog(π1N (xi;µ1,Σ1)) + (1− zi)log(π2N (xi;µ2,Σ2))
avec zi = 1 si xi ∈ C1 et zi = 0 si xi ∈ C2
I On peut alors déterminer π̂j, µ̂j et Σ̂j analytiquement.I Problème : les inconnus zi ont été prises arbitrairement
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 22 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc
Esp(Lc|{xi}i=1,...,N) =
N∑i=1
Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))
I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1
I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc
Esp(Lc|{xi}i=1,...,N) =
N∑i=1
Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))
I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1
I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI On s’en sort en prenant l’espérance conditionnelle de Lc
Esp(Lc|{xi}i=1,...,N) =
N∑i=1
Esp(zi|xi)log(π1N (xi;µ1,Σ1)) + (1− Esp(zi|xi))log(π2N (xi;µ2,Σ2))
I Esp(zi|xi) = Pr(zi = 1|xi) est la probabilité a posteriori que xi ∈ C1
I Intuition : si on tirait aléatoirement la classe du point xi un très grand nombre de fois, combien de fois lepoint xi tomberait dans la classe C1. C’est ce que traduit Esp(zi|xi)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 23 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI Loi de Bayes :
Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)
f (xi)
Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)
π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)
I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.
EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
EM par l’exempleI Loi de Bayes :
Pr(zi = 1|xi) =Pr(zi = 1)f (xi|zi = 1)
f (xi)
Pr(zi = 1|xi) =π1N (xi;µ1,Σ1)
π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2)
I Si on connait les paramètres, on peut calculer les probabilités a posteriori.Connaissant Pr(zi = 1|xi), on peut calculer les paramètres.
EM : approche itérative alternant calcul des Pr(zi = 1|xi) et calcul desparamètres (Expectation - Maximisation)
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 24 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EMRépéter :
1. Etape E (Expectation) :calcul des probabilités a posteriori Pr(zi = 1|xi) et Pr(zi = 0|xi)
γ(1)i =
π1N (xi;µ1,Σ1)
π1N (xi;µ1,Σ1) + π2N (xi;µ2,Σ2), i = 1, ...,N
Remarque : γ(2)i = Pr(zi = 0|xi) = 1− γ(1)
i : probabilité a posteriori que xi ∈ C2
2. Etape M (Maximisation) : calcul des paramètres
µj =
∑Ni=1 γ
(j)i xi∑N
i=1 γ(j)i
;πj =
∑Ni=1 γ
(j)i
N; j ∈ {1, 2}
Σj =
∑Ni=1 γ
(j)i (xi − µj)(xi − µj)
T∑Ni=1 γ
(j)i
; j ∈ {1, 2}
Jusqu’à convergence
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 25 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EM appliqué au mélange de 2 gaussiennes
Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2
I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering
I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)
i soit maximal
C1 ← xi, si γ(1)i > γ
(2)i
C2 ← xi, sinon
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EM appliqué au mélange de 2 gaussiennes
Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2
I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering
I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)
i soit maximal
C1 ← xi, si γ(1)i > γ
(2)i
C2 ← xi, sinon
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EM appliqué au mélange de 2 gaussiennes
Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2
I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering
I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)
i soit maximal
C1 ← xi, si γ(1)i > γ
(2)i
C2 ← xi, sinon
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EM appliqué au mélange de 2 gaussiennes
Initialisation de l’algorithmeI Fixer les paramètres π1 et π2 tels que π1 + π2 = 1I Fixer les paramètres µ1,Σ1, µ2,Σ2
I On peut utiliser l’algorithme K-Means pour initialiser les clustersDu modèle de mélange au clustering
I Après convergence, on dispose des paramètres. On affecte le point xi aucluster Cj tel que γ(j)
i soit maximal
C1 ← xi, si γ(1)i > γ
(2)i
C2 ← xi, sinon
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 26 / 32
Clustering : modélisation statistique
Maximisation de la vraisemblance : Algorithme EM
Algorithme EM appliqué au mélange de 2 gaussiennes
Illustration
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 27 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Extensions au cas généralI Modèle de mélange
f (x) =
K∑k=1
πkf (x; θk) avecK∑
k=1
πk = 1
I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck
γ(k)i =
πkf (xi; θk)∑Ki=1 πkf (xi; θk)
, i = 1, ...,N; k = 1, ..K
et∑K
i=1 γ(k)i = 1
I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Extensions au cas généralI Modèle de mélange
f (x) =
K∑k=1
πkf (x; θk) avecK∑
k=1
πk = 1
I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck
γ(k)i =
πkf (xi; θk)∑Ki=1 πkf (xi; θk)
, i = 1, ...,N; k = 1, ..K
et∑K
i=1 γ(k)i = 1
I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Extensions au cas généralI Modèle de mélange
f (x) =
K∑k=1
πkf (x; θk) avecK∑
k=1
πk = 1
I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck
γ(k)i =
πkf (xi; θk)∑Ki=1 πkf (xi; θk)
, i = 1, ...,N; k = 1, ..K
et∑K
i=1 γ(k)i = 1
I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Extensions au cas généralI Modèle de mélange
f (x) =
K∑k=1
πkf (x; θk) avecK∑
k=1
πk = 1
I Algorithme EMI Etape E, calcul des probas a posteriori de xi ∈ Ck
γ(k)i =
πkf (xi; θk)∑Ki=1 πkf (xi; θk)
, i = 1, ...,N; k = 1, ..K
et∑K
i=1 γ(k)i = 1
I Etape M : on calcule les paramètres θk et µk par maximisation deEsp(Lc|{xi}i=1,...,N).
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 28 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance
(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme
l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance
(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme
l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance
(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme
l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance
(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme
l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Algorithme EM : remarquesI Convergence vers un extremum local uniquementI Critère de convergence : variation de la log-vraisemblance.I On peut montrer qu’à chaque étape, on améliore la log-vraisemblance
(elle est monotone croissante)I Initialisation : aléatoire ou utilisation de résultats a priori (comme
l’utilisation de K-Means)I Des Initialisations différentes peuvent donner des paramètres différents.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 29 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0, ∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0, ∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0, ∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0, ∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Clustering par modélisation statistique
Variante de EM : CEMI Initaliser les paramètres θk et πk, k = 1, ...,KI Répéter :
1. Etape E : calculer les probabilités a posteriori γ(k)i ,∀i = 1..N, ∀k = 1..K
2. Etape C : classification des pointsI Ck ← xi Si k = arg maxl γ
(l)i
I Modifications des proba a posteriori :γ(k)i = 1 et γ(l)
i = 0,∀l 6= k
3. Etape M : calcul des paramètres en utilisant les probabilités a posteriorimodifiées
I Jusqu’à convergence
A la fin de l’algo, on a directement les clusters.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 30 / 32
Clustering : modélisation statistique
Exemple complet
I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB
I Distribution binomiale pour le calcul de probabilités :(n
k
)pk(1− p)n−k
I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les
probabilités du Maximum de Vraisemblance.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32
Clustering : modélisation statistique
Exemple complet
I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB
I Distribution binomiale pour le calcul de probabilités :(n
k
)pk(1− p)n−k
I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les
probabilités du Maximum de Vraisemblance.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32
Clustering : modélisation statistique
Exemple complet
I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB
I Distribution binomiale pour le calcul de probabilités :(n
k
)pk(1− p)n−k
I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les
probabilités du Maximum de Vraisemblance.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32
Clustering : modélisation statistique
Exemple complet
I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB
I Distribution binomiale pour le calcul de probabilités :(n
k
)pk(1− p)n−k
I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les
probabilités du Maximum de Vraisemblance.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32
Clustering : modélisation statistique
Exemple complet
I Deux pièces de monnaie : A et BI Probabilités d’avoir face (H) : θA et θB
I Distribution binomiale pour le calcul de probabilités :(n
k
)pk(1− p)n−k
I Nous avons 5 ensembles de réalisations avec 10 essais dans chaque ensembleI Si nous savions quelle pièce a été lancée pour chaque ensemble, nous pouvons calculer les
probabilités du Maximum de Vraisemblance.
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 31 / 32
Clustering : modélisation statistique
Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous
ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32
Clustering : modélisation statistique
Exemple complet, suiteI Si nous ne savions quelle pièce a été lancée pour chaque ensemble, nous
ne pouvons calculer les probabilités du Maximum de Vraisemblance.; EM
Jamal Atif (Université Paris-Dauphine) DM/ML 18 décembre 2015 32 / 32
top related