apprentissage statistique pour donn es complexes base de...

Post on 04-Jan-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Apprentissage statistique pour données complexesà base de modèles génératifs

Julien JACQUES

Université Lille 1, France & CNRS & Inria

Strasbourg, 15/01/2013

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 1 / 48

Apprentissage statistique

Apprentissage statistiqueL’apprentissage statistique définit et estime un lien entre des variablesexplicatives X et une variable réponse Y :

Y ∈ Y lien←−−− X = (X1, . . . , Xp) ∈ X .

Y peut êtrequantitative (typiquement Y = R) −→ régression,

catégorielle (typiquement Y = {g1, . . . , gK}),si de plus Y est

observée −→ classification supervisée,non observée −→ classification non supervisée.

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 2 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles

catégorielleG

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales

continuesR

p

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales

continuesR

p p →∞−−−−→

grande dimension (p >> n)

données fonctionnelles

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales

continuesR

p p →∞−−−−→

grande dimension (p >> n)

données fonctionnelles

tout type

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Données complexes ?

données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales

continuesR

p p →∞−−−−→

grande dimension (p >> n)

données fonctionnelles

tout typeévolution de−−−−−−−−−−−→la population

apprentissage 6= prédiction

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Modèles génératifs?Qu’est-ce?

modèle spécifiant la distribution jointe de (X , Y ).

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.

Modèles génératifs?Qu’est-ce?

modèle spécifiant la distribution jointe de (X , Y ).

Pourquoi utiliser de tels modèles?

compétitifs en prédiction,

signifiants (paramètres interprétables),

risque associé à une prédiction,

utilisable en classification supervisée, semi-supervisée et nonsupervisée.

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48

Objectif de mes travaux de recherche

ObjectifDévelopper des outils d’apprentissage statistique

estimation de densité (modélisation),

classification (supervisée ou non)

modèle de régression,

pour différents types de données complexes.

Pour cela, nous procédons comme suit:

définir des modèles probabilistes spécifiques à chaque type dedonnées complexes (si besoin),

considérer des modèles de mélanges pour la classification,

proposer des procédures d’estimation,

développer un package R associé.

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 4 / 48

Modèles génératifs pour rangs multivariéset application au clustering

Julien JACQUES et Christophe BIERNACKI

Université Lille 1, France & CNRS & Inria

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 5 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 6 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 7 / 48

Définition et notations

DéfinitionRang : classement de m objets selon un ordre de préférence

Exemple :Lieux de vacances : O1 : campagne,O2 : montagne et O3 : merEx. de préférence : 1er la mer, 2e la campagne et 3e la montagne

Notations

Ordering : x = (3, 1, 2) = (1st

O3,2nd

O1,3th

O2)

Ranking : x−1 = (2, 3, 1) = (O1

2nd,O2

3th,O3

1st)

x , x−1 ∈ Pm (permutations des m premiers entiers).

Hypothèses : rangs complets et sans ex-aequo.

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 8 / 48

Interêt des données de rang

Activités humaines impliquant des préférences, attitudes ou choix

Google SportSociologie PolitiqueEconomie PsychologieBiologie Marketing

. . .

Un rang résulte souvent d’un autre type de donnée !

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 9 / 48

Modèles de références pour données de rang (1/2)

Thurstone (1927)Rang issu de notes continues

1 Note (cachée) des objets :

z = (z1, . . . , zm)⇒ x−1 = rank(z)

2 Modèle sur z : z ∼ Nm(ξ,Σ)

3 Modèle sur x : intégration multidimensionnelle. . .

Multi-stage (Luce 1959, Plackett 1975)

p(x) =

m−1∏

j=1

vj

vj + vj+1 + . . . + vm.

vj : probabilité que Oxj soit préféré à tous les autres objets

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 10 / 48

Modèles de références pour données de rang (2/2)

Comparaison par paire (Kendall & Smith 1940)

p(x) ∝∏

1≤i<j≤m

pij

pij : probabilité de préférer Oxi à Oxj

Mallows Φ model (∼1950)parcimonie + reparamétrisation

⇒ pr(x ;µ, θ) ∝ exp(−θdK (x , µ))

dK (x , µ) : distance de Kendall entre x = (x1, . . . , xm) et µ

µ = (µ1, . . . , µm) : rang de référence et mode

θ ∈ R+ : paramètre de dispersion (θ = 0 : uniformité)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 11 / 48

Motivations pour un nouveau modèle

Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération

élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons

minimiser l’erreur de classementm

minimiser le nombre de comparaisons par paire

Les modèles existantsmulti-stage : “modèlise” un tri par sélection

Mallows : comparaisons exhaustives de toutes les paires

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48

Motivations pour un nouveau modèle

Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération

élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons

minimiser l’erreur de classementm

minimiser le nombre de comparaisons par paire

Algorithme optimal

Lorsque m ≤ 10, il s’agit de l’algorithme de tri par insertion

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48

Motivations pour un nouveau modèle

Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération

élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons

minimiser l’erreur de classementm

minimiser le nombre de comparaisons par paire

Notre travail !1 Nouveau modèle univarié basé sur le tri par insertion2 Étendre au cas multivarié + rangs partiels + classification

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 13 / 48

Rappel sur le tri par insertion

y : rang d’entrée de l’algo.

x : rang de sortie

sans erreur avec erreurstep j unsorted sorted

start y = 1 3 2 -

1 3 2 1

2 23

?↔ 1

1 3

3 -2 ?

↔ 1 3

1 2?↔ 3

x = 1 2 3

step j unsorted sorted

start y = 1 3 2 -

1 3 2 x(1) = 1

2 23

?↔ 1

x(2) = 3 1

3 -2 ?

↔ 3 1

3 2?↔ 1

x = 3 1 2

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 14 / 48

Notations

Données :x = (x1, . . . , xm) : rang observéy = (y1, . . . , ym) : ordre de présentation latent des objets

Paramètres :µ = (µ1, . . . , µm) : rang de référenceπ ∈ [0, 1] : probabilité de bonne comparaison par paire

Exemple : µ = (1, 2, 3) et y = (1, 3, 2)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 15 / 48

Expression du modèle

Probabilité de x conditionnelle à y

pr(x |y ;µ, π) = πgood(x,y ,µ) (1− π)bad(x,y ,µ)

good(x , y , µ) : nombre total de bonnes comparaisons de paires

bad(x , y , µ) : nb total de mauvaises comparaisons de paires

Ordre de présentation y latent⇒ marginalisation sur tous les y possibles (p(y) = m!−1)

Le modèle ISR (Biernacki & Jacques 2012)

pr(x ;µ, π) = m!−1∑

y

pr(x |y ;µ, π)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 16 / 48

Expressions de good(x , y , µ) et bad(x , y , µ)

On définit à l’étape j de l’algorithme de classement :

A−j (x , y) : élts de y déjà rangés, dans x , avant l’objet courant Oyj ,

A+j (x , y) : élt de y déjà rangé, dans x , juste après Oyj ,

δii′(µ) = 1{µ−1i < µ−1

i′ } : 1 si Oi rangé, dans µ, avant Oi′ , 0 sinon

On a alors

good(x , y , µ) =∑m

j=1

i∈A−

j (x,y)

δyi yj (µ)

︸ ︷︷ ︸

# bons classements avant

+∑

i∈A+j (x,y)

δyj yi (µ)

︸ ︷︷ ︸

bon classement juste après ?

bad(x , y , µ) =

m∑

j=1

#A−j (x , y) + #A+

j (x , y)

︸ ︷︷ ︸

all(x, y) : nb total comparaisons

−good(x , y , µ)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 17 / 48

Illustration des notations

step j unsorted sorted A−j A+

j

start y = 1 3 2 - - -1 3 2 x (1) = 1 {} {}

2 23 ?↔ 1

{} {1}x (2) = 3 1

3 -2 ?↔ 3 1

{3, 1} {}3 2 ?↔ 1

x = 3 1 2

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 18 / 48

Les propriétés d’ISR

Réduction de l’espace de π

Symétrie : pr(x ; µ̄, 1− π) = pr(x ;µ, π) ⇒ π ∈ [12 , 1]

Bon comportement

µ est le mode et µ̄ est l’anti-mode (π > 12 )

pr(µ;µ, π)− pr(x ;µ, π) est une fonction croissante de π :plus π est grand, plus la loi est piquée autour de son mode

la distribution est uniforme pour π = 12 , Dirac en µ si π = 1

les paramètres (µ, π) sont identifiables si π > 12

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 19 / 48

Illustration de la distribution ISR

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

µ = (1, 2, 4, 3) et π = 0.83 µ = (2, 4, 1, 3) et π = 0.68

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 20 / 48

Idée des preuves : exemple pour uniformité (1)

A(x, y) =nb. total de comparaisons faites pour retourner x à partir de y

Lemme 1 : ∀ x , y , τ ∈ Pm, A(x , y) = A(τx , τy)

First we prove that A−j (x, y) = A−

j (τx, τy). For any j = 1, . . . , m, we have (notice that i isalways such that 1 ≤ i < j)

A−j (τx, τy) = #{i : (τx)−1

(τy)i< (τx)−1

(τy)j} = #{i : (x−1τ−1τy)i < (x−1τ−1τy)j}

= #{i : (x−1y)i < (x−1y)j} = #{i : x−1yi

< x−1yj

} = A−j (x, y).

By noticing that A+j (x, y) = 1{A−

j (x, y) + 1 ≤ j − 1} we deduce also that

A+j (x, y) = A+

j (τx, τy). Consequently, Aj (x, y) = Aj(τx, τy) and, so, A(x, y) = A(τx, τy).

Lemme 2 : ∀ x , y , µ, τ ∈ Pm, p(x |y ; µ,12) = p(τx |τy ; µ,

12)

When π = 12 , we obtain by using Lemma 1

p(τx|τy ;µ, 12 ) =

12

”A(τx,τy)=“

12

”A(x,y)= p(x|y ;µ, 1

2 ).

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 21 / 48

Idée des preuves : exemple pour uniformité (2)

Proposition : ∀ x , µ ∈ Pm, p(x ; µ,12) = m!−1

Let e be the identity permutation of Pm. Using firstly Lemma 2 and then using the fact thatp(.|e;µ, 1

2 ) is a probability distribution on Pm, we have

p(x; µ, 12 ) ∝

X

y∈Pm

p(x|y ; µ, 12 ) =

X

y∈Pm

p(y−1x|y−1y ;µ, 12 ) =

X

y∈Pm

p(y−1x|e; µ, 12 ) = 1.

Autres propriétésReposent encore sur les permutations. . .

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 22 / 48

Estimation des paramètres d’ISR

Maximum de vraisemblance

Données : x = (x1, . . . , xn)

l(µ, π; x) =

n∑

i=1

ln

1

m!

y i

p(x i |y i ;µ, π)

difficile à maximiser car données manquantes y = (y1, . . . , yn)

algorithme d’optimisation classique : EM

Point clé : log-vraisemblance complétée facile à optimiser

lc(µ, π; x, y) =

n∑

i=1

y∈Pm

1{y = y i} ln(

1m!

p(x i |y ;µ, π)

)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 23 / 48

Algorithme EM (itération {q})

Étape E : calcul de E(µ,π){q} [lc(µ, π; x, y)|x]

E(µ,π){q} [lc(µ, π; x, y)|x] =n∑

i=1

y∈Pm

t{q}iy ln

(1

m!p(x i |y ;µ, π)

)

où la probabilité conditionnelle que y i = y est notée

t{q}iy ∝ p(x i |y ; (µ, π){q})

Étape M : calculer (µ, π){q+1} maximisant cette espérance

µ{q+1} discret : maximisation en parcourant tout Pm

π{q+1} ∝n∑

i=1

y∈P

t{q}iy good(x i , y , µ{q+1})

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 24 / 48

Utilisation de EM

Propriétésmonotonie

dépendance à l’initialisation (maxima locaux)

Initialisation

on montre que limn→∞

p(π ∈ [f 1/(m−1)0︸ ︷︷ ︸

π̂−

, f 2/(m2−m)0 ]) = 1

où f0 fréquence modale empirique

on tirera π{0} dans cet intervalle et µ{0} ∈ Pm

DifficultéPm trop volumineux à parcourir (#Pm = m!) si m ≥ 8

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 25 / 48

Réduction du coût d’estimation (1)

PropositionNx : nb d’indiv. égaux à x dans un n-échantillon ISR(µ, π)

hα(π) =Nb de x dont la fréquence est ≥ à celle du mode avecproba. α

hα(π) = #{x : p(Nx ≥ Nµ;µ, π) ≥ α}

⇒ asymptotiquement, pour tout µ ∈ Pm et π ∈ [12 , 1] :

hα(π) ≤ hα

(π̂−

)

Réduction du nombre de µ possibles

estim. hα (π̂−) par bootstrap paramétrique (indep. de µ !)

sélection des hα (π̂−) rangs les plus fréquents dans x commecandidats pour µ

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 26 / 48

Réduction du coût d’estimation (2)

Algorithme SEM-Gibbs (m ≥ 8)

Etape SE : générer des y{q}i ∼ multinomial(t{q}

iy )

Gibbs : éviter le calcul des t{q}iy par une séquence de Gibbs

(y i{q,r+1}j , ·) ∼ p

y ij , y i

j+1|(y1, . . . , yj−1)i{q,r+1}, (yj+2, . . . , ym)i{q,r}, x1, . . . , xn; (µ, π){q}

pour j ∈ {1, . . . , m − 2} avec

(ym−1, ym)i{q,r+1} ∼ p“

y im−1, y i

m|(y1, . . . , ym−2)i{q,r+1}, x1, . . . , xn; (µ, π){q}”

.

Etape M : comme avant mais avec les y{q}i

Approximation de la log-vraisemblance (m ≥ 8)

l(µ, π; x) = −nX

i=1

ln

0

@

X

y∈Pm

1

p(x i |y ;µ, π)p(y |x i ; µ, π)

1

A ≈ −nX

i=1

ln

0

@

1

S

SX

s=1

1

p(x i |y i,s; µ, π)

1

A

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 27 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 28 / 48

6 jeux de données réelles

Data set Quizz m n µ∗ Objects O1, . . . ,Om

Rank the four national football teams according to increasing number of victories in the football World CupFootball Yes 4 40 (1,2,4,3) France, Germany, Brasil, ItalyRank chronologically these Quentin Tarantino moviesCinema Yes 4 40 (3,2,4,1) Inglourious Basterds, Pulp Fiction

Reservoir Dogs, Jackie BrownRank five words according to strength of association (least to most associated) with the target word “Idea”Word Yes 5 98 None Thought, Play, Theory,association Dream, AttentionRank seven sports according to their preference in participatingSports Yes 7 130 None Baseball, Football, Basketball,

Tennis, Cycling, Swimming, JoggingResults of the four nations rugby league, from 1882 to 1909 (except years where they were tie)Rugby 4N No 4 20 None England, Scotland, Ireland, WallesElections parlementaires irlandaises de 2002Election Yes 14 24901 None 14 candidats

12490 complets sur 64081 au total (où 96% sélectionnent 1 ou 2 candidats)Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 29 / 48

Évaluation de SEM-Gibbs

SEM-Gibbs : B = 30, Q = 100, R = 10, 10 runs

EM : seuil de croissance de l = 10e−6

K̄ (µ̂EM, µ̂SEM-gibbs) |π̂EM − π̂SEM-gibbs| lEM − lSEM-Gibbsdata set mean best worst mean best worst mean best worstFootball 0.00 0.00 0.00 0.004 0.001 0.007 0.02 0.00 0.04Cinema 0.00 0.00 0.00 0.003 0.000 0.006 0.01 0.00 0.02Rugby 0.05 0.00 0.17 0.007 0.000 0.013 0.35 0.00 1.15Words 0.00 0.00 0.00 0.001 0.000 0.002 0.02 0.01 0.02Sports 0.01 0.00 0.05 0.002 0.000 0.005 0.09 0.00 0.40

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 30 / 48

Résultats

data set model µ̂ π̂/θ̂ l p̂-value #µFootball ISR (1, 2, 4, 3) 0.834 -88.53 0.001 1

Φ (1, 2, 4, 3) 1.106 -89.17 0.001 1Cinema ISR (4, 3, 2, 1) 0.723 -111.94 0.042 14

Φ (4, 3, 2, 1) 0.628 -112.12 0.029 2Rugby ISR (2, 4, 1, 3) 0.681 -58.68 0.538 12

Φ (2, 4, 1, 3) 0.528 -58.33 0.395 2Words ISR (2, 5, 4, 3, 1) 0.879 -275.43 0.001 1

Φ (2, 5, 4, 3, 1) 1.431 -251.27 0.019 1Sports ISR (1, 3, 2, 4, 5, 7, 6) 0.564 -1102.12 0.999 2†

Φ (1, 3, 4, 2, 5, 6, 7) 0.083 -1102.84 1 11Election ISR (13, 4, 1, 2, 3, 5, 6 0.682 -48329.76 0.999 6

7, 8, 9, 10, 11, 12, 14)Φ (4, 13, 2, 5, 1, 14, 7 0.164 -60157.38 0.999 38

6, 10, 8, 9, 12, 3, 11)

Les 2 modèles sont de bons compétiteurs.

Stratégie efficace de réduction du nombre de candidats pour µ.

Cohérence de π/θ : π̂football > π̂cinema and θ̂football > θ̂cinema.

Les modèles ont même µ̂ sauf pour “Sports” et “Election”: ISR plus cohérent ?

Paramètre π de ISR plus facile à interpréter.

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 31 / 48

Illustration par polytopes

empirique estimée par ISR

“Football”

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 1 3

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

“Rugby 4N”

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 1 3

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 32 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 33 / 48

Mélange multivarié de modèles ISR

Rang multivarié

Dimension p : x = (x1, . . . , xp)

mj objets par dimension (1 ≤ j ≤ p) : x j = (x j1, . . . , x jmj )

K -mélange d’ISR multivariésHyp. d’indépendance conditionnelle aux classes (Everitt 1984)

p(x ; θ) =K

X

k=1

pk

| {z }

mélange

pY

j=1

ISR(µjk ,π

jk ) univarié

z }| {

1mj !

X

y∈Pmj

p(x j |y ; µjk , π

jk )

| {z }

ISR multivarié

Proportions pk : pk ∈ [0, 1] et∑K

k=1 pk = 1

Paramètre général : θ = (πjk , µ

jk , pk)k=1,...,K ,j=1,...,p

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 34 / 48

Rangs partiels

Très courants, surtout en dernières positions

Chaque dimension x j de x peut être pleine ou partielle

x̌ j : rang x j avec positions x jℓ non observée remplacée par 0

x̂ j : rang x j avec positions x jℓ observée remplacée par 0

x j = x̂ j + x̌ j

Au final : x̌ = (x̌1, . . . , x̌p) et x̂ = (x̂1, . . . , x̂p)

Exemple (p = 1 et m1 = 5)

x̌ = (2, 5, 0, 0, 3)⇒ x̂ =

{(0, 0, 1, 4, 0)(0, 0, 4, 1, 0)

⇒ x =

{(2, 5, 1, 4, 3)(2, 5, 4, 1, 3)

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 35 / 48

Log-vraisemblances

Échantillon : x̌z = (z1, . . . , zK ) : zk = 1 si groupe k , zk = 0 sinonVariables latentes : x̂, y = {y1, . . . , yn}, z = {z1, . . . , zn}(x i , y i , z i) sont des réalisations i.i.d.

Log-vraisemblance observée

l(θ; x̌) =nX

i=1

ln

0

B

@

KX

k=1

pk

pY

j=1

1

mj !

X

y∈Pmj

X

x∈Xji

p(x|y ; µjk , π

jk)

1

C

A

X ji : rangs x j

i compatibles avec x̌ ji

Log-vraisemblance complétée

lc(θ; x, y, z) =nX

i=1

KX

k=1

zki

pX

j=1

ln

pk

mj !p(x j

i |yji ; µ

jk , πj

k)

!

Non linéaire pour certaines variables + combinatoire : EM difficile. . .

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 36 / 48

Algorithme SEM-Gibbs

Étape SE : (x̂, y, z){q} ∼ (x̂, y, z)|x̌;θ{q}

Gibbs : échantillonnage sans calcul de la loi conditionnelle

Étape M : maximise lc en utilisant (x̂, y, z){q}

Choix de θ̂

QSEM itérations, chauffe de BSEM itérations

Pour chaque {µjk} distinct, calculer π̄

jk et p̄k

Garder (p̄k , µjk , π̄

jk )1≤j≤p,1≤k≤K associé à la plus grande l

En fait, on utilise une approximation de l (voir univarié)

Du label switching peut arriver (Stephens 2000). . .

. . . mais quasiment impossible si classes séparées

La sélection de modèle éliminera les classes peu séparées

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 37 / 48

Détail de l’étape SE

Génère y j{q}i |{z{q−1}

i , x j{q−1}i , (µk , πk ){q−1}}

→ besoin d’un Gibbs interne (similaire cas univarié)

Génère z{q}i |{y

{q}i , x{q−1}

i ;θ{q−1}}→ facile et classique

Génère x̂ j{q}i |{z{q}

i , y j{q}i , x̌ j

i ;θ{q−1}}

→ besoin d’un Gibbs interne (similaire à y)

Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba

d’atteindre chaque rang soit non nulle

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 38 / 48

Détail de l’étape M

p{q}k = 1

n

∑ni=1 zk{q}

i

Algorithme interne pour chercher (µ,π){q}

Génère µj{q,r+1}k |{x̌, x̂{q}

, y{q}, z{q}; πj{q,r}k }

→ Gibbs interne (similaire à y) justifié par

p(µ|x, y, z; π, p) ∝ exp(lc(θ; x, y, z)) (avec prior uniforme sur µ)

πj{q,r+1}k ∝

∑ni=1 zk

i good(x̌ ji , x̂ j{q}

i , y j{q}i , µ

j{q,r+1}k )

Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba

d’atteindre chaque rang soit non nulle

On retient le couple (πk , µk )j{q+1} maximisant lc

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 39 / 48

Choix du nombre K de classes

Choix du nombre K de classesOn choisit K

BIC = −2l(θ̂; x̌) + (Kp + K − 1) log(n),

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 40 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 41 / 48

SEM-Gibbs: sensibilité rangs incomplets

Deux classes bivariées bien séparées (mj = 5)Données manquantes:

2 objets : d%3 objets : d

2 %

4 objets : d4 %

1000 × K̄ (µ, µ̂SEM-gibbs)/Kmax 1000 × |π − π̂SEM-gibbs|

n→ 200 4 000 200 4 000 200 4 000 200 40 200 4 000 200 4 000d j k mean best worst mean best worst0 1 1 0 0 0 0 0 0 25 5 23 4 27 60 1 2 0 0 0 0 0 0 13 6 11 5 17 70 2 1 0 0 0 0 0 0 2 2 1 1 4 20 2 2 0 0 0 0 0 0 22 2 21 2 23 35 1 1 0 0 0 0 0 0 14 71 11 70 16 725 1 2 0 0 0 0 0 0 44 70 38 70 48 715 2 1 0 0 0 0 0 0 17 41 15 41 20 425 2 2 0 0 0 0 0 0 30 22 28 21 32 23

10 1 1 0 2 0 0 0 50 21 101 14 89 39 29910 1 2 2 0 0 0 10 0 88 84 83 57 109 8710 2 1 0 0 0 0 0 0 28 65 23 46 49 3910 2 2 0 0 0 0 0 0 51 30 41 13 66 3120 1 1 0 0 0 0 0 0 110 128 90 67 130 13620 1 2 41 5 10 0 60 50 164 140 144 133 181 19720 2 1 0 0 0 0 0 0 50 66 34 04 66 7420 2 2 0 4 0 0 0 50 67 99 49 61 85 431

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 42 / 48

Concours de l’Eurovision (1)

Principe

Plus grand concours musical au monde (une quarantaine de pays)

Chaque pays membre soumet une chanson télédiffusée en direct. . .

. . . puis classe ses 10 chansons étrangères préférées

Données

Votes des n = 34 pays participant entre 2007 et 2012 (p = 6 ans)

Seulement 8 pays ont participé aux 6 finales :1: France, 2: Germany, 3: Greece, 4: Romania, 5: Russia, 6: Spain, 7: Ukraine, 8: UK

Uniquement les votes pour ces 8 pays sont considérés : mj = 8

57.7% des éléments de rangs sont absents !

Estimation du modèlePackage RankClust pour R.

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 43 / 48

Concours de l’Eurovision (2)

Choix du nombre de classes⇒ BIC

1 2 3 4 5 6

3000

3100

3200

3300

3400

Number of groups (K)

BIC

ISR

⇒ 5 classes

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 44 / 48

Concours de l’Eurovision (3)

k pk1 0.3532 0.0883 0.2354 0.1765 0.147

2007 2008 2009k µ1

k π1k µ2

k π2k µ3

k π3k

1 (3,7,5,2,4,6,8,1) 0.831 (3,5,7,6,2,4,8,1) 0.874 (3,1,8,2,4,7,6,5) 0.8452 (5,7,3,2,1,8,4,6) 0.915 (5,1,7,3,2,4,6,8) 0.889 (1,5,3,2,6,7,4,8) 0.8863 (5,7,3,4,6,2,8,1) 0.888 (7,5,3,6,4,8,1,2) 0.886 (5,7,8,1,4,3,2,6) 0.7474 (7,5,3,6,4,2,8,1) 0.921 (5,7,1,3,4,6,8,2) 0.852 (8,1,4,2,6,3,5,7) 0.8925 (7,5,4,6,3,2,8,1) 0.911 (5,1,7,4,3,2,8,6) 0.921 (5,1,8,3,7,6,2,4) 0.949

2010 2011 2012k µ4

k π4k µ5

k π5k µ6

k π6k

1 (3,7,2,1,6,4,5,8) 0.838 (3,6,7,1,2,4,8,5) 0.763 (6,5,2,4,3,8,7,1) 0.8632 (2,5,4,3,7,1,8,6) 0.875 (2,8,5,3,6,7,4,1) 0.967 (2,5,8,6,7,1,4,3) 0.8813 (4,3,2,1,5,7,6,8) 0.855 (7,8,1,2,5,4,3,6) 0.789 (5,4,7,2,6,8,3,1) 0.8254 (2,4,1,8,5,7,6,3) 0.972 (2,8,4,1,7,6,3,5) 0.889 (5,2,4,7,3,1,6,8) 0.9095 (2,7,5,6,4,1,3,8) 0.869 (5,7,3,8,2,4,6,1) 0.803 (5,7,3,1,4,8,2,6) 0.703

InteprétationClasse 5 : Ukraine et Russie (7 et 5) toujours bien classés (alliance ?)

Possible d’approfondir l’interprétation des classes par les paramètres. . .

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 45 / 48

Concours de l’Eurovision (4)

Révélation d’alliances géographiquesG1 (rouge) : pays d’Europe de l’ouest

G2 (bleu) : pays du nord

G3 (jaune) : pays méditérranéens

G4 (vert) : pays plutôt dispersés

G5 (gris) : pays d’Europe de l’est

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 46 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 47 / 48

Le modèle ISR

Optimal lorsque m ≤ 10: minimise le nombre d’erreurs

ISR robuste à l’hyp. sur la nature du tri

Paramètres interprétables

Premier modèle de clustering de rang multivariés partiels

Package RankClust pour R

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 48 / 48

Le modèle ISR

Optimal lorsque m ≤ 10: minimise le nombre d’erreurs

ISR robuste à l’hyp. sur la nature du tri

Paramètres interprétables

Premier modèle de clustering de rang multivariés partiels

Package RankClust pour R

Nombreuses perspectives...Si les ordres de présentations étaient connus ?

Modèles particuliers (π1 = . . . = πK , πk non constant...)Appliquer la même démarche à d’autres types de données:

données ordinales : algorithme de recherche

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 48 / 48

top related