modèles à variables latentes, fouille de données, em et ... · problématiques de recherche...

106
Modèles à variables latentes, Fouille de données, EM et ses dérivés Séminaire COSYS, Modélisation Etienne Côme COSYS/GRETTIA 16 décembre 2013

Upload: others

Post on 11-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes,Fouille de données,EM et ses dérivésSéminaire COSYS, Modélisation

Etienne CômeCOSYS/GRETTIA

16 décembre 2013

Page 2: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Plan1 Contexte

Problématiques de rechercheTraces numériquesApprentissage statistique

2 Modèles à variables latentesClustering et modèles de mélangesAnalyse de textes : Latent Dirichlet AllocationAnalyse de graphe : Modèle de mélange d’Erdos Renyi

3 Algorithme EMElements de basesExtensions

4 ExemplesClustering de stationsClustering OD

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 2 / 106

Page 3: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Problématiques de recherche

Contexte

Etienne Côme

CR : GRETTIA, COSYSAnalyse de données, Clustering, Apprentissage statistique,...Fouille de données de mobilité : ex VLS (Vélib’,Velov,...)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 3 / 106

Page 4: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Traces numériques de mobilité

Page 5: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

De nombreux capteurs

Page 6: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Différentes formes : Trajectoires

Page 7: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Différentes formes : Points

Page 8: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Différentes formes : Origines-Destinations

Page 9: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Nécessite de fouiller ! !

Page 10: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Traces numériques

Contexte

Problématique

Traces numériques de plus en plus nombreusesGénérées en particulier lors de nos déplacements⇒ Pertinentes pour l’étude des mobilitésUsage détourné + Volume important⇒ Outils de traitement et d’analyseComplémentarité / substitution enquêtes classiques

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 10 / 106

Page 11: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Traces numériques

Métiers, compétences

Acquisitiondes données

Anonymisation...

Gestion et stockagedes données

Data-MiningStatistiqueModélisation

Visualisation

SynthèseIndicateurs

> > > >

>

Preneurs de décisions

InformaticiensStatisticiensMathématiciens Physiciens

Designers

Economistes

Ingénieurs Information architectesPreneurs de décisions

UrbanistesSociologues

–Mobilise différentes compétences, disciplines

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 11 / 106

Page 12: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Traces numériques

Métiers, compétences

Acquisitiondes données

Anonymisation...

Gestion et stockagedes données

Data-MiningStatistiqueModélisation

Visualisation

SynthèseIndicateurs

> > > >

>

Preneurs de décisions

InformaticiensStatisticiensMathématiciens Physiciens

Designers

Economistes

Ingénieurs Information architectesPreneurs de décisions

UrbanistesSociologues

–Nos focus, gestion stockage des données, fouille, visualisation

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 12 / 106

Page 13: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Traces numériques

Métiers, compétences

Acquisitiondes données

Anonymisation...

Gestion et stockagedes données

Data-MinningStatistiqueModélisation

Visualisation SynthèseIndicateurs

Preneur de décision

Designers

Ingénieurs Information architectesPreneur de décision >>

>>

>>

>>>>>>>>

EconomistesUrbanistes

Sociologues

InformaticiensStatisticiensMathématiciens Physiciens

–Démarche non linéaire, importance du dialogue entre les acteurs.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 13 / 106

Page 14: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Traces numériques

Analyse exploratoire VLS : laisser parler les données

Méthodologie générale

Utiliser des algorithmes de clustering (regroupement automatique)pour trouver des formes d’usage type du Vélib’Croiser les groupes ou clusters trouvés avec des donnéesgéographiques et socio-économiques de la ville⇒ Facteurs influents sur l’usage du système VLS.

1 Trouver des groupes de stations similaires2 Trouver des groupes d’utilisateurs similaires3 Segmenter / Résumer la dynamique temporelle globale du

système

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 14 / 106

Page 15: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

Apprentissage statistique :supervisé / non-supervisé

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 15 / 106

Page 16: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

FIGURE 1: Création d’une base de données labellisées.

Apprentissage supervisé

Ensemble exemples de mesure xidont le mode de fonctionnement : yi est connu de manière certaine.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 16 / 106

Page 17: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

FIGURE 2: Construction de la frontière de décision.

Approche discriminative

Frontière permettant de séparer les individus des différentes classes ;estimer les paramètres de la loi conditionnelle p(y |x)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 17 / 106

Page 18: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

?

? ?

?

?

?

?

?

?

FIGURE 3: Classification de nouveaux points.

Classification de nouveaux points

Permet de déterminer le mode de fonctionnement le plus probable detoutes nouvelles mesures fournies en entrée arg maxy∈Y p(y |x).

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 18 / 106

Page 19: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

FIGURE 4: Modélisation de la loi jointe.

Approche générative

Modéliser et estimer la loi jointe p(y ,x) ;permet ensuite de classer de nouvelles mesures arg maxy∈Y p(y |x).

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 19 / 106

Page 20: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

FIGURE 5: Modélisation de la loi jointe dans un contexte non supervisé (1).

Approche générative

Permet de travailler dans un contexte non supervisé ;sans information sur la classe d’appartenance des exemples.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 20 / 106

Page 21: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Contexte Apprentissage statistique

x1

x2

= =

FIGURE 6: Modélisation de la loi jointe dans un contexte non supervisé (2).

Approche générative

Permet de travailler dans un contexte non supervisé ;⇒ approche "model based clustering"

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 21 / 106

Page 22: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Modèles à variables latentes

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 22 / 106

Page 23: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Clustering // "Model based clustering"

Clustering

Recherche d’une structure de groupealgorithme ad-hoc, cah, ...⇒ ! importance de la distance utilisée

Model based Clustering : modèle de mélange

Recherche d’une structure de groupe⇒ ! en utilisant un modèle statistique⇒ faisant intervenir des variables latentes (inobservées)⇒ approche générative :définition d’une procédure de génération des données.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 23 / 106

Page 24: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

“Tous les modèles sont fauxmais certains sont utiles.”

Georges Box.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 24 / 106

Page 25: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Approche générative

0 20 40-20-40-60-800

0.01

0.02

0.03

0.04

0.05

x

f(x)

FIGURE 7: Exemple de densité pour un mélange de Gaussiennes.

Modèle de mélange, simulation :

1 Tirage aléatoire de la classe2 Suivant la classe tirée ; tirage aléatoire d’une mesure

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 25 / 106

Page 26: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Approche générative

0 20 40-20-40-60-800

0.01

0.02

0.03

0.04

0.05

x

f(x)

FIGURE 8: Exemple de densité pour un mélange de Gaussiennes.

Modèle de mélange, simulation :

1 Tirage aléatoire de la classe2 Suivant la classe tirée ; tirage aléatoire d’une mesure

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 26 / 106

Page 27: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Approche générative

0 20 40-20-40-60-800

0.01

0.02

0.03

0.04

0.05

x

f(x)

FIGURE 9: Exemple de densité pour un mélange de Gaussiennes.

Modèle de mélange, simulation :

1 Tirage aléatoire de la classe2 Suivant la classe tirée ; tirage aléatoire d’une mesure

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 27 / 106

Page 28: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Schéma de génération des données

Tirage de la classe :

Yi ∼M(1,π) (1)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 28 / 106

Page 29: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Schéma de génération des données

Connaissant la classe, tirage de l’observation :

Xi |Yik = 1 ∼ F(θ) (2)

Suivant hypothèses sur F → diversité de modèles

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 29 / 106

Page 30: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Clustering et modèles de mélanges

Schéma de génération des données

Connaissant la classe, tirage de l’observation :

Xi |Yik = 1 ∼ N (µk ,Σk ) (3)

N mélange de Gaussiennes+ hypothèses supplémentaires sur forme de Σ

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 30 / 106

Page 31: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

Analyse de textes :

Mixture of unigrams

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 31 / 106

Page 32: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

Mixture of unigrams

Za

li

Modèle de mélange de multinomiales

Zi ∼ M(1,π)

Xi |Zik = 1 ∼ M(li ,αk ) (4)

M Multinomiale, "mixture of unigrames" pour l’analyse de textes, lilongueur du texte.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 32 / 106

Page 33: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

Exemple de données simulées

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

FIGURE 10: 50 documents, 15 mots, structure forte.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 33 / 106

Page 34: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

Analyse de textes :Latent Dirichlet Allocation

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 34 / 106

Page 35: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

FIGURE 11: Illustration du schéma génératif de LDA, source D. Blei

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 35 / 106

Page 36: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

LDA

pour chaque topics a ∈ {1, . . . ,Na} tirer une distribution sur levocabulaire (Dirichlet) :

Λa ∼ D(β) (5)

pour chaque documents t ∈ {1, . . . ,Nt} :1 tirer ses proportions de topics :

πt ∼ D(α) (6)

2 pour chaque mots de t :I tirer le topic A du mots :

A ∼M(1, πt ) (7)

I tirer un mots du vocabulaire D (couple O/D) conditionellement autopic :

D ∼M(1,ΛA) (8)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 36 / 106

Page 37: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

LDA

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 37 / 106

Page 38: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de textes : Latent Dirichlet Allocation

FIGURE 12: Exemple de topics, "Yale law journal", source D. Blei

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 38 / 106

Page 39: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Analyse de graphe :

Modèle de mélanged’Erdos Renyi

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 39 / 106

Page 40: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Beaucoup de domaines d’application

réseaux routiers, biologiques, sociaux, ....analyse de données dans Rp en utilisant un noyau Gaussien ouk − ppv...

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 40 / 106

Page 41: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Beaucoup de domaines d’application

réseaux routiers, biologiques, sociaux, ....analyse de données dans Rp en utilisant un noyau Gaussien ouk − ppv...

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 41 / 106

Page 42: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Beaucoup de domaines d’application

réseaux routiers, biologiques, sociaux, ....analyse de données dans Rp en utilisant un noyau Gaussien ouk − ppv...

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 42 / 106

Page 43: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Graphes, représentations

Matrice d’adjacence A :

A :

{Aij = 1, si i ∼ jAij = 0, sinon.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 43 / 106

Page 44: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Graphes, représentations

Matrice d’adjacence A :

A :

{Aij = 1, si i ∼ jAij = 0, sinon.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 44 / 106

Page 45: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Graphes, représentations

Matrice d’adjacence A :

A :

{Aij = 1, si i ∼ jAij = 0, sinon.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 45 / 106

Page 46: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Modèle de mélange d’Erdos Renyi

Variables :

Xij ∈ {0,1} variable binaire encodant la présence ou l’absenced’un liens entre i et j :

xij =

{1, si il existe un liens entre i et j0, sinon.

(9)

Zj ∈ {0,1}K sont des variables latentes, décrivant l’appartenancede j à un des K clusters possibles :

zjk = 1, si j appartient au cluster k . (10)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 46 / 106

Page 47: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Modèle de mélange d’Erdos Renyi

Modèle génératif :

1 tirer le groupe de chaque noeud suivant les proportions γ2 ajouter un lien entre i et j avec une probabilité πkl si i appartient

au cluster k et j appartient au cluster l .

Zji.i.d∼ M(1, γ), ∀j ∈ {1, . . . ,N} (11)

Xij |ZikZjl = 1 i.i.d∼ B(πkl), ∀i , j ∈ {1, . . . ,N}, (12)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 47 / 106

Page 48: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Paramètres :

γ : proportions, exemple γ = (0.1,0.2,0.6,0.1)

π : matrice de liens, exemple :

π =

0.1 0.01 0.01 0.005

0.005 0.2 0.01 0.010.005 0.001 0.1 0.010.005 0.001 0.01 0.3

.

Recherche de communauté :

π =

α1 ε ε εε α2 ε εε ε α3 εε ε ε α4

,

avec α >> ε.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 48 / 106

Page 49: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Exemple de réalistation

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 49 / 106

Page 50: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Bi-clustering, graphes bi-partites

Modèle génératif :

structures de groupes différentes en lignes / colonnesnbr de lignes 6= nbr de colonnes

Z ci

i.i.d∼ M(1, γc), ∀i ∈ {1, . . . ,Nc}

Z rj

i.i.d∼ M(1, γr ), ∀j ∈ {1, . . . ,Nr}

Xij |Z cikZ r

jl = 1 i.i.d∼ B(πkl), ∀i , j (13)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 50 / 106

Page 51: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Tri-clustering

Modèle génératif :

extension aux tenseurs :

Z ci

i.i.d∼ M(1, γc), ∀i ∈ {1, . . . ,Nc}

Z rj

i.i.d∼ M(1, γr ), ∀j ∈ {1, . . . ,Nr}

Z th

i.i.d∼ M(1, γt ), ∀h ∈ {1, . . . ,Nt}

Xijh|Z cikZ r

jl Zrhm = 1 i.i.d∼ B(πklm), ∀i , j ,h (14)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 51 / 106

Page 52: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Modèles à variables latentes Analyse de graphe : Modèle de mélange d’Erdos Renyi

Estimation :Algorithme EM

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 52 / 106

Page 53: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

Algorithme EM

Les modèles de mélange

paramètres ψ = (π,θ),

p(x) =K∑

k=1

πk fk (x,θk ) (15)

L(ψ; Xns) =N∑

i=1

log(K∑

k=1

πk fk (xi ,θk )) (16)

fk (.,θk ) densité paramétrique sur X .

Maximisation / paramètres (Maximum de vraisemblance)

Problème d’optimisation non convexeSolution élégante : l’algorithme EM

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 53 / 106

Page 54: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

Algorithme EM

Décomposition de la log vraisemblance :

Introduction de la variable latente z : p(x) = p(x ,z)p(z|x)

Permet de réécrire la fonction de log vraisemblance :

L(ψ; Xns) =N∑

i=1

K∑k=1

t(q)ik log (πk f (xi ;θk ))︸ ︷︷ ︸Q(ψ,ψ(q))

−N∑

i=1

K∑k=1

t(q)ik log (tik )︸ ︷︷ ︸H(ψ,ψ(q))

,(17)

–avec :

t(q)ik = Eψ(q) [zik |xi ] =π(q)k f (xi ;θ

(q)k )∑K

k ′=1 π(q)k ′ f (xi ;θ

(q)k ′ )

. (18)

Forme particulière de H (Jensen)

H(ψ(q),ψ(q))− H(ψ(q+1),ψ(q)) >= 0

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 54 / 106

Page 55: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

Algorithme EM

–Initialisation :ψ(0)

Cercle vertueux :

Espérance : Calcul des t(q)ik

Maximisation : ψ(q+1) = arg maxΨ Q(ψ,ψ(q))

Solution analytique pour les proportions : π(q+1)k = 1

N∑N

i=1 t(q)ik .Solution analytique pour les θk si lois classiquescar

∑en dehors du log.

Convergence

⇒ maximisation de Q(ψ,ψ(q)) suffisante pour faire croître lavraisemblance.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 55 / 106

Page 56: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

log(L

)

-20 -10 0 10 20

-8000

-5000

-2000

2(1)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 56 / 106

Page 57: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

log(L

)

-20 -10 0 10 20

-8000

-5000

-2000

3

(2)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 57 / 106

Page 58: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

log(L

)

-20 -10 0 10 20

-8000

-5000

-2000

4

(3)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 58 / 106

Page 59: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Elements de bases

log(L

)

-20 -10 0 10 20

-8000

-5000

-2000

5

(4)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 59 / 106

Page 60: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Extensions

Estimation :au delà de EM

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 60 / 106

Page 61: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Extensions

Variations, Extensions

Variations

seuillage des probabilités a posteriori (après étape E) : CEM,k-meansEtape E stochastique : SEM,MCEM,...Etape M partielle : MEMOnline EMRecuit simulé : SAEM, DAEM...

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 61 / 106

Page 62: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Extensions

Variations, Extensions

Variationel : VEM, VBEM

Problème :variables latentes pas indépedantes | aux observations :⇒ Champs de markov cachés,⇒ Modéle de mélange d’Erdos-Renyi, ...Approximer la distribution a posteriori par une autre R(Z)

Utiliser la décomposition :

L(θ,X) = L (R(Z),θ) +KL (R(Z)||P(Z|X)) , (19)

avec L(R(Z),θ) une borne inférieure ELBO :

L(R(Z),θ) = H (R(Z)) +∑

Z

R(Z) log (P(X,Z)) (20)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 62 / 106

Page 63: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Extensions

Variations, Extensions

Variationel : VEM, VBEM

Problème :variables latentes pas indépedantes | aux observations :⇒ Champs de markov caché,⇒ Modéle de mélange d’Erdos-Renyi, ...R(Z) choisie pour pouvoir calculer L(R(Z),θ),Approximation en champs moyen :

R(Z) =∏i,k

τZikik ≈ indépendantes

Optimisation alternée de L(R(Z),θ) // τik et θ. point fixe sur les τik .

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 63 / 106

Page 64: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Algorithme EM Extensions

EM

Autres points

Extensions BayesiennesMCMCSélection de modèleSélection de K...

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 64 / 106

Page 65: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Exemple 1 :

Clustering de stations //

profils d’usage temporels

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 65 / 106

Page 66: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Clustering de station // profils d’usage temporels

Objectifs :

Stations décrites par les dynamiques de flux entrants et sortantsI X out

sdt : # de vélos pris à la station s le jour d à l’heure tI X in

sdt : # de vélos déposés à la station s le jour d à l’heure t

Xsd = (X insd1, . . . ,X

insd24,X

outsd1, . . . ,X

outsd24)

Prise en compte des jours de semaine / week end.Croiser les résultats avec d’autres variables explicatives :population, emplois, loisirs, ...Analyse réalisée avec 8 groupes(bon compromis : interprétations/attache aux données)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 66 / 106

Page 67: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Modèle génératif

Xsdt (observée) : Nbr de vélos arrivant/partantZs (latente) : cluster de la station sWd (observée) : cluster des jours (week end / semaine)

Mélange de poissons

Zs ∼M(1, π)

Xsdt |{Zsk = 1,Wdl = 1} ∼ P(αsλklt )

+ contraintes∑

l,t Dlλklt = DT ,∀k ∈ {1, . . . ,K}, avec Dl nbr de joursdu cluster l .

Related work[Rau et al., 2011], [Witten et al., 2010], [Govaert and Nadif, 2010]...Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 67 / 106

Page 68: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Vraisemblance

g(Xs) =K∑

k=1

πk∏d ,t ,l

po(Xsdt ;αsλklt )Wdl (21)

où po(., λ) : densité d’une loi de Poisson de paramètre λ

La log-vraisemblance à maximiser :

L(Θ; X,α,W) =∑

s

log

∑k

πk∏d ,t ,l

po(Xsdt ;αsλklt )Wdl

(22)

Les paramètres du modèle à estimer sont π et λ.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 68 / 106

Page 69: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

L’algorithme EM

Vraisemblance complétée

Lc(Θ; X,Z,α,W) =∑s,k

Zsk log

πk∏d ,t ,l

po(Xsdt ;αsλklt )Wdl

(23)

où Z est un vecteur inconnu.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 69 / 106

Page 70: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

L’algorithme EM

Etape E

Dans l’étape E, on s’intéresse à l’espérance de la vraisemblancecomplétée, donnée par :

Ec(Θ;α,λ) =∑s,k

tsk log

πk∏d ,t ,l

po(Xsdt ;αsλklt )Wdl

(24)

où les tsk sont définis par :

tsk =πk

∏d ,t ,l po(Xsdt ;αsλklt )

Wdl∑k πk

∏d ,t ,l po(Xsdt ;αsλklt )Wdl

(25)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 70 / 106

Page 71: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

L’algorithme EM

Etape M

αs : Activité moyenne de la station

α̂s =1

DT

∑d ,t

Xsdt , (26)

λklt : Activité de la tranche horaire t pour le cluster k , en week endou en semaine (cluster temporel l)

λ̂klt =1∑

s tskαs∑

d Wdl

∑s,d

tskWdlXsdt (27)

πk : porportion de la classe k , π̂k = 1N∑

s tsk

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 71 / 106

Page 72: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Analyse des résultats

Sorties

Zs : cluster des stationsλk : profils temporels de la classe kαs : effets stations

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 72 / 106

Page 73: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Pôles multimodaux

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 73 / 106

Page 74: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Pôles multimodaux

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 74 / 106

Page 75: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Parcs

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 75 / 106

Page 76: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Parcs

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 76 / 106

Page 77: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Sorties nocturnes

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 77 / 106

Page 78: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Sorties nocturnes

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 78 / 106

Page 79: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Sorties nocturnes et week-end

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 79 / 106

Page 80: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Sorties nocturnes et week-end

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 80 / 106

Page 81: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Logements

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 81 / 106

Page 82: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Inhabitants / ha

0200400600800

1 0001 200

Logements

Page 83: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Emplois(1)

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 83 / 106

Page 84: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Emplois (2)

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 84 / 106

Page 85: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Jobs / ha0

5001 0001 5002 000

Emplois (1 et 2)

Page 86: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Usage mixte

Hours

Activity

0

1

2

3

4

5

0

1

2

3

4

5

Week

0 5 10 15 20

Week-end

0 5 10 15 20

Departures

Arrivals

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 86 / 106

Page 87: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Usage mixte

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 87 / 106

Page 88: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Croisement données population-emplois-services

hab/ha emp/ha serv/ha com/ha162 237 4.2 3.7

Sorties (1) 367 189 6.3 4.4Sorties (2) 261 322 7.7 6.9Parcs 172 90 2 1.7Gares 209 206 2.4 1.8Logements 375 108 3.8 2.7Emplois(1) 138 409 4.5 2.8Emplois(2) 157 456 5.7 5.6Moyennes 301 163 3.8 2.8

TABLE 1: Comparaison des moyennes de densités de population, d’emplois,de services et de commerces pour les différentes groupes de stations.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 88 / 106

Page 89: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering de stations

Conclusions sur le clustering de stations

Résultats

Des stations bien différenciées en termes d’usageInterprétation aisée des groupes de stationsDensités de population, d’emplois et d’équipements explicativesdes groupes de stationsProfils temporels des clusters interprétables et informatifs

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 89 / 106

Page 90: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Exemple 3 :

Clustering de matrices O-Ddynamiques

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 90 / 106

Page 91: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Clustering de matrices O-D dynamiques

Objectifs

Représentation des données : matrices OD dynamiques⇒ Recherche de stationnarités et de points de changement dansla dynamique des matrice ODModèle utilisé “Latent Dirichlet Allocation”

Résultats

Segmentation temporelle et cyclesDistribution spatiale des flux (OD de référence) / segment⇒ Permet de caractériser le déséquilibre du réseau / segment

Représentation synthétique de la dynamique du réseau

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 91 / 106

Page 92: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

LDA, pour matrice O/D dynamique

pour chaque activités a ∈ {1, . . . ,Na}, tirer un générateur dematrice O/D :

Λa ∼ D(β) (28)

pour chaque sac de déplacement t ∈ {1, . . . ,Nt} :1 tirer les proportions des activités :

πt ∼ D(α) (29)

2 pour chaque déplacement de la tranche horaire t :I tirer l’activité A du déplacement :

A ∼M(1, πt ) (30)

I tirer un déplacement D (couple O/D) conditionellement à l’activité :

D ∼M(1,ΛA) (31)

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 92 / 106

Page 93: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

LDA, pour l’analyse de matrice O/D dynamiques

Données d’entrées et pertinence des sorties

Données d’entrées : comptage d’OD observées durant desfenêtres temporellesSorties :

1 πt : proportions des activités latentes pour chacune des fenêtres⇒ segmentation temporelle (plage de stationnarité)

2 Λa : ensemble de matrices O/D type pour chaque activité latente⇒ caractérise le comportement du système

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 93 / 106

Page 94: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Interprétation temporelle#

trip

s / h

our

0

3000

6000

9000

Avril 04 Avril 11

# tr

ips

/ hou

r

0

3000

6000

9000

Avril 18 Avril 25

12000

12000

Avril 18

Mai 02

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 94 / 106

Page 95: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Interprétation temporelle

Remarques

La cyclostationnarité est clairement visibleFaible mélange entre les différentes activités latentesInterprétation temporelle des 5 groupes obtenus : Domicile↔Travail, Déjeuner, Travail↔ Domicile, Loisirs nocturnes, Loisirs

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 95 / 106

Page 96: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Interprétation spatiale : déséquilibre du réseau

+30

Balance

-30

-20

-10

0

+10

+20

FIGURE 13: Activité latente "Domicile→Travail", déséquilibre du réseau pourNdep = 10 000Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 96 / 106

Page 97: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Travail→Domicile"

+30

Balance

-30-20-100

+10+20

FIGURE 14: Activité latente "Travail→Domicile", déséquilibre du réseau pourNdep = 10 000

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 97 / 106

Page 98: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Déjeuner"

+30

Balance

-30-20-100

+10+20

FIGURE 15: Activité latente "Déjeuner", déséquilibre du réseau pourNdep = 10 000Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 98 / 106

Page 99: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Loisirs nocturnes"

+30

Balance

-30-20-100

+10+20

FIGURE 16: Activité latente "Loisirs nocturne", déséquilibre du réseau pourNdep = 10 000

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 99 / 106

Page 100: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Loisirs"

+30

Balance

-30-20-100

+10+20

FIGURE 17: Activité latente "Loisirs", déséquilibre du réseau pourNdep = 10 000

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 100 / 106

Page 101: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Loisirs", stations avec un fort flux entrant

FIGURE 18: Stations incoming specificity

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 101 / 106

Page 102: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

"Loisirs", stations avec un fort flux sortant

FIGURE 19: Stations outgoing specificity

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 102 / 106

Page 103: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Résultats

Meilleure compréhension de la dynamique du réseauModèle synthétique de la dynamiqueMise en évidence des cycles

Limites

Prise en compte uniquement de la demande satisfaitePas de liens explicites avec les données socio-économiques etgéographiques

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 103 / 106

Page 104: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Travaux actuels & futursAspects intermodaux, données billetique

Synergie entre VLS et TCObjectif : comprendre et mesurer l’intermodalité grâce à desdonnées de billettique

Projet PREDIT Mobilletic (cas d’étude sur la ville de Rennes)Partenaires : GRETTIA, LVMT, CEREMA - CETE NP, Keolis Rennes

Autour des modèles a variables latentes

LDA avec covariables socio-économiques(thèse A. Randriamanamihaga)Clustering de profil d’utilisateurs "mixture of unigrame".Prediction : Régression beta-poisson(phénomènes de saturation / stations )

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 104 / 106

Page 105: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

Exemples Clustering OD

Merci pour votre attention !

etienne.come@ifsttar.frmobilletic.ifsttar.frvlsstats.ifsttar.frwww.comeetie.fr

@comeetie

IfsttarCentre de Marne-la-ValléeBatiment le “Bienvenue”14-20 Bd Newton Cité Descartes, Champs sur MarneF-77447 Marne la Vallée Cedex 2

Tél. +33 (0)1 81 66 87 19

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 105 / 106

Page 106: Modèles à variables latentes, Fouille de données, EM et ... · Problématiques de recherche Traces numériques Apprentissage statistique 2 Modèles à variables latentes Clustering

References

References

Govaert, G. and Nadif, M. (2010).Latent Block Model for Contingency Table.Communications in Statistics-Theory and Methods 39, 416 – 425.

Rau, A., Celeux, G., Martin-Magniette, M.-L. and Maugis-Rabusseau, C. (2011).Clustering high-throughput sequencing data with Poisson mixture models.Rapport de recherche RR-7786 INRIA.

Witten, D., Tibshirani, R., Gu, S., Fire, A. and Lui, W. (2010).Ultra-high throughput sequencing-based small RNA discovery and discrete statistical biomarker analysis in a collection ofcervical tumous and matched controls.BMC Biology 58.

Etienne Côme (COSYS/GRETTIA) EM ... 16 décembre 2013 106 / 106