analyse multidimensionnelle de données...

21
1 STA112 N.Niang Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers STA112 N.Niang Plan Introduction Terminologie-Notations Méthodes directes Coefficient d’association vectorielle DACP, STATIS, TUCKER, PARAFAC Méthodes secondaires Dual, SCA Typlogies de trajectoires STA112 N.Niang Introduction Données longitudinales multidimensionnelles Méthodes exploratoires simples ( cf cours 1) Indispensables mais insuffisantes pour l’étude des liaisons entre les variables Besoin de méthodes multidimensionnelles Etude des méthodes descriptives à trois voies utilisant le temps dans l’interprétation

Upload: others

Post on 26-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

1

STA112 N.Niang

Analyse multidimensionnelle de données longitudinales

Ndèye Niang

Conservatoire National des Arts et Métiers

STA112 N.Niang

Plan

� Introduction

� Terminologie-Notations

� Méthodes directes� Coefficient d’association vectorielle

� DACP, STATIS, TUCKER, PARAFAC

� Méthodes secondaires� Dual, SCA

� Typlogies de trajectoires

STA112 N.Niang

Introduction

� Données longitudinales multidimensionnelles

� Méthodes exploratoires simples ( cf cours 1)

� Indispensables mais insuffisantes pour l’étude des liaisons entre les variables

� Besoin de méthodes multidimensionnelles

� Etude des méthodes descriptives à trois voies utilisant le temps dans l’interprétation

Page 2: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

2

STA112 N.Niang

Introduction

� Rappel:

� Données longitudinales: mesures répétées dans le temps, tableau à 3 entrées

STA112 N.Niang

Terminologie - Notations

� Tableau à trois dimensions X

� xijt , i=1,…, N; j= 1,…, p, t=1…,T � i pour les individus en lignes

� j pour les variables en colonnes

� t pour les instants (temps) de mesure en profondeur

� Ensemble de matrices : tranches horizontales xi , tranches latérales xj, tranches frontales xt

� Ensemble de vecteurs: fibres lignes xit , colonnes xjt , tubes xij

STA112 N.Niang

Méthodes multidimensionnelles

Page 3: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

3

STA112 N.Niang

Introduction� Cadre général: méthodes d’analyse

simultanée de plusieurs tableaux de

données

� Diverses situations:

� pt variables mesurées sur nt individus à différentes dates: données évolutives

� pt variables mesurées sur nt individus à différentes occasions (non temporel)

� Plusieurs tableaux de contingence ou de proximités

� Ici : données quantitatives individus-variables

STA112 N.Niang

Introduction

� Plusieurs méthodes:

� DACP

� STATIS, STATIS DUALE

� AFM

� PARAFAC, TUCKER

STA112 N.Niang

2. La double ACP (Bouroche,J.M., 1975)

� ACP n°1: nuage des centres de gravité gt comme étude de l’interstructure

� Recherche de l’intrastructure

� ACP de chaque tableau: T systèmes d’axes

� Système d’axes compromis maximise l’inertie de la somme des projections de chaque nuage = somme des inerties après centrage

Page 4: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

4

STA112 N.Niang

double ACP (suite)

� Axes compromis : vecteurs propres de

� ACP n°2: ACP de la concaténation verticale (superposition) des Xt centrés

X1

X2

XT

1

T

tt=∑V

STA112 N.Niang

double ACP Ex1 :� La scolarité d’un groupe de six étudiants a été

suivie pendant les quatre années du collège à travers les relevés des notes de mathématiques, français, histoire

Document

Microsoft Office Word 97 - 2003

STA112 N.Niang

double ACP: exemple� Crimes et délits en 9 catégories pour l’ensemble

des départements métropolitains, par année de 1974 à 1993

� VO : vols et recels

� FX :faux et escroqueries

� DF: délits financiers

� CH: chèques sans provisions

� CR: coups, réglements de comptes, traumatismes

� ST: stupéfiants

� DD: destructions et dégradations

� ET : délits à la police des étrangers

� DV : divers

Page 5: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

5

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Page 6: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

6

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Page 7: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

7

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Page 8: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

8

STA112 N.Niang

Méthodes STATIS

� Structuration de Tableaux A Trois Indices de la Statistique (Escoufier et L’Hermier des plantes (1976) + C.Lavit)

� permet l’exploration simultanée de plusieurs tableaux de données quantitatives:

� n individus et pt var différentes � STATIS

� Privilégie la position des individus

STA112 N.Niang

Méthodes STATIS

� Remarque p var et nt individus différents �

STATIS DUALE

� Privilégie les relations entre variables

� Remarque: données longitudinales : mêmes individus mêmes variables possible application des deux méthodes et DACP

STA112 N.Niang

L’approche de la méthode:

� Etude classique d’un tableau: l’analyse factorielle associe au tableau un ensemble de représentation graphiques (cercle de corrélations,

plans factoriels)

� Plusieurs tableaux: études séparées� trop de représentations indépendantes, pas pertinent; d’où:

� Recherche d’une unique représentation, un résumé global, un compromis des tableaux

Page 9: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

9

STA112 N.Niang

Méthode STATIS

� Idée essentielle de la méthode:

� recherche d’une réponse à la question: les distances entre individus sont elles stables d’un tableaux à un autre ?

� Nécessité de trouver une structure commune aux études appelée intrastructure

STA112 N.Niang

4 étapes:

� Interstructure : étude globale des différences entre tableaux

� Compromis : résumer les tableaux en un seul

représentatif selon certains critères

� Intrastructure : étude fine des différences entre tableaux

� Trajectoires : évolution des individus ou

variables suivant les tableaux

STA112 N.Niang

Notations

� On dispose de N tableaux Xt à p variables

quantitatives décrivant les mêmes n individus

11 21 1

12 22 2

1 2

1

2X

P

P

t

n n Pn

X X X

X X X

X X Xn

=

L

L

M M O MM

K

Page 10: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

10

STA112 N.Niang

Interstructure : analyse globale

� ACP particulière: 3 phases

� Définir un objet représentatif

� Définir une métrique pour distances entre objets

� Trouver une image des objets représentatifs

STA112 N.Niang

Interstructure objet représentatif Wt

� Wt = XtMtX’t caractérise (Xt , Mt , D)

Wt contient les produits scalaires entre individus = tous les liens inter individus

� Individu de l’ACP = objet représentatif d’un tableau Xt , et on lui associe un poids

STA112 N.Niang

Métrique pour distances entre objets

� Métrique de l’ACP:

définir une distance entre objets

Produit scalaire de Hilbert Schmidt:

Si les objets Wt ont des normes très différentes:

( )' ' ' tt t t t tHSTr= =S W W DW DW

( ) ( ) ( )2 2

' ' ' / [ ] [ ]t t t t t tHSTr Tr Tr=W W DW DW DW DW

Page 11: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

11

STA112 N.Niang

Rappels ACP� ACP classique : triplet (X , M , D)

� facteurs principaux : MVu = λu = (1)

� composantes principales : c = Xu

MX’DXu= λu

XMX’DXu= λXu X* (1)

WDc= λc

W =matrice des produits scalaires entre individus

Composantes principales WDc = λc

STA112 N.Niang

Métrique pour distances entre objets

On définit la matrice S qui contient les coefficients RV

On associe à chaque tableau un poids:

Comme en ACP on peut construire une image

représentative des objets

Remarque: S a tous ses termes positifs, on aura un

facteur taille

10

0 N

π

π

∆ =

O

STA112 N.Niang

Image représentative des objets

� Rappel : STATIS = ACP particulière :

� Individu = Wt = objet représentatif d’un tableau

� Tableau de données = S = Matrice des coefficients RV (produits scalaires entre objets Wt) et poids

� Composante principale = vecteur propre de S∆∆∆∆

Page 12: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

12

STA112 N.Niang

� ACP de S∆∆∆∆Les vecteurs propres de S∆∆∆∆ associés aux deux plus grandes valeurs propres permettent la représentation des objets W1,…, WN sur le 1er plan factoriel :� Les coordonnées des Wt sur l’axe i sont contenues

dans ct,i:,t i i iλ=c u

ième valeurpropre de S∆∆∆∆ième vecteur propre de S∆∆∆∆

Image représentative des objets

STA112 N.Niang

STATIS - Résumé Interstructure

STA112 N.Niang

Exemple 1: 1er tour présidentielle

Page 13: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

13

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Compromis-Intrastructure

Interstructure = analyse globalemise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer.

Objectif de la suite = analyse plus fine pour expliquer

Deux étapes:* recherche d’un point de repère= compromis* étude de l’intrastructure

Page 14: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

14

STA112 N.Niang

Recherche d’un compromis

CoCompromis = bon resumé, de même nature que les objets

solution: Wco moyenne pondérée desWt

Les coefficients étant tels que Wco soit le plus corrélé avec les Wt

STA112 N.Niang

Recherche d’un compromis

1

W WN

CO t tt

α=

=∑

( )

1

1

1u t

t tα πλ

=

1ère valeur propre de S∆∆∆∆

tième élément du 1er

vecteur propre de S∆∆∆∆

t t t′=W X MXMatrice de données

initiales

Matrice CoCompromis WCO

STA112 N.Niang

Recherche d’un compromisReprésentation et InterprétationReprésentation et Interprétation

4 cas4 cas: : ** WWtt ont des normes voisines et des grands RVont des normes voisines et des grands RV::existence d’une structure commune bien existence d’une structure commune bien décrite par le compromisdécrite par le compromis

** un Wun Wtt différent des autresdifférent des autres: il intervient peu : il intervient peu dans la construction du compromis, robustedans la construction du compromis, robuste

** WWtt normes trop différentesnormes trop différentes: il faut normer: il faut normer** WWtt très différents, RV faiblestrès différents, RV faibles: pas de : pas de

structure communestructure commune

Page 15: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

15

STA112 N.Niang

Intrastructure image représentative des points compromis

� ACP de WCOD

� Les vecteurs propres de WCOD associésaux deux plus grandes valeurs propresfournissent une image euclidienne despoints compromis

� Les coordonnées compromis sur l’axe i sont contenues dans le vecteur cCO,i:

,

1CO i i i co i

i

δδ

= =c v W Dv

ième valeur propre de WCOD ième vecteur propre de WCOD

STA112 N.Niang

STATIS - Intrastructure

STA112 N.Niang

Intrastructure : corrélation variables-compromis� Chaque composante principale du

compromis est un vecteur à n dimension, n étant le nombre d’individus des tableaux initiaux.

� Calcul de leurs corrélations avec les variables initiales des tableaux Xt

� Représentation des cercles de corrélation

� Interprétation des axes pour expliquer les positions compromis des individus

Page 16: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

16

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

� Wco est encore un opérateur d’Escoufier car les αj sont non négatifs

� Wco est donc associé à un tableau de données “compromis” X tel que Wco=XMX’

� ACP de

� Pondération des tableaux

1 1 2 2 ... T Tα α α=X X X X

Page 17: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

17

STA112 N.Niang

STATIS - Trajectoires des individus

� Méthode: technique des points supplémentaires

Représentation sur l’image euclidiennecompromis des N nuages des individus

� Remarque : cCO,i est le “centre de gravité” des points cCO t,i

,

1CO t i t i

iδ=c W Dv

STA112 N.Niang

STATIS - Trajectoires des individus

� Objectif :

� Mise en évidence des écarts entre les Wt etavec le compromis au niveau individuel

� Détection des individus responsables desécarts entre tableaux

� Définition :

� On place les différentes positions d’unindividu tel qu’il est décrit par chaqueétude. Ces différentes positions définissentsa trajectoire

STA112 N.Niang

Interprétation des trajectoires� Deux classes de trajectoires des

individus :� Peu étendue autour de sa position

compromis = individus dont l’évolution suitl’évolution moyenne, écart par rapport à lamoyenne régulier d’un tableau à l’autre

� Trajectoire de grande amplitude =changement de structure suivant lestableaux, différence avec l’évolutionmoyenne

Rque: si les axes du compromis sont bien corrélésavec les variables on pourra expliquer les axes parles variables et on interprètera de façon détailléeles trajectoires des individus

Page 18: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

18

STA112 N.Niang

STA112 N.Niang

STATIS DUALE

� Même démarche que STATIS en prenant comme matrice représentant un tableau, Vt

la matrice de covariance des variables à la place des Wt .

� On privilégie les variables au lieu des individus.

� Interstructure: étude globale des variables

� Compromis: moyenne pondérée des Vt

� Intrastructure: compromis des variables

� Trajectoires de variables

STA112 N.Niang

4 . Méthode AFM

� Analyse Factorielle Multiple (B.Escofier et J.Pagès)

� permet l’étude d’un ensemble d’individus décrits par plusieurs groupes de variablesquantitatives ou qualitatives:

� Groupes = mesures à différents instants

sous tableaux d’un tableau(issus d’un regroupement selon certains critères)

Page 19: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

19

STA112 N.Niang

AFM : analyse factorielle multiple

� Comme STATIS:

� Comparaison globale des groupes de variables: interstructure

� Comparaison des nuages représentant le même ensemble d’individus: intrastructure et image compromis

� Mais ici juxtaposition des tableaux avec :

� Idée de base = pondération des groupes de variables pour équilibrer leur influence dans l’analyse globale

STA112 N.Niang

AFM : analyse factorielle multiple

� Dans la juxtaposition des N tableaux,

* plus le nombre de variables est grand, plus le tableau aura une grande influence sur les résultats

* plus les variables d’un tableau sont liées (forte structure) plus ce tableau influence le compromis

� Une autre manière de pondérer les tableaux: égaliser les premières valeurs propres de chaque ACP

STA112 N.Niang

AFM

� Objet représentatif

� Compromis

� Intrastructure ACP de

( )1

1ttλ

W

( )1 1

1T

ttt λ=∑ W

1 2(1) (2) ( )1 1 1

1 1 1... TTλ λ λ

=X X X X

Page 20: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

20

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Page 21: Analyse multidimensionnelle de données longitudinalesmaths.cnam.fr/IMG/pdf/sta112_cours2_methodes_multi... · Structuration de Tableaux ATrois Indices de la Statistique (Escoufier

21

STA112 N.Niang

STA112 N.Niang

STA112 N.Niang

Références

Bry, X. Analyses factorielles multiples, Economica, 1996

Escofier, B., Pagès, J. Analyses factorielles simples et multiples, 4ème édition, Dunod , 2008

Kroonenberg, P., Applied Multiway Data Analysis, Wiley, 2008

Lavit, C., Analyse conjointe de tableaux quantitatifs, Masson, 1998

Avec R http://factominer.free.fr/