afcm pdf

3
CHAPITRE VI Analyse des correspondances multiples (AFCM) 1. Introduction L’analyse des correspondances multiples est une « généralisation » de l’analyse des correspondances (simples) permettant d’étudier plus de 2 variables qualitatives. Elle permet donc d’étudier les liaisons qui existent entre plusieurs variables qualitatives sur une même population. Lorsque les variables étudiées ne sont pas qualitatives, il est tou- jours possible d’utiliser l’AFCM en transformant les variables quantitatives en variables qualitatives en regroupant les valeurs des variables initiales en classes. 2. Tableau des données On observe p variables qualitatives X 1 ;:::;X p sur n individus. On note x ij la valeur (le numéro de la modalité)de la variable X j sur l’individu i . Les données sont regroupées dans un tableau statistique : X 1 ::: X j ::: X p 1 : : : : : : : : : i ::: ::: x ij ::: ::: : : : : : : n : : : Exemple Fidélité Prix Accueil Réparation Satisfaction 1 2 3 4 5 Fid-oui Prix-oui 4 Rep-nsp Satisf-oui Fid-nsp Prix-oui 4 Rep-nsp Satisf-oui Fid-nsp Prix-oui 4 Rep-oui Satisf-oui Fid-nsp Prix-oui 4 Rep-oui Satisf-oui Fid-oui Prix-oui 5 Rep-oui Satisf-oui a. Limité aux 5 premières observations Soit m j le nombre de modalités de la variable X j et m le nombre total de modalités : m D p X j D1 m j On peut alors représenter les p variables X j dansun tableau lo- gique ou tableau disjonctif complet : X 1 X p i 1 m 1 1 m p 1 0 1 1 0 2 1 0 1 0 3 0 0 0 0 : : : n 0 0 0 1 La somme de chaque ligne est égale à p, nombre de variables X j . La somme de chaque colonne correspond à l’eectif marginal n k de chaque modalité k. On obtient alors le tableau : X 1 X p i 1 m 1 1 m p 1 0 1 1 0 p 2 1 0 1 0 p 3 0 0 0 0 p : : : n 0 0 0 1 p n 1 n m np Exemple id 1 2 3 4 27 28 Marg e active mod_ Acc 1 0 0 0 0 1 0 6 Acc 2 0 0 0 0 0 1 4 Acc 3 0 0 0 0 0 0 7 Acc 4 0 1 1 1 0 0 7 Acc 5 1 0 0 0 0 0 4 Fid- non 0 0 0 0 1 1 11 Fid- nsp 0 1 1 1 0 0 13 Fid- oui 1 0 0 0 0 0 4 Prix- non 0 0 0 0 1 1 18 Prix -oui 1 1 1 1 0 0 10 Rep -non 0 0 0 0 0 0 5 Rep -nsp 0 0 0 1 0 1 7 Rep -oui 1 1 1 0 1 0 16 Satis f- non 0 0 0 0 1 1 13 Sati sf- oui 1 1 1 1 0 0 15 Marg e active 5 5 5 5 5 5 140 3. Analyse du tableau logique Le tableau précédent peut être vu (avec beaucoup d’imagination) comme un tableau de contingence entre la variable « individus » et une variable à m modalités X . On procède alors à une analyse des correspondances (simples) de ce tableau. On considère le nuage N .I / des individus et le nuage N .J / des (modalités) des variables. L’inertie des nuages est : In D m p 1 C’est-à-dire, le nombre moyen de modalités des X j moins 1. En général, les taux d’inertie expliquée par chaque axe propre sont très inférieurs aux taux de l’AFC. Un critère de sélection des axes est de ne retenir que les axes cor- respondants aux valeurs propres supérieures à 1=p. Exemple Dimension 1 2 Total Moyenne Alpha de Cronbach ,786 ,479 ,671(a) Variance expliquée Total (valeur propre) 2,697 1,622 4,319 2,159 Inertie ,539 ,324 ,864 ,432 Pourcentage de variance expliquée 53,936 32,444 43,190 Dimension 1 2 Total Moyenne Alpha d Cronba ,7 ,4 ,671 4. Interprétation d’une AFCM L’interprétation d’une AFCM est assez semblable à celle d’une AFC. Elle repose sur l’interprétation des axes puis des proximités entre les diérentes modalités des variables. L’interprétation des axes est faite comme en AFC, en se basant sur les contributions. On utilise aussi la contribution d’une variable : CTR .X j / D X k2X j CTR .k/ et la discrimination d’une variable : discr.X j ; / D p CTR .X j / 6 1 Vincent Jalby – Université de Limoges – M1 Management de l’Innovation - Analyse des données – 2012-2013 – VI. Analyse des correspondances multiples (AFCM) Page 1

Upload: hamza-benzattat

Post on 21-Oct-2015

20 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AFCM pdf

CHAPITRE VI

Analyse des correspondances multiples (AFCM)

1. IntroductionL’analyse des correspondances multiples est une « généralisation »de l’analyse des correspondances (simples) permettant d’étudierplus de 2 variables qualitatives.Elle permet donc d’étudier les liaisons qui existent entre plusieursvariables qualitatives sur une même population.Lorsque les variables étudiées ne sont pas qualitatives, il est tou-jours possible d’utiliser l’AFCM en transformant les variablesquantitatives en variables qualitatives en regroupant les valeurs desvariables initiales en classes.

2. Tableau des donnéesOn observe p variables qualitatives X1; : : : ; Xp sur n individus.On note xij la valeur (le numéro de la modalité)de la variable Xjsur l’individu i .Les données sont regroupées dans un tableau statistique :

X1 : : : Xj : : : Xp

1:::

::::::

i : : : : : : xij : : : : : ::::

:::

n:::

Exemple

PourcentageN PourcentageN PourcentageNTotalExclu(s)Inclus

Observations

Satisfaction Réparation Accueil Prix Fidélité 100,0%5,0%0100,0%5

100,0%5,0%0100,0%5100,0%5,0%0100,0%5100,0%5,0%0100,0%5100,0%5,0%0100,0%5

Observation Calculer Récapitulera

a. Limité aux 5 premières observations

FidélitéPrixAccueilRéparationSatisfaction12345 Fid-ouiPrix-oui4Rep-nspSatisf-oui

Fid-nspPrix-oui4Rep-nspSatisf-ouiFid-nspPrix-oui4Rep-ouiSatisf-ouiFid-nspPrix-oui4Rep-ouiSatisf-ouiFid-ouiPrix-oui5Rep-ouiSatisf-oui

Récapitulatif des observationsa

a. Limité aux 5 premières observations

Page 2

Soit mj le nombre de modalités de la variable Xj et m le nombretotal de modalités :

m D

pXjD1

mj

On peut alors représenter les p variables Xj dansun tableau lo-gique ou tableau disjonctif complet :

X1 … Xpi 1 … m1 … … … 1 … mp1 0 … 1 1 … 02 1 … 0 1 … 03 0 … 0 0 … 0::: … …n 0 … 0 0 … 1

La somme de chaque ligne est égale à p, nombre de variables Xj .La somme de chaque colonne correspond à l’e�ectif marginal nkde chaque modalité k.On obtient alors le tableau :

X1 … Xpi 1 … m1 … … … 1 … mp1 0 … 1 1 … 0 p

2 1 … 0 1 … 0 p

3 0 … 0 0 … 0 p::: … …n 0 … 0 0 … 1 p

n1 … … nm np

ExempleCorrespondanceTableau des correspondances

Résumé

a 378 degrés de libertéCaractéristiques des points colonnes(a)

a Normalisation principale

Dimension

1

2

3

4

5

6

7

8

9

10

Total

Valeur singulière

,734

,570

,491

,472

,459

,423

,370

,272

,221

,149

Inertie

,539

,324

,242

,223

,211

,179

,137

,074

,049

,022

2,000

Khi-deux

280,000

Sig.

1,000(a)

Proportion d'inertie

Expliqué

,270

,162

,121

,111

,105

,090

,069

,037

,024

,011

1,000

Cumulé

,270

,432

,553

,664

,769

,859

,927

,965

,989

1,000

1,000

Valeur singulière de confiance

Ecart-type

,036

,050

Corrélation

2

-,105

id

1

2

3

4

27

28

Marge active

mod_

Acc 1

0

0

0

0

1

0

6

Acc 2

0

0

0

0

0

1

4

Acc 3

0

0

0

0

0

0

7

Acc 4

0

1

1

1

0

0

7

Acc 5

1

0

0

0

0

0

4

Fid-non

0

0

0

0

1

1

11

Fid-nsp

0

1

1

1

0

0

13

Fid-oui

1

0

0

0

0

0

4

Prix-non

0

0

0

0

1

1

18

Prix -oui

1

1

1

1

0

0

10

Rep-non

0

0

0

0

0

0

5

Rep-nsp

0

0

0

1

0

1

7

Rep-oui

1

1

1

0

1

0

16

Satisf-

non

0

0

0

0

1

1

13

Satisf-oui

1

1

1

1

0

0

15

Marge

active

5

5

5

5

5

5

140

mod_

Acc 1

Acc 2

Acc 3

Acc 4

Acc 5

Fid-non

Fid-nsp

Fid-oui

Prix-non

Prix -oui

Rep-non

Rep-nsp

Rep-oui

Satisf-non

Satisf-oui

Total actif

Masse

,043

,029

,050

,050

,029

,079

,093

,029

,129

,071

,036

,050

,114

,093

,107

1,000

Score dans la dimension

1

,958

,438

,344

-1,033

-,669

,280

,209

-1,449

,606

-1,090

1,025

-1,017

,124

,864

-,748

2

-,745

-1,153

,558

,499

,422

-1,081

,879

,116

-,056

,101

1,111

-,428

-,160

,219

-,190

Inertie

,157

,171

,150

,150

,171

,121

,107

,171

,071

,129

,164

,150

,086

,107

,093

2,000

Contribution

De point à inertie de dimension

1

,073

,010

,011

,099

,024

,011

,008

,111

,087

,157

,070

,096

,003

,128

,111

1,000

2

,073

,117

,048

,038

,016

,283

,221

,001

,001

,002

,136

,028

,009

,014

,012

1,000

De dimension à inertie de point

1

,250

,032

,040

,356

,075

,051

,038

,350

,660

,660

,229

,345

,021

,646

,646

2

,151

,222

,104

,083

,030

,756

,670

,002

,006

,006

,268

,061

,034

,042

,042

Total

,402

,254

,143

,439

,104

,807

,707

,352

,666

,666

,497

,406

,055

,688

,688

3. Analyse du tableau logiqueLe tableau précédent peut être vu (avec beaucoup d’imagination)comme un tableau de contingence entre la variable « individus » etune variable àmmodalités X .On procède alors à une analyse des correspondances (simples) dece tableau.On considère le nuage N .I / des individus et le nuage N .J / des(modalités) des variables.L’inertie des nuages est :

In Dm

p� 1

C’est-à-dire, le nombre moyen de modalités des Xj moins 1.En général, les taux d’inertie expliquée par chaque axe propre sonttrès inférieurs aux taux de l’AFC.Un critère de sélection des axes est de ne retenir que les axes cor-respondants aux valeurs propres supérieures à 1=p.

Exemple

Multiple Correspondence

Récapitulatif du traitement des observations

Historique des itérations

a Le processus d'itération s'est interrompu car la valeur test de la convergence a été atteinte.

Récapitulatif du modèle

a La valeur Alpha de Cronbach moyenne est basée sur la valeur propre moyenne.

Mesures de discrimination

Mesures de discrimination

Observations valides actives

Observations actives avec valeurs manquantesObservations supplémentaires

Total

Observations utilisées dans l'analyse

28

0

0

28

28

Nombre d'itérations

15(a)

Variance expliquéeTotal Variance

Expliquée

2,159490

Augmentation

,000009

Perte

2,840510

Dimension

1

2

Total

Moyenne

Alpha de Cronbach

,786

,479

,671(a)

Variance expliquée

Total (valeur propre)

2,697

1,622

4,319

2,159

Inertie

,539

,324

,864

,432

Pourcentage de variance expliquée

53,936

32,444

43,190

Satisfaction

Réparation

Accueil

Prix

Fidélité

Total actif

Pourcentage de variance expliquée

Dimension

1

,646

,455

,584

,660

,351

2,697

53,936

2

,042

,279

,473

,006

,823

1,622

32,444

Moyenne

,344

,367

,528

,333

,587

2,159

43,190

Multiple Correspondence

Récapitulatif du traitement des observations

Historique des itérations

a Le processus d'itération s'est interrompu car la valeur test de la convergence a été atteinte.

Récapitulatif du modèle

a La valeur Alpha de Cronbach moyenne est basée sur la valeur propre moyenne.

Mesures de discrimination

Mesures de discrimination

Observations valides actives

Observations actives avec valeurs manquantesObservations supplémentaires

Total

Observations utilisées dans l'analyse

28

0

0

28

28

Nombre d'itérations

15(a)

Variance expliquéeTotal Variance

Expliquée

2,159490

Augmentation

,000009

Perte

2,840510

Dimension

1

2

Total

Moyenne

Alpha de Cronbach

,786

,479

,671(a)

Variance expliquée

Total (valeur propre)

2,697

1,622

4,319

2,159

Inertie

,539

,324

,864

,432

Pourcentage de variance expliquée

53,936

32,444

43,190

Satisfaction

Réparation

Accueil

Prix

Fidélité

Total actif

Pourcentage de variance expliquée

Dimension

1

,646

,455

,584

,660

,351

2,697

53,936

2

,042

,279

,473

,006

,823

1,622

32,444

Moyenne

,344

,367

,528

,333

,587

2,159

43,190

4. Interprétation d’une AFCML’interprétation d’une AFCM est assez semblable à celle d’uneAFC.Elle repose sur l’interprétation des axes puis des proximités entreles di�érentes modalités des variables.L’interprétation des axes est faite comme en AFC, en se basant surles contributions.On utilise aussi la contribution d’une variable :

CTR�.Xj / DXk2Xj

CTR�.k/

et la discrimination d’une variable :

discr.Xj ; �/ D p� � CTR�.Xj / 6 1

Vincent Jalby – Université de Limoges – M1 Management de l’Innovation - Analyse des données – 2012-2013 – VI. Analyse des correspondances multiples (AFCM) Page 1

Page 2: AFCM pdf

Elle correspond à la variance des coordonnées de la variable surl’axe.

Exemple

Multiple Correspondence

Récapitulatif du traitement des observations

Historique des itérations

a Le processus d'itération s'est interrompu car la valeur test de la convergence a été atteinte.

Récapitulatif du modèle

a La valeur Alpha de Cronbach moyenne est basée sur la valeur propre moyenne.

Mesures de discrimination

Mesures de discrimination

Observations valides actives

Observations actives avec valeurs manquantesObservations supplémentaires

Total

Observations utilisées dans l'analyse

28

0

0

28

28

Nombre d'itérations

15(a)

Variance expliquéeTotal Variance

Expliquée

2,159490

Augmentation

,000009

Perte

2,840510

Dimension

1

2

Total

Moyenne

Alpha de Cronbach

,786

,479

,671(a)

Variance expliquée

Total (valeur propre)

2,697

1,622

4,319

2,159

Inertie

,539

,324

,864

,432

Pourcentage de variance expliquée

53,936

32,444

43,190

Satisfaction

Réparation

Accueil

Prix

Fidélité

Total actif

Pourcentage de variance expliquée

Dimension

1

,646

,455

,584

,660

,351

2,697

53,936

2

,042

,279

,473

,006

,823

1,622

32,444

Moyenne

,344

,367

,528

,333

,587

2,159

43,190

Exemple

On interprète ensuite le graphique principal en tenant compte desproximités entre les modalités des variables.Pour chaque variable, on regardera surtout l’axe pour lequel la dis-crimination est la plus forte.

Exemple

Il est aussi possible de représenter les individus en les étiquetantpar une variable stratégique.

Exemple

5. Interprétation des variables quantitativesL’AFCM est souvent utilisée pour interpréter un ensemble de va-riables quantitatives dont les valeurs ont été regroupées en classes.Dans ce cas, il est utile de joindre les di�érentes modalités d’unemême variable par une ligne brisée.Deux lignes parallèles signifiront des variables quantitatives corré-lées.Deux lignes orthogonales marqueront la non corrélation.

X

XX

X X

X

X

XX X

X

X

X

X

3

1

2

4 5

123

4

5

1

2

3

4

6. Conseils d’utilisationL’interprétation d’une AFCM est souvent délicate et peut être faus-sée par des variables trop « hétérogènes ».Il est donc souvent nécessaire de procéder à plusieurs analyses (in-formatiques) pour obtenir des résultats plus facilement interpré-tables.

E�ectif des modalitésL’inertie apportée au nuage par une modalité k est :

In.k/ D1

p

�1 �

nk

n

�Elle est donc d’autant plus forte que l’e�ectif de la modalité estfaible. De nombreuses modalités à faible e�ectif peuvent donc dés-équilibrer une AFCM.Il est préférable de limiter le nombre de modalités à faible e�ectif,quitte à redéfinir les modalités.

Nombre de modalitésL’inertie apportée au nuage par une variable est :

In.Xj / Dmi � 1

p

Elle est donc d’autant plus importante que le nombre de modalitésde la variable est important.

Vincent Jalby – Université de Limoges – M1 Management de l’Innovation - Analyse des données – 2012-2013 – VI. Analyse des correspondances multiples (AFCM) Page 2

Page 3: AFCM pdf

Il est donc conseillé de travailler avec des variables ayant des mo-dalités en nombre comparable.

7. Mise en œuvre dans SPSSIl existe 3 méthodes pour faire une AFCM dans SPSS :• l’Analyse des correspondances multiples• l’AFC du tableau de contingence• l’ACP catégorielle

Analyse des correspondances multiplesFactorisation > Codage Optimal > (ACM)Cette méthode produit une AFCM classique.

Elle s’applique sur les tableaux des variables codées en valeurs en-tières (1; 2; : : : ). Il est possible de mettre des variables supplémen-taires (hors analyse).

Les résultats sont assez sommaires et se limite à l’étude des discri-minations et des graphiques des modalités.

AFC du tableau de contingenceFactorisation > Analyse des correspondancesElle consiste à faire une AFC sur le tableau disjonctif donnant uneAFCM à la française.SPSS ne gérant pas (directement) les tableaux de contingence, ontransforme les variables en une unique variable dont les modalitéssont la réunion des modalités des variables initiales.

Les résultats obtenus sont exhaustifs, identiques à ceux obtenus viala précédente procédure, à condition de choisir une normalisationPrincipale.

ACP catégorielleFactorisation > Codage Optimal > (ACP Nomi-nale)Adapté pour e�ectuer une analyse de type AFCM sur des variablesquantitatives qui seront discrétisées.On peut aussi l’utiliser sur des variables qualitatives, en particulierordinales.Les résultats sont très exhaustifs et s’apparentent à ceux obtenusavec les autres méthodes.

Cette méthode o�re de nombreuses options de transformation desvariables et de mises en points supplémentaires.

Vincent Jalby – Université de Limoges – M1 Management de l’Innovation - Analyse des données – 2012-2013 – VI. Analyse des correspondances multiples (AFCM) Page 3