imprimer econometrie
DESCRIPTION
rappels fondamentaux sur la démarche économétriquele modéle linéaire à deux variables et à plusieurs variablesl'analyse factorielle des correspondances A.F.CTRANSCRIPT
Plan du cours Introduction générale : rappels fondamentaux sur la démarché économétrique Chapitre 1 : Le modèle linéaire à deux variables et à plusieurs variables Chapitre 2 : L’Analyse Factorielle des correspondances A.F.C Chapitre 3 : L’Analyse en Composantes Principales A.C.P
1
BIBLIOGRAPHIE • JOHSSTON (J.), méthodes économétriques,
tome 1 et tome 2, Paris, 1985. • PAULRE (B.), la causalité en économie,
collection des sciences des systèmes, Lyon, 1985.
• SALVATORE (D.), économétrie et statistiques appliquées, New York, groupe Mc Graw-Hill, 1985.
• ARTUS (P.), modélisation macro-économique, Economica, Paris, 1986.
• BENZECRI (J.-P.), pratique de l'analyse des données, Dunod, Paris, 1986.
• GAGOU (A.), modélisation par la méthode de Box et Jenkins, thèse de doctorat, université d'Aix-Marseille, 1986.
• DORMONT (B.), introduction à l'économétrie des données de panels, Edition CNRS, Paris, 1989.
• CIRAUD (R.) et CHAIX (N.), économétrie, Economica, Paris, 1989.
• MOUCHOT (C.), statistique et économétrie, Economica, Paris, 1991.
• BATOLA (L.), statitiques et économétrie, Masson, Paris, 1990.
2
INTRODUCTION Rappels sur la démarché économétrique
- Les systèmes économiques sont souvent
difficiles à comprendre car ils font appel à la science sociale.
- Pour cerner cette réalité, les théoriciens ont tenté de déterminer les lois qui les régissent : construction et estimation d'un ensemble de modèles qui peuvent appréhender et formaliser les liaisons, les interactions et les relations entre plusieurs variables. Exemple : formuler des équations entre des grandeurs économiques.
- Le rôle des mathématiques et des statistiques est donc primordial.
- Exemple de grandeurs économiques pour lesquelles on cherche à comprendre le comportement et le fonctionnement : les agrégats macro-économiques globaux (masse monétaire, inflation, emploi, PNB, etc.), les secteurs d'une économie donnée (production automobile, aéronautique, situation de la récolté céréalière, etc.).
- Autres types de grandeurs : phénomènes sociaux, politiques (sondage d'opinion et campagne électorale), personnels, etc.
- Les théoriciens font ce genre de recherches dans un double objectif :
3
* prévoir la réalité économique et sociale;
* tester la portée et la validité des théories économiques.
1- définition de l'économétrie
• Branche qui traite des modèles aléatoires
et de la décision. • Elle se base sur l'observation et la
vérification chiffrée (variable quantitative ou qualitative) pour expliquer la relation entre les grandeurs économiques : vérifier l'existence de liaisons entre les agrégats, mais aussi et surtout, détecter et préciser la forme correcte de ces liaisons.
• L'économétrie est aussi la validation empirique des données théoriques.
• Etapes de la démarche économétrique :
* proposer un certain nombre de modèles rapprochés de la réalité par des théoriciens;
* les soumettre à des économètres pour les mathématiser;
* le rejet ou le maintien des dits modèles (pour des fins de prévisions) dépend d'une panoplie de tests statistiques et économétriques.
4
La démarche économétrique peut se schématiser ainsi
Hypothèses sur les variables
Modèle théorique proposé
Traitement économétrique
Acceptation ou rejet du
modèle
Observations chiffrées
2- Concepts et terminologie - Econométrie : expliquer des phénomènes
économiques par plusieurs autres variables.
- Selon la théorie économique, la relation existant entre plusieurs variables est de la forme : Yt = f(xt, zt,…..), exemple : I = f(E, R, Ex, L, etc.).
* Avec, I : le niveau de l'investissement; * E : l'épargne; * R : le revenu;
5
* Ex : l'exportation; * L : la législation en vigueur.
- Nécessité d'intervenir le facteur temps :
modèles dynamiques. Exemple, pour les variables C et R, on peut dire que la Ct = f(Rt), surtout à court terme.
- Ce type de formulation, Yt = f(Xt) n'explique pas réellement la nature de la relation entre les deux variables X et Y. Donc : faire intervenir d'autres types de variables à côté de Xt.
- La relation entre les phénomènes à expliquer et explicatifs est dans la quasi-totalité des cas de type linéaire : yt= a + bxt ou du type exponentielle multiplicatrice, qui peut devenir linéaire en utilisant le logarithme :
Si yt = xat* zb
t, alors log yt= c + a log xt + b log zt.
- La relation entre les variables à expliquer et explicatives n'est pas stricte, mais plutôt stochastique (aléatoire).
- Un terme résiduel sera toujours prévu pour faire face aux variables non déclarées. Donc: yt = f(x1t, x2t, x3t, x4t,.…xnt+ t) yt = a1x1t+ a2x2t+ a3x3t+ a4x4t+……+anxnt+ t
6
Terminologie Variable y Variable x
- variable expliquée
- variable endogène
- variable déterminée
- variable dépendante
- variable explicative - variable exogène - variable prédéterminée - variable indépendante
a2 t - pondérations - coefficients de
régression
Période d'observation fixe
- terme résiduel
- résidu - bruit - perturbations
REMARQUES :
• Ces modèles linéaires qui cherchent à appréhender les relations entre variables sont dits des modèles de régression.
- régression simple : si l'on cherche à expliquer une seule variable. Exemple : Ct = a + bRt + t;
- régression multiple si plusieurs variables interviennent en même temps pour
7
expliquer un phénomène. Exemple : Et = a + bEt + cPEt + dPPt + eSGt + t
.E : environnement international;
.PE : politique économique;
.PP : pouvoir publics;
.SGE : situation géographique. • Le terme (erreur) intervient pour
résumer l'impact de toutes les autres variables qui sont omises. Celui-ci dépend de :
.l'erreur d'observation sur les variables X et Y; .la période d'observation.
• puisque l'objectif de toute étude économétrique est d'élaborer des modèles efficients servant de prévision fiables, on peut aussi travailler sur des variables retardées (yt-1, t-1, x1t-1).
8
CHAPITRE I : LE MODELE LINEAIRE A DEUX ET A PLUSIEURS
VARIABLES I – Concepts de base du modèle linéaire général - La représentation graphique de la
distribution des ouvriers, par exemple selon l'age et le salaire met en relief l'existence d'une liaison statistique entre ces variables. Pour préciser la forme de cette liaison, on trace et on détermine la courbe de régression. Mais pour mesurer son intensité, il faut calculer le rapport de corrélation (matrice de corrélation). A/ Ecriture du modèle économétrique linéaire
- Considérons (n+1) variables dans le
temps, l'une notée y et les autres xi (i = 1, 2,…..,n). Ces grandeurs peuvent être des évènements, des
9
indicateurs économiques, sociaux, etc.
- Ces (n+1) variables sont généralement mesurées pendant t périodes (souvent l'année) et on dispose, de ce fait de t observations de ces valeurs.
- Supposons qu'à travers l'histoire, une analyse théorique passée a fait établir une relation causale et linéaire entre les valeurs des xi et celles de y pour chaque période :
yt = a1x1t+ a2x2t+ a3x3t+ a4x4t+……+anxnt+
b+t (régression simple ou multiple)
= ∑ aixit + b+t - Ce modèle à une seule équation et à
plusieurs variables comporte nécessairement un régressant (y) et n régresseurs.
- Ce modèle s'appelle aussi régression linéaire de y en x1, x2,…… xn, les paramètres (coefficients) ai (i = 1, 2,…..,n) sont nommées coefficients de régression de y en
xi.
10
- Le terme résiduel t (choisi d'une manière aléatoire) peut être interprété de la façon suivante :
*à l'échelle de l'interprétation économique, t va nous représenter l'ensemble des raisons pour lesquelles la formule yt= ∑ aixit + b+ n'est pas assurée de façon stricte et sérieuse. Ces motifs peuvent être par exemple: • la non linéarité stricte de la relation; • l'influence de l'impact sur y des variables
autres que xi; • les erreurs commises lors de la mesure des
grandeurs yt et xit. - La prise en compte de tous ces facteurs
nous permet de dire que ces modèles économétriques se basent beaucoup plus sur l'approche de l'approximation. Mais, la relation linéaire ne pourra être acceptée que si les termes résiduels t sont suffisamment petits.
- Les coefficients ai et b sont dits les vraies valeurs des paramètres du modèle.
- Ces véritables valeurs seront toujours (comme les résidus) inconnues : il s'agit pour la démarche économétrique de fournir des estimations rigoureuses pour ces coefficients.
11
- La variable expliquée et les variables explicatives sont observées t fois. La meilleure façon qui permet de visualiser toutes ces observations est l'écriture matricielle :
y1
.
.
. yi
.
.
. yt
=
X11…….xn1
.
.
. x1i…….xni
.
.
. x1t……xnt
*
a1
.
.
. aj
.
.
. an
+
e1
.
.
. ei
.
.
. en
Cela pourra s'écrire encore:
Y = X * A+ e
REMARQUES 1- La relation entre les variables du modèle
économétrique est dénommée corrélation; celle-ci peut, parfois, entraîner un effet de causalité : en effet, à partir du moment où l'on suppose que la connaissance des variables xi génère celle de y, on peut
12
construire un modèle causal : xi ⟨ y; le modèle fourni détermine y;
2- Le terme constant b est, dans la majorité
des cas, différent des ai : sa signification économique est faible, mais sa flexibilité (variabilité) est grande;
3- Le modèle supposé doit être formulé à
partir d'hypothèses théoriques liant les variables étudiées, et c'est, d'ailleurs, la qualité de l'estimation obtenue qui confirmera ou infirmera ces hypothèses;
4- Le modèle linéaire peut être de deux ou
plusieurs variables, d'une ou de plusieurs équations.
II – L'estimation du coefficient de régression a et b : le principe de l'ajustement linéaire par la méthode des moindres carrés ordinaires Les paramètres de régression et la constante ne peuvent être qu'estimés pour donner l'image la plus fidèle que possible de la réalité.
13
Supposons qu'une relation entre la consommation (régressant) et le revenu (régresseur) est de la sorte : yt = β xt + + t. graphiquement, on notera : Y (c) - il faut essayer d'ajuster et de tracer une
droite qui soit proche de tous ces points. C'est-à-dire minimiser les écarts entre les points de nuages et la droite tracée. Celle-ci est la droite de régression : il faut déterminer la meilleure.
14
Y - c'est la méthode des moindres carrés
ordinaires (MCO) qui nous permet de minimiser les carrés des écarts (distance) à la droite d'ajustement ou de régression.
• Exposé de la méthode des MCO
yt = βxt + + t yt = βxt + ⟨ sera alors le modèle estimateur de yt et β seront donc, les estimateurs de et β, il s'agit alors de calculer et β.
- considérons la droite d'équation :
15
yt = βxt + + t. Calculons la valeur des écarts des points observés à la droite, mesurés parallèlement à l'axe des ordonnées :
t = yt - - βxt La somme de ces écarts est égale à : S = ∑ t = ∑ (yt - - βxt)2
Y - La droite des moindres carrés correspond
aux valeurs des coefficients et β qui rendent minimum la quantité (S). Ce minimum est obtenu en égalant à zéro les dérivées partielles de S par rapport à et β. Il faut, tout d'abord,
16
rechercher pour un β fixé, la valeur de qui rend S minimale.
• Les hypothèses de la méthode des
MCO H1- Les variables xt sont, à l'inverse des t non aléatoires; elles sont donc connues; H2- E(t) = 0. Cela veut dire que chaque perturbation a une espérance mathématique nulle. Autrement dit, elle est centrée à l'origine. Si alors les résidus ne sont pas centrés à l'origine, cela pourrait provenir de l'omission d'une ou plusieurs variables explicatives; H3- V(et)= σ2
et= constante. Cela veut dire que les écarts (erreurs) yt – yt qui correspond à et ne doivent pas disparaître dans le temps.
H4- La normalité des résidus. Ainsi, la population doit être suffisante pour que les résidus puissent suivre une loi normale de paramètre 0 et σ2 :
σ2 N(m, σ) N(0, σ2et).
17
H5- Les résidus sont non corrélés entre eux. C'est la propriété d'homoscédasticité des perturbations. Ainsi, E(e2
t) = σ2 et ce ∀ t = 1, 2,……n. Les perturbations ont même variance, elles se dispersent toutes de manière égale autour de leur valeur moyenne. Donc, on dit qu'elles sont homoscédastiques. En effet, la condition de non corrélation des résidus est matérialisée par : Cov (et, ej) = 0 et ce ∀ i ≠ j | i, j = 1,…..,n H6- La matrice X est certaine. Cela veut dire que les observations réalisées sur les variables explicatives le sont sans erreur. Cela se justifie surtout pour le modèle linéaire à K variables (régression multiple). • Calcul des estimateurs - Nous avons yt = β0 + βxt + t (t = 1,…..,n). - Il s'agit d'estimer β0 et β. - En général, on ne peut pas trouver
exactement les valeurs des paramètres β0 et β qui restent toujours des inconnus.
- On peut noter aussi qu'il y a toujours une différence entre β0 et β et leurs estimateurs β0 et β.
Nous avons alors : yt = β0 + βxt
18
- Il y a une différence entre yt et yt. différence que l'on appelle résidu, et que l'on peut désigner par et.
- Nous pouvons, donc, écrire : yt – yt = et, ou :(1) yt - β0 - βxt = et, ou : yt = β0 + βxt + et
Il faut remarquer que yt et xt sont ici des valeurs réelles de l'échantillon (mais que l'on cherche à estimer). Pour n périodes, la relation (1) sera :
(y1 - β0 – βx1) = e1 (y2 - β0 – βx2)= e2
. .
. .
. .
. . (yn - β0 – βxn) = en
La méthode des moindres carrés ordinaires consiste à trouver les valeurs de β0 et β telles que la somme des valeurs absolues des résidus soit minimale. Un résidu égal à + 2 est traité sur le même pied d'égalité qu'in résidu égal à –2.
Si on appelle π cette somme des résidus, on aura les détails suivants :
19
π = e21 + e2
2 + e23+……… + e2
ncela sera égal aussi à : (y1 - β0 – βx1)2
+ (y2 - β0 – βx2)2
+ …… …… …… + (yn - β0 – βxn)2
Dans ce cas, yt et xt sont des valeurs de l'échantillon et sont connues. β0 et β sont des inconnus qu'il faut calculer.
Nous savons que la valeur π devient minimale si l'on peut réaliser deux principales conditions :
- dérivées premières de π par rapport à β0 et
β sont toutes deux nulles (condition du premier ordre);
- dérivée seconde par rapport à β est positive (condition du second ordre).
Après démonstration et calculs, on aura :
20
xy ββ −=0Et : Donc :
∑ −∑ −−
= 2)())((
xtxxtxytyβ
Et :
∑ −∑ −−
−= 2)())((
0 xtxxtxytyxyβ
21
• Illustration (voir exercice n°7 de la série d'exercices n°1)
- Premier cas : régresser y par rapport à x1.
Yt = a0 + a1x1 + t Coefficient de corrélation linéaire simple :
∑ −=
∑ −=
∑ −−=
=
2)(1
2)(1
1
))((1),1cov(
*1
),1cov(1
yiyny
xixnx
yiyxixnyx
yx
yxyxr
σ
σ
σσ
22
Tableau des calculs
Observations yt xt (xt-x)2 (yt-y)2 (xt-x)( yt-y)
1 12 2 1 36.56 2.60 23.24 2 14 1 25.70 13.76 18.81 3 10 3 9.42 59.44 23.67 4 16 6 0 2.92 0 5 14 7 0.86 .45 13.76 -36 19 8 3.72 1.66 2.49 7 21 8 3.72 10.82 6.35 8 19 5 1.14 1.66 -1.38 9 21 5 1.14 10.82 -3.52 10 16 8 3.72 2.92 -3.30 11 19 4 4.28 1.66 -2.67 12 21 9 8.58 10.82 9.64 13 25 12 35.16 53.14 43.2314 21 7 0.86 10.82 3.06 Total 2 7 248 85 113.7 226.8 116.1
Estimer les paramètres a0 et a1 :
71.1707.6
==
yx
∑ −∑ −− ))((
= 2)(1 xtxxtxytya
23
02.172.113== 17.116
onc : Y = 11.52 + 1.02x + t
1.52 + 1.02x Calculer le coefficient de corrélation
oefficient de détermination; .52 = 52%
D t 1ou : Yt = 1 1
linéaire simple :
= 0.72 = 72%
xaya −=
)07.6*02.1(71.1710
52.110=
−=a
)8.226(141
1*)72.113(14
1)17.116(14
11
),1cov(1
=
= yxyx
yxr σσ
c r2 = (0.72)2 = 0
24
Autre manière pour calculer r2(R2)
∑ −
∑−=
∑ −∑ −
==
2)(
21
2)(22
y
)ˆ(
ty
t
ytyyty
On a :
rR
ε
txty 102,152,11 +=
25
00.0020.111
34.248.566.182114
24.154.176.232513
30.009.07.202112
40.356.1160.151911
68.354.1368.191610
38.418.1962.16219
38.266.562.16198
32.174.168.19217
68.046.068.19196
66.472.2166.18145
64.169.264.17164
58.498.2058.14103
46.113.254.12142
56.143.256.13121
22ˆ
total
tetettytyt
−
−
−
−
−
−
=ε
26
%5252.08,226
21,11112
==
−=R
Effectuer le test de Student permettant de se prononcer sur la participation de x1 à l'explication du modèle : Soit Ho =a1=0 Le seuil de signification le plus utilisé est α=0,05, soit un risque de rejet à tort de H0 de 5%.
DLnàStudentdeloiunesuit
a
aaa
aamX
2
1ˆˆ
11ˆ
1ˆˆ
11
−−
−=−
σ
σσ
Sous l'hypothèse H0, cette relation devient :
27
Studentderatioappeléesta
t
DLnàStudentdeloia
ta
a
a
a
1ˆ
.21ˆ
1ˆˆ1
1ˆˆ
01
°
−°==−
⎯→⎯σσ
Nous avons déjà calculé a1, il convient, à présent, de calculer σa1. Or, nous avons déjà souligné que :
∑ −=
2)(
2ˆ)1(2
1ˆˆ
xtxavou
aεσσ
72,1132)(
:
=∑ −t
xtx
avonsNous
Nous savons aussi que l'estimation de la variance de l'erreur (σε
2), notée σε2 est égale à :
22
12ˆ ∑−= tenεσ
)('2
22ˆ
tytyteestimationlderésiduleestteoùn
te
−=−
∑=εσ
28
A/ Calcul de yt et de et (voir tableau de la question précédente)
D'après le tableau 2 de la question précédente, on obtiendra
....2ˆ22
1ˆ11
ˆ10ˆˆ
etcyye
yyetytytesoit
txaaty
−=
−=
−=
+=
∑et =0 ∑et2 = 111,20 et ∑et2/14, c'est à dire la somme moyenne ou encore et2 = 7,94 B/ Calcul de l'estimation de la variance de l'erreur et de l'écart-type du coefficient de régression L'estimation de la variance de l'erreur est donc égale à :
Ce qui nous permet de calculer la variance estimée de a1 :
27.92142.111
2
22ˆ =
−=
−∑= n
teεσ
29
08.072.113
27.92)(
2ˆ21ˆ
ˆ ==−
=∑ xtxa
εσσ
28551.01ˆ
ˆ =a
soit σ
C/ Calcul du ratio de Student et règle de décision Nous savons que
est distribuée selon une loi de Student à n-2 DL.
tat
ta
ta
ˆˆ
ˆ
ˆ°=
σ
La règle de décision pour un seuil α = 0,05 est la suivant :
On rejette l'hypothèse H0; le coefficient α est alors significativement différent de 0 (on accepte a1≠0); la variable explicative x1 est donc contributive à l'explication de la variable y.
025.02
ˆˆ
1ˆ
ˆ −>=° nct
ta
a
tatsi
σ
30
025.02
ˆˆ
1ˆ
ˆ: −<=° nct
ta
a
tatcontreparsi
σ
.0' Hhypothèselaccepteon
Le coefficient a1 n'est, donc, pas significativement différent de 0 (on accepte a1= 0), la variable explicative x1, n'est donc pas contributive à l'explication de y.
n'est donc pas contributive à l'explication de y. Dans notre exercice, on a : Dans notre exercice, on a :
57.328551.1
02.1
1ˆˆ
1ˆ
1ˆ===°
a
a
at
σ
025.021422 −=
− ct
nctet
α
On voit très bien que t°>au tc, donc on rejette H0. Donc a1 est bien ≠ 0. X1 contribue à l'explication de y.
On voit très bien que t°>au t
c, donc on rejette H0. Donc a1 est bien ≠ 0. X1 contribue à l'explication de y.
179.2025.012
==c
t
Effectuer le test de Fisher permettant de déterminer si la régression est globalement significative
Effectuer le test de Fisher permettant de déterminer si la régression est globalement significative
31
Nous savons que : F°c = R2/n-1
)()21(
12
ktR
kR
cF
−−
−=°
k= nombre de régresseurs t= nombre d'observations dans notre exercice :
)2()21(
12
−−
−=°
tR
kR
cF
si F°c>F0.05t k-t, t-k (DL), nous rejetons l'hypothèse
H0 qui signifie que a1= a2= a3=……….= ak= 0 si, par contre, F°c<F0.05
t k-t, t-k (DL), on accepte l'hypothèse H0, c'est-à-dire le modèle n'a pas de signification dans son ensemble. Dans notre exercice :
13)214(
)52.01(52.0
)2()21(
12
=
−−
=
−−
−=°
tR
kR
cF
Remarque On peut aussi remarquer que pour le modèle de régression simple, nous avons égalité entre
32
le coefficient de détermination et le carré du coefficient de corrélation linéaire simple.
2)(
)()21(
2
)()21(
2°=
−−
=
−−
=° t
ktr
r
ktR
RcF
dans notre exercice, nous avions : t°c =3.57, donc (t°c)2 = 13 Règle de décision : On a F°c =13 et F0.05
t 1 et 12 DL= 4.75 Donc, F°c > Ft. cela veut dire qu'il faut rejeter l'hypothèse H0, a1= a2= a3=……….= ak sont bien différent de 0, donc la variable explicative x1 est significative. Construire le tableau d'analyse de la variance pour vérifier les résultats obtenus Il faut, donc, connaître que :
33
Nous savons que :
∑ −=
∑=
∑ −=
2)(
2
2)ˆ(
ytySCTet
teSCR
ytySCE
SCTSCR
yty
teR −=
∑ −
∑−= 12)(
212
R2 = r2 =0.52, la connaissance de SCR = =111.20 permet de déterminer SCT = 231.67 car 1-(111.20/SCT) = 0.52. Tableau d'analyse de la variance
34
132647.120
12
1
)(
1 =−kt
11426.921447.1201
−=−=
=
SCTTotalSCRRésiduSCEX
moyensCarrésDlcarrésdesSommesSource
67.23120.11147.120
variationde
.9==°
SCRSCRcalculéF
SCESCE
I- LE COEFFICIENT DE DETERMINATION ET LE
COEFFICIENT DE CORRELATION
Nous savons très bien que la variation de Y utour de la moyenne est subdivisée en deux
partie : une partie expliquée par la régression et une partie résiduelle non expliquée.
Le coef
∑+∑∑ =
∑ ∑ ∑ ∑ ×++=
+=
⎯→⎯⎯→⎯
22ˆ2
ˆ22ˆ2
ˆ:
a
2
ttyty
zéroverstendttyttyty
ttytyDonc
ε
εε
ε
ficient de détermination :
35
∑
∑=
tyR
2ˆ2
ty2
⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜
⎝
∑ −
−∑
= centréesiablesdescasyty
yty
RAussi var2)(
)ˆ(2
est le résultat de la variabilité expliquée
sur la variabilité totale de Y.
⎟⎞
⎜⎛
2
∑ −∑−=
∑ −
∑ ∑−−=
∑∑−=
∑=
2)(
21
2)(
22)(2
:var
22
12
2
y
∑ ∑−2
tyt
yty
tytyR
centréesiablesdescasledanstyt
tytRdonc
εε
εty ε
36
Ce quotient nous permet de juger de la qualité de l'ajustement d'un modèle. En effet, plus la variance expliquée est proche de la variance totale de Y, meilleur est l'ajustement du nuage de points par la droite des moindrescarrées.
R2 est appelé le coefficient de détermination, et R le coefficient de corrélation multiple. Dans le cas particulier du modèle de régression à une seule variable explicative, il est égal au coefficient de
corrélation simple entre X et Y. dans ce cas, il est
ssion, il mesure la qualité de
s la variabilité de Y. Si R2= 1, cela veut dire que tous les
nent à la droite de
noté (r). INTERPRETATION • Le coefficient de détermination indique le
pourcentage de variance expliquée par la régrel'ajustement linéaire.
0<R2<1 - Si R2= 0, il y a indépendance totale :
aucune liaison entre x et y. Ceci implique que l'équation de régression en présence n'explique en rien et en aucun ca
- points (x, y) appartienrégression, c'est-à-dire le résidu est nul et donc :
37
02=∑ tε
2ty• ion :
R>0 ⟨ que X et Y varient dans le même sens R=1 ou R= -1 une corrélation parfaite entre X et Y
⟨ X et Y sont deux variables indépendantes.
• :
Le coefficient de corrélation linéaire r
mesure exclusivement la caractère plus ou moinles variables X et Y.
Pour le coefficient de corrélat∑
2RR=
-1<R<1 R<0 ⟨ que X et Y varient dans le sens inverse;
⟨
R =0 ⟨ aucune relation entre X et Y
La corrélation
s linéaire du nuage de points formés par
38
⟨ est une
dances linéaires entre les P valeurs observées.
• CAS DE LA REGRESSION LINEAIRE MULTIPLE
r sera toujours compris entre –1 et 1
Le Coefficient de détermination est égal : r2 = R2.
Si r=1 cela serait équivalent à l'existence d'une corrélation exacte entre x et y, autrement dit : axi + byi + c = 0 droite.
La matrice de corrélation, par contre
∑ −=
×
2)(1
2)
co
yiyny
i
= ),cov(
résume la structure des dépen
∑ −=
∑ −−=
(1
))((1),v(
xxnx
yiyxixnyx
yxyx
xyr
σ
σ
σσ
11 ≤≤− r
39
- Pour le modèle linéaire général ou la
étermination :
régression multiple, on note coefficient de d
:
22
éesvar centriablesdescasleDans
tyty ∑∑
21
212 tetR ∑−=∑−= ε
∑ − 2)( y∑−=
212
tyteR
REMARQUES 1- Le coefficient de détermination multiple
varie entre 0% et 100%. Dans ce dernier cas, tous les points appartiennent au plan ou à l'hyperplan de régression. Ce coefficient donne une idée assez correcte de l'efficacité de l'ajustement par la méthode des MCO. Cependant, comme sa valeur a tendance à augmenter avec le nombre de variables explicatives (il est
40
égal à 100% lorsque le nombre de variables explicatives est égal au nombre
), les économètres ont
Efaibtenid'obexp22.
e
d'observationsintroduit un coefficient de détermination corrigé ou ajusté: 22.
n effet, lorsque le degré de liberté est le, il convient de corriger le R afin de r compte du relativement faible nombre servation comparé au nombre de facteurs licatifs par le calcul d'un R "corrigé", noté
2
2
2- Le coefficient de corrélation multiple (cas
de régression linéaire multiple) est égal :
)21()1(11
2Rkn
nR −−−
−−=
YYYXXXY XR
′′−′′ 1)(=
3- Dans le cas d'un modèle où le nombrd'observation est égal au nombre de variables
41
explicatives (degré de liberté égal à 0), le R2 est égal à 1, c-à-d: 100%. Cependant, le
pouvoir explicatif de ce modèle est nul.
42
TABLEAU D'ANALYSE DE LA VARIANCE
1- Cas d'un modèle de régression simple
Nous savons que:
CAD: SCT (somme des carrés totale) =
SCR(somme des carrés des résidus). a variabilité totale (SCT) est égale à la
e (SCE) + la variabilité des résidus (SCR).
suivant :
∑+∑ −=∑ −
=−
22)ˆˆ
2)(
:ˆ
(
SCE(somme des carrés expliquées) +
Lvariabilité expliqué
D'où le tableau d'analyse de variance
teytyyty
queettetyty
12
)2()(
+−∑=−∑
kt
2ˆ112)(
var
−−=∑ −=
teSCTotalnktytySCR
T
SCRRésidu
SCEytySCEX
moyensCarrésDlcarrésdesSommesiationdeSource
43
La statistique F° est le rapport de la
omme des carrés des résidus. Chacune de es sommes étant divisée par son degré de
liberté respectif. Aussi, si la variance exp
résiduelle, la variable xt est considérée comme étant une variable
nous rejetons l'hypothèse d'égalité des variances, la variable xt est significative; dans le cas contraire, nous acceptons l'hypothèse
)( ktSCR
−
1SCE
calculé =
Où F° suit la loi de Fischer à 1 et n-2 degré
de liberté. Nous pouvons aussi écrire cette formule en
fonction du coefficient de détermination :
somme des carrés expliqués par xt sur la sc
liquée est significativement supérieure à la variance
réellement explicative.
F°
)()21(
ktR
RF
−−
°
DLktkFtFCADntFFSi⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛−−=−>° ),1(2,1
05,0
2=
44
d'égalité des variances, la variable explicative de la variable
2-
xt n'est pas yt.
Cas d'un modèle de régression multiple (modèle linéaire général)
'hypothèse de normalité des erreurs implique que sous l'hypothèse H0, F° suit la
Nous savons que la régression est jugée significative si la variabilité expliquée est significativement différent de 0. Tableau d'analyse de la variance dans le
cas RLM :
D'où :
12)( −∑ −= ty)1(12
2)ˆ(,.....2,1
var
−−−−∑=
∑ −=
tySCTTotalkt
SCRktteSCRRésiduk
SCEkytySCEkxxx
moyensCarrésDlcarrésdesSommesiationdeSource
L
)1()1( −−−−∑ ktkt
te )21(2 −==
Rkk
22)ˆ(∑ − Ryty
°F
45
loi arons donc ce F° calculé à Ft
(théorique) à k et (t-k-1)DL : si F° > F, nous
de Fischer (rapport de deux Chi-deux). Nous comp
rejetons l'hypothèse H0, le modèle est globalement explicatif. Dans le cas contraire, on retient H0, le modèle pris dans l'ensemble n'est pas explicatif.
46
II- LES PRINCIPAUX TESTS STATISTIQUES
- Test d'évaluation globale ou test de Fischer Snedecor
Ce test nous permet de connaître si le odèle a une signification globale, c-à-d : si
introduction des variables x1,…..,xk permet e bien expliquer l'endogène (y), autrement it, il teste la signification simultanée des ariables exogènes (x1,…..,xk) ⟨ est-ce qu'elles ont acceptées dans l'ensemble ou pas?
Il s'agit de tester l'hypothèse H0 : β1 = 2=β3=……..=βk=0
L'hypothèse aléatoire consiste à comparer s valeurs calculées F° aux valeurs tabulées t) sachant que :
Avec K = nombre de regresseurs de Y et t = b
les va ent explicatives;
seu -d : toutes les var
A
ml'ddvs
β
le(F
DLktkFFtetkt
Rk
R),1(21
12
−−=
−−
−=°F
nom re d'observations totales. Si F°(c) > Ft, on rejette l'hypothèse H0, c-à-d:
riables xt sont réellemSi F° < Ft, on accepte l'hypothèse H0 au il de signification α%. C-àiables xt ne sont pas réellement
explicatives.
47
REMARQUE Les degrés de liberté correspondent au
nombre de valeurs que nous pouvons choisir arbitrairement (exemple : pour la variabilité totale, connaissant t-1 valeurs, nous pouvons en
ent
t) n'a
, on accepte l'hypothèse H0.
déduire la tème puisque nous connaissons la moyenne y ).
B- Le Test d'évaluation partielle ou
test de StudIl permet de se prononcer sur la
signification de chacun des paramètres. H0 : βk = 0 signifie que l'exogène (x
aucune influence sur l'endogène yt. D'une manière générale, il faut contrôler
l'hypothèse alternative H : β ≠0i k .
σκβσ
β
κβσβ mXTcarkoukt −== ˆ
ˆ
ˆ
ˆ
Si t°> t calculé, on rejette l'hypothèse H0. Si t°< t calculé
⎟⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜⎜
⎝∑ ∑ −
∑=
−=
2)()ˆ(
2)()ˆ(
x
⎟⎞
⎜⎛ 222
txt
nVet
x
x
txecV εαεβAv
σσ
48
L'idée générale est d'établir un intervalle de
compte tenu d'un seuil de confiance α%, ce qu
confiance pour chacun des paramètres
i nous permet de cerner la valeur des paramètres βk.
)(ˆˆ DL
ktt −×±= κβσκβκβ
49
C- Le Test d'autocorrélation des
H5 E(εt, εt)=0 Si t ≠ t Lorsque H5 est non respectée (non vérifiée), la matrice E(εε) est différente de 0, donc il y a autocorrélation des erreurs. Nous sommes en présence d’une autocorrélation des erreurs lorsque ces derniers sont liés par un processus de reproduction :
il y a autocorrélation positive et autocorrélation négative
1-Sources d’une autocorrélation des erreurs
- Absence d’une variable explicative importante dont l’explication résiduelle permettrait de
re la uer et les
résidus ou des erreurs D.W
--
minimiser les erreurs ; - Une mauvaise spécification du
modèle : les relations entvariable à expliqvariables explicatives ne sont pas suffisamment linéaires et
50
s’expriment sous une autre forme que celle du modèle estimé.
er une autocorrélation des erreurs d’ordre 1 sel
t d’hypothèse à faire est le
HH(o ur tester
calculons la statistique de D.W.
ation du modèle.
2-détection de l’autocorrélation des erreurs c’est le test du Durbin Waston (D.W) qui permet de détect
on la forme : εt = ρεt-1_ + vt avec vt ⇒ (0, σv
2) Le tessuivant :
0 : ρ = 0 1 : ρ ≠ O u ρ<0 ou ρ>0).Po
l’hypothèse nulle H0, nous
∑=
∑= −−
=n
t te
n
t teteDW
12
22)1(
Où et sont les résidus de l’estim
51
De part sa construction, cette statistique DW varie entre 0 et 4. Afin de tester l'hypothèse H0, D et W ont tabulé les valeurs critiques
nction
e variables explicatives k. de la table permet de deux valeurs d1 et d2
selon le schéma suivant : •
ρ> Selon la position du DW empirique dans cet espace, nous pouvons co
•
de DW au seuil de 5% en fode la taille de l'échantillon n et du nombre dLa lecturedéterminercomprises entre 0 et 2 qui délimitent l'espace entre 0 et 4
0 ? ρ=0 ρ=0
Interprétation du Test du DW et règle de décision
? ρ<0
nclure : si d2<DW<4-d2, on accepte l'hypothèse H0, donc ρ = 0, il n'y a pas d'autocorrélation des erreurs;
52
• si 0<DW<d1, on rejette l'hypothèse H0 car ρ > 0, il y a autocorrélation des erreurs;
• si 4- d1<DW<4, on rejette H0 car ρ < 0, il y a autocorrélation des erreurs;
• si d <DW<d ou 4-d <1 2 2 DW<4-d ,
mination quant à l'autocorrélation des erreurs.
- ondit on d'uti isatio du tes DW oit
r e onstant;
les modèles en coupes
1nous sommes dans une zone de doute ou d'indéter
3 C i l n t• Le modèle en présence d
comporte un term c• Le nombre d'observation doit être
supérieur ou égal à 15; • Pour
instantanée, les observations doivent être ordonnées en fonction de la variable à expliquer.
53
'HETEROSCEDASTICITE DES L
ERREURS
Lorsqvérifierreu
On
Soit lequevérifi
a matrice des erreurs st alors :
2m
n
)2()2()12(
)1()2()11(
)( n
nEEE
EEE
Etε
ε
εεεεε
εεεεε
εε−−−−−−−−−−
−−−
−−−
=′=Ω
ue l'hypothèse H3 du modèle n'est pas ée, il y a donc, hétéroscédasticité des rs. En effet, la variance de l'erreur n'est
plus constante, mais sa dispersion varie d'une observation à l'autre.
aura donc : 2)2(Epasn σε =
le modèle linéaire général Y = Xa + ε pour l l'hypothèse E(ε2) = σ2
t n'est pas ée.
)(.......)3()2()1( tEEEEais εεεε ≠≠≠≠
L e
222tto
)()2()1( nnEnEnE εεεεεε −−−
2
1
−−
54
et Correction du phénomène 'hétéroscédasticité
nεσ 20 −−−
εσεσ
22
12
00
00
−−−−−−−−−−−−
−−−
−−−
=
Les variances et les écart-types des erreurs ne sont plus constants sur la 1ère diagonale, mais leur dispersion varie d'une observation à l'autre. Détectiond Il n'y a pas une méthode unique pour corriger l'hétéroscédasticité. La règle générale consiste à déterminer une transformation concernant les données - de la variable à expliquer et desvariables explicatives - pour se ramener à un modèle à variances constantes (Homoscédasticitique).
55
A. Tests de détection de l'hétéroscédasticité
1- Test de GOLDFELD-QUANDT
bre rtant et que si l'une des
ariables est supposée la cause de hétéroscédasticité.
Ce test n'est valable que si le nomd'observation est impovl' Ce test est proposé en trois étapes : Etape 1 : classer les observations en fonction de la variable explicative X ; Etape 2 : omettre C observations centrales. On choisit par hasard
i
C observations se ouvant au milieu (centre) de l'échantillon. es C observations sont exclues de l'analyse. a valeur de C doit être à peu près égale au uart du nombre d'observations totales.
NB. Il ne faut prendre que les parties entières, sans virgule Etape 3 : régressions sur les deux sous - échan
lustration: exercice n°1 de la série n°4
trcLq
;
tillons et réalisation des tests. IlDans cet exercice, C = 33/4 = 8 observations.
56
Premier échantillon: j = 1,..11 Deuxième échantillon:j = 20,..30 Yj = n = 11R2 SC(.) ddl
,649xj + ej 4,26)
n = 11
= ∑e2j = 2616812
1110,870 + 0,814xj + ej (8,29)
Y
= 0,88 R1 = ∑e2
j = 1089638 R
j = 4286,957 + 0 (
= t de Student (.) = t de Student
2 = 0,67 SCR2
1 = n-2 =9 ddl2 = n-2 =9
Sous l'hypothèse H0 d'homoscédasticité, le rapport :
)deg21( libertéderéddletddlàFisherdeloinesuit
S
F =∗
9,9 dl
40,2261681222
ddl==
CR
10896381SCR
1ddl
u
18,3=05.0
40,2 ≤=° tFF
Donc l'hypothèse H0 d'homoscédasticité est le modèle nc pas
hétéroscédastique.
retenue, n'est do
57
Exercice n°1 de la série n°5. Procéder au test de détection d'une éventuelle hétéroscédasticité : test de Goldfeld-Quandt Etape 1 : ordonner les observations en fonction du temps de vérification.
T Yt
Xt
1 2 3 4 5 6 -- -- --
-- --
-- --
-- 30
4 5 6 8 8 6
-- -- 38
4 4 4 4 4
3,5
-- --
0,5 Etape 2 : oublier arbitrairement C observations existant au centre de échantillon. l'
C = partie entière de (30/4) = 8.
58
Etape 3 : régression sur les deux sous-échantillons.
Premier échantillon : t = 1,..11 Deuxième échantillon:t = 20,..30 Yt = 16.93 - 2.13xt + et (2.31) n = 11 R2 = 0,8 SCR1 = ∑(.) = t de Student ddl1 = n-2 = 9
Yt = 4.84 - 1.32xt + et (9.23) n = 11 R2 = 0,002 SCR2 = ∑e2
t = 872.02 (.) = t de Student ddl2 = n-2 =9
e2t = 164.66
Soit l'hypothèse H0
d'ho cédasticitée rapport :
= modèle homoscédastiquemos ,
L
)21(
9
02.
11
ertésu
ddl
F∗
9,9 dl
29.566.1649
SCR ===872
22
ddlSCR
deg libderéddletddlàFisherdeloiuneit
18,3=05.0
29.5 ≥=° tFF
59
Donc l'hypothèse H0 d'homoscédasticité est
ous avons :
Y = 24.09 - 4.125 xt t
(4.20)
rejetée, le modèle est donc hétéroscédastique.
2- Test de GLEISJER
txkttypeduou
txkttypeduoutxkt
typeduêtrepeutasticitéhétéroscédlauteurcetpour
ttxjSoit
222ˆ
22ˆ,222ˆ
:',
10
−=
==
+
υσ
υσυ
aae +=
3- Test de Breusch-Pagan
Les étapes de ce test sont : NY = a0 + a1xt+ut
Etape 1: stimation de ce modèle : E
+ u
σ
υ
txtycar 125.409.24ˆ −=
60
NB. Au lieu de travailler à l'aide de (Ut) 2, nous allons la remplacer par |Ut|. Soit l'hypothèse suivante :
)tan'(var
:
ˆ
:sup,
.......10ˆ
.:ˆ
:
2)2(),...2
,1
2(0
teconsesterreurldeianceil
S
H
alorsL
KKU
queposonsnousçadelieuAu
xxU
xsurregresséeydeestiméeerreurU
écritOn
UEk
xxxUEH
++++=
===
αδδδ
σ
21 KK
.......110 x +++= δδ x +αδ
' estnullehypothèse
0.......210 K ===== δδδ
,vérifiéeesthypothèsecettei
hom itéoscédasticalorsya
Etape 2:
URdecul
ˆ2
caletMMCOparUdeEstimation ˆ
61
En utilisant le logiciel E.Views, on aura :
n = 30 t de student pour xt = 2.55
αδδ ++= txtUSoit 10ˆ
α+−= txtU 46.109.8ˆ
189.0ˆ
2=
tUR
62
onc, on rejette l'hypothèse HO omoscédasticité), le modèle est donc étéroscédastique.
B. Correction de l'hétéroscédasticité etenons la forme d'hétéroscédasticité
Etape 3: Calcul de F°
D(hh
Rsuivante :
20.4)1,(
)28,1(
54.6)230(
)189.01(1
189.0)1(
ˆ2
=−−
>°
=
−−
−−
−
=°
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
DlknktFàdoncest
kntU
R
k
R
FtU
ˆ
21
=
F
63
64
de Gleisjer a montré une utr lle
l'ho
Pour corriger l'homoscédasticité dans ce cas,
txktU
222ˆ =
L'application de la régression pondérée par le facteur 1/xt, conduit à un modèle homoscédastique. Méthode 1:
σ
22ˆ1
)2
(212)('
10
k
tUEtxtx
tUEoùD
txt
2tU
tx
Méthode 2: Le Testa e relation sous la forme de laque
moscédasticité peut être pondérée :
U
txtx
atx
a
txty
==
=
++=
σ
txktU
22ˆ =2
σ
nous utilisons la régression pondérée (divisée) par le facteur (xt)1/2.
de la manière suivante :
tx=2/1txAvec )(:
donc :
txtU
txtx
atx
a
txty
++= 10
22ˆ12)(' ktUxtx
tUEoùD == σ
Donc le tableau de données sera transformé
t
65
Le modèle estimé par la MMCO sera la suivant : At = n1 1t + n2 x2t εt
Par le logiciel E.views, on aura : Les coefficients du modèle initial sont :
−−−−−−−−−−−−−−−−−−−−
==
00.250.050.200.250.000.2
211 tx
t
−−−−−−−−−−
xtx
txtxtx
tytA
x +
66
Yt = 24.96 - 4.53 xt + et (2.94) n = 30
:mod,
ˆ
doncestestiméèlee
==
53.411 lna =
96.2400 etn
−=
a
67
PRINCIPES DE L’ANALYSE FACTORIELLE • Projection des individus Les coordonnées des points du nuage par
apport aux facteurs sur lesquels la projection st effectuée sont faciles à calculer en ppliquant la forme linéaire reliant un facteur ux variables. Les nouvelles coordonnées sont ouvent désignées par "scores factoriels". Le chéma suivant donne un exemple de rojection dans le plan défini par les deux remiers axes factoriels.
d'o ple, les points 1 et 6 semblent très voisins. Peut-on en déd
comme pour les var
reaasspp
La projection des points-individus permetbtenir des groupes. Par exem
uire que les individus correspondants ont des réponses presque identiques aux questions qui leur sont posées?. La réponse à cette question nécessite de prendre quelques précautions. En effet, les axes obtenus résument au mieux l'information apportée par l'ensemble des points, mais pas l'information apportée par chaque individu pris isolément. Il est donc possible,
iables, que certains individus soient mal représentés par leurs projections sur le premier plan factoriel.
Il ne faut pas non plus oublier, pour juger de la proximité de points, les valeurs
68
respectives des quantités d'information restituées par les différents facteurs. Ainsi, les points 7 et 8 sont plus proches que les points 8 et 9 car le premier facteur restitue deux fois plus d'information que le second et joue donc un rôle plus important dans les distances entre points.
.1
.3
.4
• Pro
uaimportande voir gde projetconstituécorrespo
Q n
F220%
.6
.2
.5 .9
jection de groupes d'individus d le nombre d'indi us est t, les projections ne permettent rande chose. Il est alors recommer les centres de gravité des gros pour voir si les varia
ndantes sont liées à l'analyse.
vid
69
F2
40%
.7 .8trop plus andé upes bles
Le schéma suivant représente la projection des centres de gravité des groupes constitués par classe d'âge sur un échantillon de 1000 ménagères. Prenons, par exemple, les ménagères âgé n ait queCh
alculer la
chacun des groupes.
es de 18 à 24 ans. Supposons qu'il n'y e 97 dans l'échantillon de 1000 personnes.
acune d'entre elles a une projection sur le premier facteur, soit F1 (i). la projection du centre de gravité de la classe est donnée par :
Toutes les autres coordonnées sont
obtenues de la même façon. Il faut cependant, contrôler la dispersion des projections autour des centres de gravité. Avant, par exemple, de conclure que l'âge est très important en liaison avec le premier facteur (et pas avec le second), il est nécessaire de c
)(971 197
1 ii
F∑
matrice des variances-covariances interne à
=
F220%
* 65 ans et plus * 45/54 ans
* 35/44 ans * 18/24 ans
F1
40%
* 55/64 ans
* 25/34 ans
70
16 ménagères âgées de 18 à 24 ans ont été projetées dans le plan (F1 et F2). Les projections données dans les figures ui antes ne p rmettent pas les mêmes
conclusions. La distribution de la figure se trouvant à gauche permet d'affirmer que la projection du centre de que sa position dans le plan factoriel peut conduire à une interprétation solide; il n'en va
t pas de mê la distributide la figure de droite.
s v e
gravité a un sens et
évidemmen me pour on
Si chacun des groupes est concentré à proximité de son centre de gravité, alors l'interprétation d'une liaison entre l'âge et le premier facteur est fondée. Cela revient à essayer d'interpréter les facteurs, ce qui est aussi le but de la projection des variables initiales.
. . . .
F220%
F220%
. . . . . . . .18/24 ans
. . . . . . . . . . .18/24 ans . . . . . .
F1 40%
F1 40%
. .
71
• Projection simultanée des individus et des variables our déterminer qu l t
es groupes, il serait intéressant de projeter à a e grap individus ou ravité ) t s variables initiales. I e que l'éc e
représenter les variables est arbitraire et que
pas de sens. Seu dir n qui repréles
P es variables séparenell l fois, sur le mêm hique, les( les centres de g
lede certains groupesl faut faire attentione
c pendant au fait helle permettant d
la proximité d'une variable et d'un groupe n'a le la ectio s nte e
coefficients de corrélation est importante.
72
X
- 1
35,44 ans .
1 F1
40% 1
1
+
X'
Sur ce graphique, deux échelles différentes ont représentées. Pou première, X1 a l'air roche du centre de gravité des ménagères gées de 35 4 ans. Mais p la secochelle, X'1 (qui n'est autre que X1) est eaucoup plus éloignée. La proximité entre X1 t le point (35/44 ans) n'a pas de sens alors ue la proximité de la direction commune de 1 et X'1 avec ce point en a une. Modalités d'application
l'information apportée par l'ensemble de ces variables, d'autre part de découvrir, quand ils existent, les variables latentes sous-jacentes aux
d'analyse permet de sélectionner par celles qui interviennent le plus dans la description du phénomène étudié. Il est, en
s r lap
à 4â our nde ébeqX
Les domaines d'application de l'analyse factorielle sont extrêmement vastes. Les principaux types d'application seront les suivants.
1- Extraction et interprétation des facteurs
Une analyse factorielle permet, d'une part, de structurer les variables initiales pour construire un résumé de
variables initiales et de les interpréter. 2- Structuration des variables initiales Ce typemi un ensemble important de variables
73
effet, possible de ne conserver pour des
ne les var l
);
omportement d'achat et
analyses ultérieures que les variables initiales fortement corrélées avec les facteurs les plus importants.
Enfin pour une bonne application de la méthode, certaines précautions doivent être prises, en particulier en ce qui concer
iab es de départ : • Si les échelles sur lesquelles sont
mesurées les variables sont très différentes, il est bon de centrer et de réduire les variables (en effet, la variance de chaque variable intervient et les variables présentant les variances les plus fortes vont être "avantagées" dans l'analyse
• Les variables introduites dans l'analyse doivent être comparables : il n'est pas justifié d'introduire à la fois des variables d'attitudes, de csocio-économiques. Les axes factoriels obtenus risquent fort de n'avoir aucun sens.
74
CHAPITRE II alyse factorielle des correspondances
(A.F.C)
Objectif : A.F.C.
L'an
1-L' vise à traiter l'information
ontenue dans un tableau de contingence ou e dépendance relatif à deux ensembles de ature quelconques.
On peut définir une correspondance entre eux ensembles finis I et J par la donnée 'une loi de probabilité Pij sur le produit I*J.
mais seulement de la distribution des fréquence empiriques fij observée sur une opulation concrète E.
. es éléments de ces deux ensembles sont
pon
cdn
dd
Dans la pratique, on ne dispose pas de Pij,
p
Les éléments ou les groupes à étudier sont ici en correspondance, c'est-à-dire ils présentent des relations entre eux.
Ainsi, on peut, par exemple, étudier la correspondance entre les catégories socio-professionnelles et les principales maladiesL
dérés, CAD que le nombre de malades est différent pour chaque maladie. Ces
75
fréquences de répétition s'interprètent facilement en termes de probabilités.
Le tableau de dépendance peut donc être représenté dans un espace approprié par un
Résumé : L'AFC a pour objectif d'étudier la
nuage de points affectés de probabilités.
proximité et la dispersion des différents points du nuage entre eux (les individus, les variables ou les deux à la fois).
2- Position du problème
a. Données brutes Considérons un tableau à double entrée,
où les lignes représentent les n éléments (les ind
bles) d'un ensemble J en correspondance avec I.
tout couple (i,j) ∈ à I*J (CAD l'in s 'une colonne j) est associé un nombre positif kij. Soit donc k un tableau de fréquence (absolues ou
ividus ou les observations) d'un ensemble I et où les colonnes représentent les m éléments (les paramètres ou les varia
I = (1,……….i,….n) l'ensemble des observations;
J = (1,……..j,……….m) l'ensemble des variables.
Ater ection d'une ligne i et d
relatives) d'association de données.
76
∑
1 .
.
. i
.
.
. ∑ k
Ensemble J (variables ou paramètres)
J
I 1……………………j………………………………m ∑
1 2 . . i . . n
. . .
………………………kij…………………………….. . . .
∑ k
Soit matriciellement :
K =
K ou X = ensemble I (individus ou observations)
⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎥
⎦⎢⎢⎢⎢⎢⎢⎢⎢⎢
⎢
⎣
=
nmknjknk
imkijkikXouK
.......................1
.........................................
.................................................................1
⎥⎥
⎢⎢
.........................................
.........................................⎥⎤
⎢⎡
mkjkk 1............1............11
77
L'élément ij ou Xij représente la mesure param tre j pour l'individu i.
b. ransformation des données ni
On effectue certaines modifications sur les données avant l'analyse, car on veut comparer les profils (com ortements) des gnes et des colonnes et non les nombres
On note :
kdu è
T si tiales : les p fils ro
plibrutes.
∑∈∈
=
∑∈
=
∑∈
=
JjIinijnet
Iinijjn
Jjnijin
,..
.
.
Le tableau des profils des lignes et alors le suivant :
⎟⎟⎟⎟⎟⎟⎟
⎟
⎠
⎞
⎜⎜⎜⎜
⎜
⎝ .....
.....
.1
......
.........
nnnmn
nnnjn
nnnn
iii
m
⎟⎟⎟⎟⎟⎟⎟⎟⎟
⎜⎜⎜⎜⎜⎜⎜⎜⎜
= ........1............
.1....
.1....
.1
nipn
nijn
nin
nnn
IK
⎜⎛
111 nijnn
n*m ⎜⎜
78
Et le tableau des profils des colonnes est le suivant :
N pers villes et villages sur leu lieux de vacances, on obtient un tableau K ou X ayant la forme suivante :
Lieu de vacances
Ainsi donc, dans l'enquête où l'on interroge onnes réparties dans nr m
1…. . …2 . . …. j . ………………m
Localités d'origine 1 2 . . i . . N
. . . . . . . . …………… nij. . . ………. ….. . .
ni.
n.j
⎟⎟⎟⎟⎟⎟⎟
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
mnnmn
pnipn
pnpn
nnn
nnn
nin
nnn
.....
.....
.1
......
......
......
......1.1....
1.1....
1.11
⎟⎟⎟
⎜⎜⎜
jnnj
jnij
jnj
nmjX.
.....
.....
1*:
K =
79
possibles :
Le nombre n.j
proviennent de la localité
t le tableau des profils des lignes. Chaque ligne de ce tableau représente les proportions d'individus de la localité i ayant choisi les d érents lieux de vac
3- Principe de la Soient les ensemb
haut. Si au lieu de considérer le tableau des données brutes et le tableau des fréquences, on s'attachait plutôt au caractère probabiliste de ces données, on aboutirait à un nouveau
On a distingué m lieux de vacances Agadir, Alpes, Oukaimden….. etc.
La dernière, CAD la mème correspond à la masse des gens qui ont déclaré ne pas être partis en vacances.
ni. reflète l'importance de la localité d'origine i et le nombre l'importance du lieu de vacances.
Si le nombre ni. est grand, CAD:si beaucoup de personnes interrogées
i (région Rbatie par exemple), la ligne i du tableau risque de jouer un rôle important dans l'analyse.
Pour atténuer les disparités entre taille des localités d'origine, on analyse plutô
i
iff ances.
méthode les I et J définis plut
tableau : celui des correspondances aléatoires des données.
80
La probabilité associée au terme Kij est :
81
Les lois de probabilité marginales sont de
même :
Pij est donc une estimation de la
probabilité d'association de (i*j).
D'où le tableau des correspondances ou des probabilités associé au tableau des observations suivant :
Elles vérifient les propriétés :
..kij
ijp =⇒
1 1)*(),(
..
k
n
i
m
j ijkij
ijpijknmji
ksi∑
k
=∑=
=⇒∑∈
=
mjavecn
i ijpjP
jniavecm
j ijpiP
,......,11.
,......,11.
=∑=
=
=∑=
=
∑=
==
=∑=
ellesconditionnésprobabilitm
j jpi 11 .1 . =∑==
=
n
i kjk
kijk
jP
ki
j kij
iP
1 ..
.
...
...
1 ...
np ;1=∑
km k
i
J I
1…. . …2 . . …. j . ………………….…m ∑
1 2 . . i . . n
.
.
pi.
. . . . . . . …………… pij. . . ………. ….. ……. . .
∑ p.j 1
Le tableau des observations peut être ainsi représenté par variant de 1 à n). Li=(Pi1/Pi., P i. ……….. Pim/Pi.)
n points Li (ii2/Pi. ,….., Pij/P
Dans un espace à mLi
Pi. .
dimensions Rm, chaque point étant pondéré par la probabilité
On obtienéré a
A(I) = ⎨L
Ensemble I
* Li * * *
pond s ssoi; P
* Pi. * * . * * n points
) P1.
Ensem Pi.
Pn.
ble I
L1
L2
.
.
Li
Ln
t alors le nuage de poid sciés à l'ensemble I (indiv u
i.⎬
82
A(1
ints ) :
4- La distance : le X2 du tableau de contingence
e passage de i à i' (ou de i' à i) a peu d'influences sur la structure de l'ensemble des paramètres J. Cette proximité est traduite par une distance, notée d2(i, i'
a distance doptée en A.F.C.la roximité o la similarité ent
dite d X entre deux distributions istance associ e à Pij). Cette distance entre deux séries de
équences se p e :
Nous savons que la proximité des projections concerne les profils des points-
s bs Avariables ou des point -o ervations (C D Pij/ ou P /P ). Il reste à adopter une Pi. ij .jdistance.
Deux individus i et i' de l'ensemble I seront dits proches si l
). L a pour définir
re i et i' est lap u2distance u
(d é
fr résent comme suit
jiiP
jietijiPijP
'.'
'
.αα ==
P
i
2
.
mj P
jiP
iPijP
jPiid1 '
'
..1)',(
2∑=
⎟⎠
⎜⎝
−=⎟⎟⎟⎟⎟⎞
⎜⎜⎜⎜⎜⎛
posantEn :
83
Cette distance s'écrit sous forme matricielle :
La distance
quadratique. i a
pour coordonnées :
d2(i, i') apparaît ainsi comme la distance engendrée par une forme quadratique définie positive de matrice D, dans un espace vectoriel euclidien.
Par normalisation des axes, il est possible de rendre unitaire la matrice de la forme
Dans ces nouveaux axes, l'individu
⎟⎟⎟⎟⎞
⎜⎜⎜⎛
⎟⎟⎟⎞
⎜⎜⎜⎛
−××−= ijDijiid '
'
')'
,(2
αααα⎠
⎜⎝
⎟⎠
⎜⎝
⎟⎠
jiji
⎟⎟⎞
⎜⎜⎜
⎝
⎛
⎟⎟⎟⎟⎟⎟⎟⎞
⎜⎜⎜⎜⎜⎜⎜⎛
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
−−=jiijjP
P
jiijiid '.1
1.1
'
')',(2
αααα
⎟⎟⎟
⎠⎜⎜⎜
⎝
encoresoitmP
:.
1
;.
1ij
jPijBavec α=
;..,,.........,.......,2,1 imBijBiBiBiM = ⎟⎟⎠
⎞⎜⎜⎝
⎛
84
..
1:iPijP
jPijBencoreou =
85
,
La distance entre deux points Mi et Mi' est, de la m
La pondération du point i étant toujours Pi.Le nuage de points associés à l'ensemble I
apparaît comme la donnée de n points Michaque point Mi étant pondéré par la probabilité Pi.
Si on désigne par B(I) ce nouveau nuage de points :
Rm
ême façon :
* Li * * * * Pi. * * . * * n points
B(I )= ⎨Mi ; Pi.⎬
B(I)
Soit encore : ⎠⎝
Le nuag B(I) est ainsi dans un hyperplan d'équation :
Et finalement :
1 '' = ⎟⎜j jiijii
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎛
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜ −−=
jiBB
jiBijB
iMiMd '
'
')',(2
2),(2
∑ −= ⎟⎟⎟⎞
⎜⎜⎜⎛m BBMMd
⎜⎛
⎜⎜
⎝ij
⎝
e
11 . =∑= ijB
j JPm
En effet, d'une part :
D'autre part :
1..1
1.1
1 .1==∑
==∑
=∑=
= iPPimj ijP
iPmj iP
ijPmj ijα
∑=
∑= j ijjj ij 1 .1
=m BPm α
1=∑ Bm
P1 .= ijj J
86
5- La détermination du nombre d'axes
coo
faut projeter les points du nuage sur des axe ecteur unitaire (U1, U2, miser la somme des
observations aux axes factoriels :
factoriels Il s'agit d'extraire les axes factoriels du
nuage de points-observations Nm dans Rm, de rdonnées :
87
Ils (F1, F2,…..) de v….) de façon à maxi
carrés des distances entre les projections des points-observations sur ces axes factoriels, ou ce qui revient au même, à minimiser la somme des carrés des distances des points-
Soit graphiquem
ent :
Jjj
Pi
Pij
P∈∀
..
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
∑=
−−2
1)(.min' n
i idiPquantitélaimiseràdireàestc
G F1Bi1
Xi1
Bi2
Xi2
Soit on maximise cette distance
Soit on minimise di1 di2
cette distance
Les axes factoriels sont donnés par les vec
ge pour le fac
e % varie entre 0 et 1 (la valeur 1 lorsque
e 2 axe factoriel à reten
teurs propres de la matrice des variances-covariances des variables.
Le facteur lié à la plus grande valeur propre λi sera le premier axe factoriel. C'est le facteur le plus explicatif de la dispersion du nuage de points-observations.
On calcule donc le pourcentage d'explication de l'inertie du nua
teur F1. C
le point est situé sur l'axe factoriel). L ème ir sera celui qui
est associé à la 2ème plus grande valeur propre, et ainsi de suite.
Remarques : 1. Les axes factoriels (ou les facteurs) sont
cn corrél eux;
. La somme des valeurs propres (∑λ )
qu'on a étudié les
rande relation entre les facteurs de Rm et les facteurs
orthogonaux deux à deux et sont donno és entre
2 iqui donne l'inertie totale du nuage de points est appelée "trace";
3. De la même façon proximités entre n points de Rm, on peut étudier les proximités de m points (CAD les variables) dans Rm;
4. En réalité, il y a une g
88
de Rn. en effet, l'objectif même de l'A.F.C. est de représenter, sur le même graphique, dans le plan de deux
le I et les
premiers axes factoriels, les proximités entre les éléments de l'ensembproximités entre les éléments de l'ensemble J.
89
CHAPITRE II L'analyse factorielle des correspondances
(A.F.C) Cas pratique N°1
n veut étudier la répartition des âges d'une population à l'intérieur de l'audience de chacune des radios.
n ordonnées figurent les effectifs d'auditeurs dans l'échantillon.
Tableau 1 :(pourcentage en colonnes sur 1344 citations)
RADIO AGE
FR. INTER
EUROPE1 RADIO. VILLE
HORIZON
O
E
15- 20 ANS 5 8 23 30 20- 30 ANS 18 10 31 38 30- 40 ANS 23 23 23 21 40- 50 ANS 17 21 12 7 50- 60 ANS 14 16 4 2 + 60 ANS 23 21 7 2 TOTAL 100 100 100 100
RADIO AGE
EPOQUE VILLE. INFO
RMC. RTL
MUS. PAROLES
TOTAL
15-20 ANS 7 3 7 2 13 20- 30 ANS 31 8 16 10 22 30- 40 ANS 22 12 22 23 20 40- 50 ANS 12 15 22 12 15 50- 60 ANS 13 27 20 27 12 + 60 ANS 13 5 37 15 24 1TOTAL 100 100 100 100 100
dios. A radio Ville et
Dans ce tableau, on met en évidence les différences d'une tranche à l'autre à l'intérieur de chacune des ra
90
Hos 50-60 ans.
Da e
tre la str e cel'intérieur de chaque radio.
ableau différence oute et st ure de l'audience
FR. INTER
EUROPE1 RADIO. VILLE
ORIZON
rizon les 20-30 ans sont les plus nombreux, à ville Info ce sont le
ns un second tableau, on peut fairapparaître les différences d'écoute d'une radio à l'au et ucture d l'audien à
T 2: d c'é ruct
RADIO AGE
H
15-20 ANS 21 60 66 13 20- 30 ANS 28 82 82 48 30- 40 ANS 45 63 64 6140- 50 ANS 46 3 6 59 3 150- 60 ANS 38 10 4 45+ 60 ANS 19 5 61 58TOTAL 2 65 218 69 275 2
RADIO AGE
EPOQUE VILLE. IN
RMC. RTL
MUS. PAROLES
TO FO
TAL
15-20 ANS 2 176 5 8 1
20- 30 ANS 21 6 19 5 291 30 - 40 ANS 15 17 23 6 29440 - 50 ANS 8 11 26 6 20550- 60 ANS 9 20 23 13 162 + 06 60 ANS 9 18 18 18 2TOT AL 67 74 117 49 1334
Il apparaît ainsi que les audiences de Ville Info et Horizon diffèrent nettement par rapport à la répartition des âges dans l'échantillon. Horizon attire les jeunes, alors
91
que Ville Info a beaucoup plus de succès armi les plus ancie
e icu s ounan les pourcen en lignes et
san es chi-deux. v ons si q les tes e f rielle mette de mett en ce carts ne m re beau up
nthé ue. Un eule c e peut s fire g s n
r LE TES S ST TISTI UESsts atistiq es in ent d s queles sulta établ sur l'é antillêtr ppliq à la pulati totaluns porte sur 'exact de dion n po enta ou en oyenn
dent es h thès répon nt as : " a….
p ns. Cett part larité e t retr vée en
raison t sur tages en analy t l
Nous err aus ue card'analys acto per nt re évidence s é d'u aniè coplus sy tiq e s art uflà où
cessai8 diaes.
ramme bâto s seraient né
I - S T A Q Les te st u diqu an lle
mesure peuvent
rée a
ts ués
is po
chon
on e.
Les nt l itu es observat s e urc ge m e. Ils fon l ypo es da ux énoncé il y ";
Les autres visent à tester l'existence l'absence de rapports (relations, correspondances, influences) entre variables ou questions. Ils s'appliquent aux hypothèses énoncées sous la forme :" Si….Alors".
On peut noter que ces tests n'ont de sens que si les données auxq
ou
uelles on les applique sont issues d'un sondage aléatoire.
92
1. Intervalles de confiance et comparaison de fréquences ou de moyennes
La théorie de l'échantillonnage nous enseigne que l'estimation est le procédé par lequel on passe d'une connaissance certaine dans l'échantillon à l'estimation incertaine du même phénomène dans la population totale.
Le logiciel Sphinx permet de d'obtenir des indications sur la qualité de ces estimations. On peut, ainsi, déterminer des intervalles de confiance pour une taille d'échantillon donné. Au lancement des tris, le Sphinx envoie les messages suivants:
- Effectif inférieur à 30 : "nombre d'observations très réduit"
- Effectif compris entre 30 et 40 : "Avec….observations, l'erreur d'observation est importante : estimation très imprécise"
- Effectif compris entre 40 et 80 : "estimation imprécise". Tableau 3 : Analyse des tris à plat-TEST STAT
3 Taux d'écoute fourchette à 95%
1 radio.ville 280 23% 21%< <25% 2 horizon 224 19% 17%< <21% 3 ville.info 75 6% 5%< <7% 4 époque 67 6%
Estimcompde fréqu
ation et araison
ences 5%< <7% 5 musica 34 3% 2%< <4% 6 couleur 3 18 2% 1%< <3% 7 paroles 16 1% 0%< <2% Total OBS 1192 L'écart entre les fréquences est significatif
93
94
Avec : N : taille de l'échantillon ou de la strate
: fréquence dans l'échantillon % f m s : Tabl
Valorisation monocritère
: moyenne dans l'échantillon % écart-type
eau 4 :VALORISATION CROISEE-TEST STAT suivant le critère coût Vacances
Modalité Effectifs Moyennes Intervalle de confiance à 96% 1 Hôtel 3/4* 39 5 < 8237 709 m < 9380 2 Hôtel 2* 100 8 2 < 606 547 m < 6664 3 Meublé 285 5549 4 < m495 < 6144 4 Ensemble 718 57 0 < m 47 446 < 5054 5 Collectivité
30 39
36
2849 < m < 4429
6 Résid.second
119 3532
3127 < m < 3937
7 Parents amis 135 2541 2250 < m < 2832 Différence non significative à 95%
Dans le premier tableau, on été demandés l'affichage des intervalles de confiance, puis la comparaison des fréquences 1 et 2. On vérifie ainsi qu'il est correct d'annoncer Radio Ville
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥
⎦
+−
+−
NsmN
sm
NfN
2*96.1
2*96.1
*96.1*96.1⎤
⎢⎡ −− fffff )1()1(⎢⎣
en tête. La probabilité pour que la différence s vé ge
nfiance di ut tirer
du fait que Musica evance Couleur 3 de 16 auditeurs. La
les intervalles de confiance se chevauchent.
dee sur tour Ont
tions s hébe ent du de se can près c
modes d'hébergement dans l'ordre nt leu oût, l
confiance à été demandé. Il indique qu'en le t de ances
chaque mode à l'intérieur de la fourchette t mo e ob
l'échantillon. on constate après vérification
ob er e ne soit due qu'aux aléas du sondan'est que de 5%. Les intervales de cosont sjoints. En revanche, on ne peaucune conclusionddifférence n'est pas significative,
Le uxième exemple concerne une enquêt le isme. été croisés les ques ur l' rgem répondant et le coût s va ces. A lassement des
décroissa de r c 'intervalle de
moyenne, coû s vac se situe pour
encadran la yenn servée dans
(comparaison de moyenne) qu'on ne peut pas dire que les vacances en collectivité reviennent plus cher qu'en résidence secondaire. L'écart de 107 dh n'est pas suffisant pour conclure dans ce sens. Le nombre d'étoiles des hôtels a en revanche une influence significative sur le coût des vacances. L'écart est de l'ordre de 2000 dh, les intervalles de confiance sont disjoints.
95
2. Le Chi-deux pour analyser les écarts entre deux distributions
Les tests de comparaison de fréquences et de moyennes consistent à examiner l'écart entre deux de ces grandeurs. S'il est important, on décidera que l'une est plus grande que l'autre. dans le cas contraire, on ne prendra pas de risque de donner un sens à une différence qui n'est peut-être due qu'aux aléas du sondage.
Pour comparer des distributions, on raisonne en examinant un écart total (somme d'écarts partiels). C'est ce qu'on fait pour analyser des tris à plat ou des tris croisés.
On faisant la somme, les écarts positifs peuvent s'annuler par les écarts négatifs. Pour éviter cela, les statisticiens élèvent les différences au carré, d'où le nom du test du Chi-deux (x2) (carré des écarts).
* Chi-deux appliqué à un tri à plat A ce niveau, la définition des effectifs
théoriques peut se faire : Avec "équi-répartition" : on considère une distribution où toutes les modalités
-
ont le même effectif; - Avec "Fixer les effectifs théoriques" :
l'utilisateur peut entrer la répartition de
96
son choix (sur la base des faits ou réalités).
Exemple 1 : prenons le cas d'un échantillon où il y a 55% de femmes et 45% d'h
la rép
effectifs est fixé, l'autre s'en déduit.
(657-59que sous les hypothèses d'un tirage aléatoire, il y a soit qudeux p é).
qu'il yDoit-orésultats obtenus? Après avoir indiqué la rép
che. Cela veut bien montrer que la diff
ommes. Peut-on, sur cette base, dire que hommes
et femmes sont inégalement présents dans la population? Cela revient à comparer à
artition 50-50 (équi-répartition) qui devrait donner 596 femmes et 596 hommes. En réalité, il y a 61 hommes en plus et 61 femmes en moins. On dit qu'il n'y a qu'un seul degré de liberté car l'un des
Le Chi-deux est égal à 12 soit 6)2/657+(535-596)2/535. Ceci signifie
1% de chances pour qu'un tel écart ne e le fait du hasard. (voir la table de chi-our 1 degré de libert
En réalité, nous savons par le recensement a 53% de femmes et 47% d'hommes. n, dans ces conditions, s'étonner des
artition théorique (53%, 47%), le message "Ecart Non Significatif" (chi-deux = 2, p =84%) s'affi
érence de 25 hommes en plus et 25
97
femmes en moins peut très bien s'expliquer par les effets du hasard (16%).
Peut- n alors prendre le risque pour considérer que la procédure d'interrogation introduit un biais systématique? On considère, en général, qu'en dessous d'un seuil de 85%, la probab
o
ilité de dire vrai est tro
ce plus forte à éco
zon. Le chi-deux est
: "éc
p faible. Exemple 2. Considérons le comportement
d'écoute de la strate "femmes". Peut-on dire que le comportement des
femmes diffère de celui de la population totale? Ont-elles une tendan
uter telle ou telle radio? Pour le savoir, il faut comparer la
distribution réelle (25%, 20%, 6%,….), caractérisant le comportement des femmes à la distribution obtenue sur l'échantillon total de toute la population (23%, 19%, 6%….): voir tableau 3.
D'après le tableau des résultats, le Sphinx affiche les écarts aux effectifs théoriques et calcule le chi-deux. On attire l'attention du lecteur donc sur les écarts les plus importants : 66 et 53 auditrices de plus pour Radio Ville et Horide 10 pour 7 degré de liberté. Le message correspondant s'affiche
art peu significatif". Le seuil de 85% est dépassé. Les chances pour que cet effet ne soit dû qu'au hasard sont non négligeables (12% dans ce cas).
98
uestion filtré par SEXE : FEMININ) Ecarts aux effectifs théoriques RADIO.VILLE 164 25% 23% 66 HORIZON 134 20% 19% 53 EPOQUE 37 6% 6% 11 VILLE INFO 46 7% 6% 20 MUSICA 24 4% 3% 11 PAROLES 12 2% 1% 8 COULEUR 3 8 1% 2% - 1 otal 657 cart peu significatif
chi-deux = 10 p = 88% 7 degrés de liberté)
Chi-deux
Fixer les effectifs théoriques
Distribution théorique : 53% 4Données recensement
7%
tat
Question
n°27 sexe Ecart aux valeurs théoriques
1féminin 657 55% 61 2 masculin 535 45% -61 total 1192 100% Ecart significatif (chi-deux = 12 p = 99%)
Q( 1234567tE(
Equi-répartition
DistribHypoth
ution théorique : 50% 50% èses égalités des effectifs
STRATE SEXE : FEMININ
CHI-DEUX
FIXER effectifs théorique
Distribution théorique : Taux d'écoute sur échantillon total
Tableau n°5
Question n°27 sexe Ecart aux valeurs théoriques 1 féminin 657 55% 53% 25 2 masculin 535 45% 47 - 25 Total 1192 100% Ecart non significatif (chi-deux = 2 p = 84%)
99
∑= ⎠⎝erx
=
−⎟⎟⎞
⎜⎜⎛
iietiet
1
2
m d grés d iberté
*m si question type 2 ou
i réels de la modalité i
m
m2i
no bre e de e l : c'est *m-1
3 et total observation
et effectifs théoriques de la modalité i eri effectifs
nombre de modalité
D'après cet encad b d ésde i rté est égal a bre e utableau moins une, sauf s'il s'agit d'une
répons ltiple t esréponses sont effectuées par rapport au nombre total d'observations. Dans ce cas, en effet, le nombre total de citations n'est nullement contraint : la connaissance des
m-1 premières modalités ne rminer ceux de la dernière.
Chi-deux appliqué à un tri croisé
ré, le nom re de egr l u nom de lign s d be
question à es mu s don l
effe tifs descper et pas de détem
*
onsidérons toujours l'exemple de l'analyse du comportement d'écoute et étudions un tableau croisé. On peut comparer
C
100
le taux d'écoute des femmes à celui des hommes. Les femmes ont-elles le même
i les femmes ont le même comportement que les hommes, l'audience de chaque radio devrait comprendre une proportion égale
r pour chaque radio, Pour faire ce calcul, il faut connaître,
ie et la rti s dans
e tableau obtenu correspond à une répartition proportionnelle des sexes dans
locales, il devrait y avoir parmi les 280 au ortion des
comportement que les hommes? S
d'hommes et de femmes. Si cela est vrai, la règ e d ois devrait donnel e tr
le nombre d'auditeurs des deux sexes.
l'au nce totale de chaque radiodrép tion hommes/femmeal'échantillon.
C
l'audience de chaque radio ou des comportements d'écoute pour chacun des sexes. C'est donc le tableau des effectifs théoriques, celui auquel on s'attend dans l'hypothèse d'absence d'influence (hypothèse nulle) du sexe sur l'écoute.
La première étape consiste donc à calculer le tableau des effectifs théoriques. Si le sexe n'a pas d'influence sur l'écoute des radios
diteurs de radio ville, la même prop femmes et d'hommes que dans
l'échantillon, soit respectivement 425/714 et
101
289/714. On en déduit la répartition théorique : 167 femmes et 113 hommes.
Il s'agit, ensuite, comme pour le tri à plat, de
portance de ces distorsions. On y
biais du Sphinx. Il faut de ce fait se
calculer le chi-deux comme la somme des carrés des écarts (effectifs réels moins effectifs théoriques). On divise par les totaux de chaque cellule pour éliminer l'effet de masse : le déficit de 3 auditrices sur Couleur 3 est relativement plus important que le même écart observé sur Radio ville.
Le tableau des contributions au chi-deux (% chi-deux partiel/chi-deux total) rend compte de l'im
voit qu'elles sont les plus fortes dans l'audience de Musica, Paroles et Couleur 3. Les écarts sur ces radios représentent 87% (12 + 18 + 11 + 16 + 12 + 18) du chi-deux total.
Le chiffre indique le % du chi-deux partiel au chi-deux total, le signe indique le sens de l'écart.
• Le + signifie qu'il y a excès d'effectifs par rapport à l'indépendance. Dans notre exemple, Musica attire plus les femmes;
• Le signe - indique un déficit. Paroles "repousse" les hommes.
Le tableau des contributions au chi-deux s'affiche automatiquement par la
102
méfier de la portée des conclusions qu'il suggère. Les écarts sont-ils suffisamment gra
que la valeur du chi
ant la valeur P, l'un des messages sui
85% DEPENDANCE PEU
*
R
nds pour conclure à l'existence d'une influence se traduisant par des "excédents-attractions" ou des déficits-répulsions" entre modalités lignes et colonnes?
La réponse est souvent fournie par l'application du test. Il consiste à déterminer quelle est la probabilité p pour
-deux ne soit pas l'effet des simples aléas du sondage. Pour un chi-deux donné, cette probabilité dépend de la taille du tableau (ou nombre de degrés de liberté). En effet, plus les cellules sont nombreuses, plus de petits écarts sur chaque cellule peuvent conduire à un écart total important.
Suivvants s'affiche : * P > 95% DEPENDANCE SIGNIFICATIVE * 95% > P <
SIGNIFICATIVE P < 85% IL N' Y A PAS DE DEPENDANCE SIGNIFICATIVE
EMARQUE
Il ne s'agit pas, à ce niveau, d'indications à suivre. L'utilisateur ou le statisticien peut en décider autrement s'il le juge justifié.
103
Dans notre cas, la réponse est "non". Le chi-deux est trop faible et il y a près d'une chance sur deux pour que les écarts d'effectifs ne tiennent qu'a l'effet sondage (la probabilité de dire vrai n'est que de 55%). L'examen du tableau des effectifs le confirme intuitivement.
peut donc être opportun de rés
n tabla s
Nous concluons donc que finalement le sexe n'a pas d'influence sur le comportement d'écoute. l'hypothèse d'indépendance est confirmée.
En théorie, le test n'est influant et concluant que si les effectifs des cellules du tableau théorique sont au moins égaux à 5. L'écran du Sphinx rend compte de cette remarque en indiquant le nombre de cellules d'effectifs inférieur à 5. Il
umer l'information en regroupant des lignes ou des colonnes.
En résumé, la démarche d'analyse d'uale u croisé utilisant le test du chi-deux est
uivante :
1. Formulation de l'hypothèse de dépendance : Si le sexe Alors L'Ecoute (de l'hypothèse symétrique d'indépendance, dite aussi hypothèse nulle);
résultat du test : acceptation de2. Examen du l'hypothèse si la dépendance est significative, refus dans le cas contraire : "Il n'y a pas de dépendance significative";
3. Analyse des écarts guidée par l'examen des contributions au chi-deux si et seulement si l'hypothèse nulle est rejetée.
104
II- DIFFICULTES D'INTERPRETATION DES TESTS
STATISTIQUES Les tests n'apportent qu'une information
statistique, relative aux fréquences ou moyennes considérées. Le sens qu'on leur attribue dépend de la nature et du contenu des informations traitées. L'oublier peut conduire à de grossières erreurs d'interprétation.
Le tableau n°7 retrace l'exemple d'une étude qui cherche à savoir si le mode d'interview a une influence ou pas sur l'âge des personnes consultées.
L'hypothèse de départ est la suivante : "le mode de contact a une influence sur l'identité du répondant". Il n'est cependant pas toujours facile de choisir le bon sens pour énoncer l'hypothèse.
Parfois, des tableaux croisés traduisent en fait des influences doubles. A l'homme d'étude de trancher et de déc
te 96% du chi-deux total. C'est-à-dire que l'écart entre le tableau réel et le tableau théorique vienave lemosur
ncorrespondant aux non réponses et en appliquant le test du chi-deux au nouveau tab ea ableau n°7), on
ider selon le contexte ou les perspectives d'action. Ainsi, l'examen détaillé des chi-deux partiels du
tableau 7 montre que la cellule non-réponse/non-réponse représen
t surtout du fait que 6 questionnaires ont été saisis code non-réponse pour les deux variables (âge et c
de d'interview). ces questionnaires n'apportent rien e phénomène étudié.
supprimant les lignes et les colonnes lE
u (voir toujours tl
105
parvient à la conclusion inverse de la préd'influence sur l'âge des répondants".
test de correspondances
lule à l'écart total, ind
cor
montrer, les jeunes ont des
cédente : "le mode d'interview n'a pas En
raisonnant sur le premier tableau, on attribuait d'une manière abusive au mode d'interview un effet qui ne se manifeste en fait que sur les quelques questionnaires comportant une non-réponse.
JUGEMENT PARTIEL PLUTOT QUE GLOBAL : le chi-deux, un
L'examen précédent nous montre qu'il ne suffit pas de prendre en considération le chi-deux total. Il faut aussi considérer la contribution de chaque cel
ication fournie par le pourcentage entre chi-deux partiel et chi-deux total.
Le chi-deux est en réalité un indicateur de respondance. Dans le tableau n°8, il ne
suffit pas de dire que l'âge a une influence sur les habitudes d'écoute. Cela n'est juste que pour certaines tranches d'âge et pour certaines radios. Il faut, en plus, pouvoir spécifier à quelle tranche d'âge correspond telle radio.
En fait, comme l'analyse des pourcentages en lignes suffit à le
habitudes d'écoute différentes de la population totale et des plus âgés : ils sont proportionnellement plus nombreux à écouter Horizon ou Radio Ville, et moins
106
nombreux à écouter les radios nationales. On en conclut qu'ils sont attirés par les premières et qu'ils délaissent les secondes.
Quant aux 30-40 ans ou aux 50-60 ans, ils répartissent leur écoute à peu près à proportion de l'audience globale de chaque radio. Leur comportement ne peut être distingué de celui de l'ensemble de la population. Il en va de même pour les auditeu
C'est ce que traduit bien le tableau des contributions au chi-deux. Les lignes ou colonnes pour lesquelles les contributions au chi-deux sont les plus fortes (en gras) s'écartent du comportement moyen. En effet, certaines tranches d'âge privilégient ou délaissent certaines radios, mais ce n'est vrai ni pour toutes les tranches d'âge, ni pour toutes les radios.
rs d'Epoque.
Le jugement global fourni par le test du chi-deux doit donc être précisé par l'examen des contributions au chi-deux et des données de départ (pourcentages, effectifs). Il ne suffit pas d'indiquer qu'il y a dépendance, il faut préciser qu'elles correspondances elle permet d'établir.
107
CHAPITRE II L'analyse factorielle des correspondances
(A.F.C) Cas pratique N°2
L'A.F.C résume l'information contenue dans des tableaux de données, mais aussi elle remplace les diagrammes en bâtons, etc.
Reprenons l'exemple de l'écoute des radios en fonction de l'âge des sujets ou de l'audience.
Sur une carte factorielle, les distances sont facteurs de ressemblance ou de dissemblances. Les concentrations de points définissent des zones opposables les unes aux autres.
Sur la première carte présentée et qui concerne l'exemple cité plus haut, on peut remarquer qu'elle oppose les radios des jeunes aux radios des anciens. Aussi, dans une zone centrale, on voit le regroupement des radios nationales et auditeurs d'âge médian.
ur cette carte, on notera aussi que : les pavés vides représentent les modalités en lignes; les pavés pleins font référence aux modalités en colonnes; la surface des pavés est proportionnelle aux effectifs des modalités considérées
S-
-
-
108
(nombres du tableau initial). On peut
de Epoque et Mus.Paroles est faible (voir le tableau initial de l'échantillon;
oter
originales
ique, on se reportant aux tableaux des
et de forts écarts à l'indépendance. cela s'explique par les chiffres figurant en car ccorre
Les 30-40 ans et ceux qui écoutent Epoque sodire
avancer, à travers la carte que l'audience
elles ont respectivement 67 et 49 auditeurs).
A partir de cette carte, on peut aussi nque :
- A la périphérie, il y a les modalités
Horizon et Radio Ville, les 15-20 ans et 20-30 ans d'une part, Ville Info et Musicoparole, les 50-60 ans et + 60 ans d'autre part.
On peut vérifier cette position périphér
pourcentages déjà vu. Ainsi, pour ces modalités, les structures d'audience et les habitudes d'écoute diffèrent énormément de ce qu'elles sont sur l'échantillon total. L'examen des contributions au Chi-deux confirme ce constat. En effet, ces modalités sont l'obj
a tères gras dans les lignes et colonnes spondantes.
- Au centre, les modalités sans surprises
nt plus près du centre de la carte. On peut , en se référant au tableau initial de
109
pouans ont des habitudes d'écoute voisines de celle e
Modalité ligne proche d'une modalité colconditions sont plus nombreux. Exemple, la propo t e Horizon est plus forte que ce qu'elle rep
forte con
rcentages ou d'effectifs, que les 30-40
s d l'échantillon. - Proximité égale attirance ou
ressemblance
onne : les effectifs qui répondent aux deux
r ion des 15-20 ans dans l'audience d
résente dans l'échantillon total (30% contre 13%, voir le tableau initial). Cette situation est confirmée aussi par la
tribution au chi-deux de le cellule 15-20 ans, Horizon (voir les développement précédents). Le signe + signifie un écart positif traduit sur la carte par la proximité des deux modalité. Horizon attire les jeunes.
On peut procéder de la sorte en ce qui concerne Ville Info avec les 50-60 ans et les plus de 60 ans.
- Eloignement égale répulsion ou dissemblance
Eloignement d'une modalité ligne par rapport à une modalité colonne : signifie une répproIraisonnement peut être fait en ce qui
ulsion. Exemple, les 15-20 ans sont en portion moins nombreux à écouter Ville
nfo que dans l'échantillon total. Le même
110
cH
vérifiée en examinant le chi-dl'importance de l'écart aux effectifs théoriques dan
oncerne les plus de 60 ans par rapport à orizon. Cette explication est
eux partiel : 7% du chi-deux, est
s la cellule Horizon, + 60 ans. Le signe - montre qu'il s'agit d'un déficit traduit sur la carte par des positions très éloignées.
Conclusion : deux modalités lignes éloignées ne se ressemblent pas.
Coefficient et interprétation des axes Le coefficient béta La valeur du coefficient béta figurant en tête de
commentaire papier indique le caractère plus ou moins significatif des écarts à l'indépendance. Ce coefficient varie de la même façon que le chi-deux, mais ne dépend pas du nombre du degré de liberté. Quand il est sup
Si de correspondances Ages mmentaire de la c
érieur à 3, la carte est significative. Dans le cas d'un autre exemple, (Revenu ou CSP *
taux d'écoute), le béta est égal uniquement à 1.4 (voir le tableau ci-contre).
on compare les bétas des cartes * taux d'écoute (co
arte plus haut) et des CSP * Ecoute, on remarque que les correspondances sont plus marquées en ce concerne les âges (béta = 50) que les CSP ( béta = 27). On peut donc, conclure que l'âge de ses auditeurs caractérise mieux une radio que leur CSP. Les revenus semblent n'avoir aucune influence sur les comportements d'écoute. Revenu-Radio (pourcentages en colonnes établis sur 1 124 citations)
111
RAAGE
S
TOTAL
DIO FR. INTER
EUR0 PE1
RADIO. VILLE
HORIZON
EPOQUE
V.INFO
RMC RTL
M.PAROLE
- 4000 6 4 4 7 10 12 4 5 8 4-70 22 00 18 20 25 21 21 32 19 27
7-10 0 29 00 31 24 27 32 25 33 36 22 10-15 27 000 28 34 24 22 26 23 27 24 15-20 9 000 12 8 10 9 12 3 7 11 + 20 0 7 00 7 9 8 6 4 4 5 8 TOTA 100 L 100 100 100 100 100 100 100 100
fait que les mo
imp
Les axes factoriels Dans la carte factorielle suivante qui
concerne Radio * CSP, les oppositions selon l'axe horizontal expriment le
dalités étudiants-écoliers d'une part, les retraités d'autre part, sont l'objet d'écart
ortant. Leurs comportements d'écoute les distinguent du comportement moyen.
Selon l'axe vertical, les ouvriers sont opposés aux cadres supérieurs/professions libérales et dans une moindre mesure aux cadres moyens.
A l'ouest de la carte, on trouve les radios attirant les jeunes (Horizon, etc.), à l'est,
Chi-deux
Analyse factorielle
Il n'y a pas de dépendance significative
(chi-deux = 43.28 p = 84%)
Résultats non significatifs (béta = 1.4)
La carte d'AFC ne s'affiche pas
Retour au tableau de départ
112
celleelles s a A o trouver les radios attirant les
d ce s de cadre . Toutes ces interprétations dépendent du fic t b , ma uss u r t d r itué ar c un es es En ffe l'a e ve ical, s op osi ns ouvriers
rendent compte que de de comportement, tandis qu'on considérant l comporteml'axe horizontal, on restitue 73% de l'information.
Si on veut réaliser des regroupement, on eut dire que la géographie
particulièrement caractérisée par les con
s s a A o trouver les radios attirant les
d ce s de cadre . Toutes ces interprétations dépendent du fic t b , ma uss u r t d r itué ar c un es es En ffe l'a e ve ical, s op osi ns ouvriers
rendent compte que de 10%de comportement, tandis qu'on considérant l comporteml'axe horizontal, on restitue 73% de l'information.
Si on veut réaliser des regroupement, on eut dire que la géographie
particulièrement caractérisée par les con
de de retrretr ités. ités. u nu n rd,ouvriersrd,ouvriers
on on devr et au devr et au
ait ait
susu llelle s s ss
coefcoef ienien étaéta i ai a i di d poupou cencen ageage u u lienlien estest pp hachac dd axax . . e e t, t, sursur xx rtrt lele pp tiotio cadres supérieurs/professions libéralescadres supérieurs/professions libérales ne
des particularités ne
des particularités 10%
es variations dees variations de ent tout le long de ent tout le long de
pp de notre carte est de notre carte est
trastes est/ouest, du nord au sud.
Impact des changements d'un tableau
trastes est/ouest, du nord au sud.
Impact des changements d'un tableau croisé sur la carte d'A.F.C
Suppression de lignes et/ou colonnes Les modifications du tableau initial
affectent largement les résultats de l'A.F.C.
ontre, montre que le béta est trè
Reprenons l'exemple de l'étude qui concernait le mode d'interview et l'âge des répondants.
Le tableau ci cs élevé (90). L'axe horizontal explique la
quasi-totalité des distorsions et rend
113
compte du fait que les questionnaires sans réponse à l'âge n'ont pas été remplis pour le mode d'interview ! L’analyse de dépendance-ind
n impact sur l'âge des rép
êmes conclusions. A ce niveau, la suppression des non-réponses a permis de mieux disperser les points se trouvant au centre de la carte. Mais le béta chute et un seul axe (horizontal) ren
s mo
épendance nous montre que 96% du chi-deux est dû à la cellule non-réponses/non-réponses.
Si on supprime les non-réponses du tableau et l'on désire effectuer l'AFC, la carte ne s'affiche pas. Il n'y a donc pas de dépendance significative (les comportements sont presque analogues), béta est inférieur à 3. Le mode d'interview n'a de ce fait, aucu
ondants. La même analyse appliquée à l'influence
du mode d'interview sur le sexe du répondant ne conduit pas aux m
d compte et restitue toute la variance. Conclusion : la suppression dedalités lignes ou colonnes a une grande
influence sur l'interprétation de la carte de l'AFC.
Regroupement de lignes et/ou colonnes
114
Le regroupement de deux lignes ou deux colonnes conduit à les remplacer dans la carte par leur centre de gravité.
On peut regrouper les indépendants et agriculteurs. On peut aussi les associer aux catégories "chômeurs" et "inactifs". Ainsi, tou
raités. Le béta augmente, mais au
tes ces catégories occupent une place assez importante dans la première carte : leurs comportements d'écoute sont relativement peu marqués. En faisant ce genre de regroupement, on ne bouleverse pratiquement pas grand-chose. En plus, cela fait ressortir encore plus les oppositions étudiants/ret
ssi le poids du premier axe. Conclusion : le regroupements de modalité
(à l'opposé de leur suppression) ne fait qu'accentuer les caractéristiques perceptibles sur la première carte.
NB. Il ne faut jamais regrouper des modalités qui s'opposent.
115
CHAPITRE III L'analyse en composantes principales
(A.C.P)
1- Objectif : l'A.C.P consiste à décrire un tableau de
données quantitatives. Ces données peuvent, par exemple, correspondre à P mesures morphologiques : taille, poids, longueur des bras,…..observées sur n individus.
On dispose donc d'un tableau "individus-variables" noté X, à n lignes et p colonnes ayant la forme suivante :
⎥⎥⎥⎤
⎢⎢⎢⎢⎢⎡
kk
pk
jkkk
11............1............
21
11
1 2………..j………….
⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎥
⎦⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢
⎣
pnk
jnknknk
pik
jikikik
pj
........................21
..............................................................
......................................................................................
2
⎥⎥⎥
⎢⎢⎢⎢
kk
21..............................................................
2............2............22
p
X =n*p Matrice carrée
individus
116
On peut lire qui signifie la val
Il faut donc passer à un tableau y : individus-nouvelles variables, en réduisant le
ombre de variables nécessaires pour décrire les individus, tout en perdant le moins pos
urs (q<p). Il s'agit donc de passer de la matrice des
L'élément général
facteur jes facteurs devront répondre aux deux
conditions déjà vues :
⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢
⎢
⎢⎢⎢⎢⎢
⎣
⎡
nqfnf
ijf
qff
.............................1
......................................
1................................11
.
.
le nombre Xji
eur de la jème variable sur le 1ème individu.
n
sible d'information. Formulation du problème Le problème posé consiste à réduire les P
variables initiales en un nombre q de variables "Composantes", ou facte
données initiales (n individus * p variables) à une matrice réduite :
Facteurs (j = 1,…………………………….,q)
⎢⎢⎢.⎢⎢⎢
NB. On joue sur les variables et non pas sur les Individus
Individus (i = 1,…………..,n)
fij est la valeur du pour l'individu 1.
L
117
2- La notion d'axe Factoriel Soit l'exemple simpl
dedifférentjpourmFjFCorceIndépendank kjj
0),(*1 1
=
∑p
XaFLinéarité*
e suivant utilisé pour présenter la notion d'axe factoriel :
ntéscentre de gravité du nuage de poanalysé : A et B sont deux de(individus) du nuage. L'information apportée par l'individ
1
m
- Trois
==
points ont été représe : G es
s n po
- (représenté par le point A ) est égalecarré de la distance de G à A : I = (G
De la même façon : I2 = (GB)2
G A1
A2
∆2
B1
B
B2
Deux individus A et B
118
A
ints
u 1
t le
ints
au A)2
∆1
Si maintenant, deux axes passant par G
)2, GA1étant
r ∆1. De la même façon : I2 (∆1) = (GB1)2, GB étant la distance des points G et B :
sur
ou nsemble des points considérés,
(∆1) = I (∆1) + I2(∆1) = (GA1)2 + (GB1)2
ur l'axe ∆2, cette information est donnée par :
(∆ 2)2 + (GB2)2
est cl r sur le graphique que la quantité I (∆ ) est plus grande que la quantité I (∆1). l'axcomprapp
Il va donc s'agir, pour un nuage de n poi tdimede su
sont considérés (représentés ici par ∆1 et ∆2), l'information restituée sur ces axes peut être facilement calculée.
• Pour le point A, cette information est égale, sur ∆1 à : I1 (∆1) = (GA1la distance des points G et A1 : A1 est la projection orthogonale de A su
•1 1
B1 est la projection orthogonale de B∆1.
P r l'el'information restituée par ∆1 est égale à :
I 1po
I 2) = (GAIl ai
2
e ∆2 est donc meilleur que ∆1 pour rendre te des positions respectives de A et B par
ort au point G.
n s représentés dans un espace à p nsions, de trouver le meilleur axe et ainsi ite.
119
Il se posera alors le problème de choisir le nombre d'axes retenus puis de leur interprétation.
3- La matrice des variances-covariances
covariances la matrice générLes éléments de la diagonale principale sont les
Cette matrice est symétrique, carrée (de taillede la diagonale principale) est égale à la var
ns a poucor
ale principale est formée de 1 (corrélation d'une variable avec elle-même). Sa tra
centrées et réduites.
résumant le mieux l'information contenue dans la matrice initiale, puis un second, indépendant du premier, résumant le
- On appelle matrice de variances-V ayant pour élément
al Vij la covariance des variables i et j.
variances Vii des différentes variables.
p), sa trace (c-à-d la somme des termes
iance totale du nuage de points. - De même, la matrice des corrélatior élément principal Rij, le coefficient de
rélation entre les variables i et j. La diagon
ce est égale à p (nombre de variables). L'une ou l'autre de ces matrices sert de
point de départ à l'ACP; la 1ère correspond au cas où les variables sont centrées; la seconde au cas où elles sont
4- Procédure de résolution Le principe de la procédure de résolution
va être de trouver successivement un premier facteur
120
mieux l'information résiduelle, et ainsi de
ette méthode et la variance tot .
les
trice des
lus
tant somme des
suite (l'expression de la quantité d'information retenue pour c
ale) L'algorithme de résolution utilisé met
l'accent sur les points suivants : - Les axes factoriels (ou composantes
principales) passent par le centre de gravité du nuage de points formé parobservations;
- Les axes factoriels sont des vecteurs propres de la matrice de variances-covariances (ou de la macorrélations si celle-ci est utilisée);
- La valeur propre associée à un axe factoriel (repéré par un vecteur propre unitaire) mesure la variance de cet axe;
- La première composante principale est donc le vecteur propre associé à la pgrande valeur propre; la seconde est associée à la valeur propre suivante, et ainsi de suite;
- On obtient ainsi p axes factoriels (p éle nombre de variables); lavaleurs propres associées à ces axes est égale à la variance totale (trace de la matrice de variance-covariance);
- Les axes sont orthogonaux;
121
- La variance totale du nuage de points est concentrée sur les premiers axes.
En résumé, la procédure de résolution de l'ACP est la suivante :
Matrice des données initiales MnpIndividus/variables
Calcul de la matrice des variances-covaiances Vnp
Extraction des axes factoriels
(Vecteurs propres de V)
Choix de K axes factoriels
facd
ax
Calcul des corrélations entre les
axes principaux etles variables initiales
(matrice C
pk)
Calcultorielses ines fa o
des scores (coordonnées
dividus sur les ct riels) matrice
Fnk
122
Remarque : interprétation des projections
1-
te comme un c envers les q variaximité entre
ariables signifie que les deux variables correspondantes sont corrélées. La corrélation est d'autant significative que les points
une proximité entre les projections de deux points observations (individus) s'interprèanalogue
2- Une pro
omportement bles.
deux points v
* * * * * *
* * * * * * * *
* * * * * * * * * * * * * * * * * * * * * **
**
*
* * *
* * * ** * * * * * * * * / / ** * * * * * * * * * * * * *
F2
* *
Comportement analogue
envers les q variables
P points
Projections des observations
F1
123
représentatifs de ces variables sont plus éloignées de l'origine (G).
- Une proximité entre un point variable et un point observation (individu) signifie que la variable joue un rôle important pour l'observaconsidérée.
** * . . * * . *. .
. * * * * . * . * * . *
3
tion
* * . * * . * .
* . * * *
* *. . . * * . ** * *
*
4- Une signification doit être donnée aux axes factoriels sur la base de l'analyse faite et des proximités (individux-variables, variables-variables
F2 *
point variable
F1
Point observation
.
ou individus-individus) observées.
124