imprimer econometrie

124
Plan du cours Introduction générale : rappels fondamentaux sur la démarché économétrique Chapitre 1 : Le modèle linéaire à deux variables et à plusieurs variables Chapitre 2 : L’Analyse Factorielle des correspondances A.F.C Chapitre 3 : L’Analyse en Composantes Principales A.C.P 1

Upload: ranya

Post on 04-Feb-2016

57 views

Category:

Documents


0 download

DESCRIPTION

rappels fondamentaux sur la démarche économétriquele modéle linéaire à deux variables et à plusieurs variablesl'analyse factorielle des correspondances A.F.C

TRANSCRIPT

Page 1: imprimer econometrie

Plan du cours Introduction générale : rappels fondamentaux sur la démarché économétrique Chapitre 1 : Le modèle linéaire à deux variables et à plusieurs variables Chapitre 2 : L’Analyse Factorielle des correspondances A.F.C Chapitre 3 : L’Analyse en Composantes Principales A.C.P

1

Page 2: imprimer econometrie

BIBLIOGRAPHIE • JOHSSTON (J.), méthodes économétriques,

tome 1 et tome 2, Paris, 1985. • PAULRE (B.), la causalité en économie,

collection des sciences des systèmes, Lyon, 1985.

• SALVATORE (D.), économétrie et statistiques appliquées, New York, groupe Mc Graw-Hill, 1985.

• ARTUS (P.), modélisation macro-économique, Economica, Paris, 1986.

• BENZECRI (J.-P.), pratique de l'analyse des données, Dunod, Paris, 1986.

• GAGOU (A.), modélisation par la méthode de Box et Jenkins, thèse de doctorat, université d'Aix-Marseille, 1986.

• DORMONT (B.), introduction à l'économétrie des données de panels, Edition CNRS, Paris, 1989.

• CIRAUD (R.) et CHAIX (N.), économétrie, Economica, Paris, 1989.

• MOUCHOT (C.), statistique et économétrie, Economica, Paris, 1991.

• BATOLA (L.), statitiques et économétrie, Masson, Paris, 1990.

2

Page 3: imprimer econometrie

INTRODUCTION Rappels sur la démarché économétrique

- Les systèmes économiques sont souvent

difficiles à comprendre car ils font appel à la science sociale.

- Pour cerner cette réalité, les théoriciens ont tenté de déterminer les lois qui les régissent : construction et estimation d'un ensemble de modèles qui peuvent appréhender et formaliser les liaisons, les interactions et les relations entre plusieurs variables. Exemple : formuler des équations entre des grandeurs économiques.

- Le rôle des mathématiques et des statistiques est donc primordial.

- Exemple de grandeurs économiques pour lesquelles on cherche à comprendre le comportement et le fonctionnement : les agrégats macro-économiques globaux (masse monétaire, inflation, emploi, PNB, etc.), les secteurs d'une économie donnée (production automobile, aéronautique, situation de la récolté céréalière, etc.).

- Autres types de grandeurs : phénomènes sociaux, politiques (sondage d'opinion et campagne électorale), personnels, etc.

- Les théoriciens font ce genre de recherches dans un double objectif :

3

Page 4: imprimer econometrie

* prévoir la réalité économique et sociale;

* tester la portée et la validité des théories économiques.

1- définition de l'économétrie

• Branche qui traite des modèles aléatoires

et de la décision. • Elle se base sur l'observation et la

vérification chiffrée (variable quantitative ou qualitative) pour expliquer la relation entre les grandeurs économiques : vérifier l'existence de liaisons entre les agrégats, mais aussi et surtout, détecter et préciser la forme correcte de ces liaisons.

• L'économétrie est aussi la validation empirique des données théoriques.

• Etapes de la démarche économétrique :

* proposer un certain nombre de modèles rapprochés de la réalité par des théoriciens;

* les soumettre à des économètres pour les mathématiser;

* le rejet ou le maintien des dits modèles (pour des fins de prévisions) dépend d'une panoplie de tests statistiques et économétriques.

4

Page 5: imprimer econometrie

La démarche économétrique peut se schématiser ainsi

Hypothèses sur les variables

Modèle théorique proposé

Traitement économétrique

Acceptation ou rejet du

modèle

Observations chiffrées

2- Concepts et terminologie - Econométrie : expliquer des phénomènes

économiques par plusieurs autres variables.

- Selon la théorie économique, la relation existant entre plusieurs variables est de la forme : Yt = f(xt, zt,…..), exemple : I = f(E, R, Ex, L, etc.).

* Avec, I : le niveau de l'investissement; * E : l'épargne; * R : le revenu;

5

Page 6: imprimer econometrie

* Ex : l'exportation; * L : la législation en vigueur.

- Nécessité d'intervenir le facteur temps :

modèles dynamiques. Exemple, pour les variables C et R, on peut dire que la Ct = f(Rt), surtout à court terme.

- Ce type de formulation, Yt = f(Xt) n'explique pas réellement la nature de la relation entre les deux variables X et Y. Donc : faire intervenir d'autres types de variables à côté de Xt.

- La relation entre les phénomènes à expliquer et explicatifs est dans la quasi-totalité des cas de type linéaire : yt= a + bxt ou du type exponentielle multiplicatrice, qui peut devenir linéaire en utilisant le logarithme :

Si yt = xat* zb

t, alors log yt= c + a log xt + b log zt.

- La relation entre les variables à expliquer et explicatives n'est pas stricte, mais plutôt stochastique (aléatoire).

- Un terme résiduel sera toujours prévu pour faire face aux variables non déclarées. Donc: yt = f(x1t, x2t, x3t, x4t,.…xnt+ t) yt = a1x1t+ a2x2t+ a3x3t+ a4x4t+……+anxnt+ t

6

Page 7: imprimer econometrie

Terminologie Variable y Variable x

- variable expliquée

- variable endogène

- variable déterminée

- variable dépendante

- variable explicative - variable exogène - variable prédéterminée - variable indépendante

a2 t - pondérations - coefficients de

régression

Période d'observation fixe

- terme résiduel

- résidu - bruit - perturbations

REMARQUES :

• Ces modèles linéaires qui cherchent à appréhender les relations entre variables sont dits des modèles de régression.

- régression simple : si l'on cherche à expliquer une seule variable. Exemple : Ct = a + bRt + t;

- régression multiple si plusieurs variables interviennent en même temps pour

7

Page 8: imprimer econometrie

expliquer un phénomène. Exemple : Et = a + bEt + cPEt + dPPt + eSGt + t

.E : environnement international;

.PE : politique économique;

.PP : pouvoir publics;

.SGE : situation géographique. • Le terme (erreur) intervient pour

résumer l'impact de toutes les autres variables qui sont omises. Celui-ci dépend de :

.l'erreur d'observation sur les variables X et Y; .la période d'observation.

• puisque l'objectif de toute étude économétrique est d'élaborer des modèles efficients servant de prévision fiables, on peut aussi travailler sur des variables retardées (yt-1, t-1, x1t-1).

8

Page 9: imprimer econometrie

CHAPITRE I : LE MODELE LINEAIRE A DEUX ET A PLUSIEURS

VARIABLES I – Concepts de base du modèle linéaire général - La représentation graphique de la

distribution des ouvriers, par exemple selon l'age et le salaire met en relief l'existence d'une liaison statistique entre ces variables. Pour préciser la forme de cette liaison, on trace et on détermine la courbe de régression. Mais pour mesurer son intensité, il faut calculer le rapport de corrélation (matrice de corrélation). A/ Ecriture du modèle économétrique linéaire

- Considérons (n+1) variables dans le

temps, l'une notée y et les autres xi (i = 1, 2,…..,n). Ces grandeurs peuvent être des évènements, des

9

Page 10: imprimer econometrie

indicateurs économiques, sociaux, etc.

- Ces (n+1) variables sont généralement mesurées pendant t périodes (souvent l'année) et on dispose, de ce fait de t observations de ces valeurs.

- Supposons qu'à travers l'histoire, une analyse théorique passée a fait établir une relation causale et linéaire entre les valeurs des xi et celles de y pour chaque période :

yt = a1x1t+ a2x2t+ a3x3t+ a4x4t+……+anxnt+

b+t (régression simple ou multiple)

= ∑ aixit + b+t - Ce modèle à une seule équation et à

plusieurs variables comporte nécessairement un régressant (y) et n régresseurs.

- Ce modèle s'appelle aussi régression linéaire de y en x1, x2,…… xn, les paramètres (coefficients) ai (i = 1, 2,…..,n) sont nommées coefficients de régression de y en

xi.

10

Page 11: imprimer econometrie

- Le terme résiduel t (choisi d'une manière aléatoire) peut être interprété de la façon suivante :

*à l'échelle de l'interprétation économique, t va nous représenter l'ensemble des raisons pour lesquelles la formule yt= ∑ aixit + b+ n'est pas assurée de façon stricte et sérieuse. Ces motifs peuvent être par exemple: • la non linéarité stricte de la relation; • l'influence de l'impact sur y des variables

autres que xi; • les erreurs commises lors de la mesure des

grandeurs yt et xit. - La prise en compte de tous ces facteurs

nous permet de dire que ces modèles économétriques se basent beaucoup plus sur l'approche de l'approximation. Mais, la relation linéaire ne pourra être acceptée que si les termes résiduels t sont suffisamment petits.

- Les coefficients ai et b sont dits les vraies valeurs des paramètres du modèle.

- Ces véritables valeurs seront toujours (comme les résidus) inconnues : il s'agit pour la démarche économétrique de fournir des estimations rigoureuses pour ces coefficients.

11

Page 12: imprimer econometrie

- La variable expliquée et les variables explicatives sont observées t fois. La meilleure façon qui permet de visualiser toutes ces observations est l'écriture matricielle :

y1

.

.

. yi

.

.

. yt

=

X11…….xn1

.

.

. x1i…….xni

.

.

. x1t……xnt

*

a1

.

.

. aj

.

.

. an

+

e1

.

.

. ei

.

.

. en

Cela pourra s'écrire encore:

Y = X * A+ e

REMARQUES 1- La relation entre les variables du modèle

économétrique est dénommée corrélation; celle-ci peut, parfois, entraîner un effet de causalité : en effet, à partir du moment où l'on suppose que la connaissance des variables xi génère celle de y, on peut

12

Page 13: imprimer econometrie

construire un modèle causal : xi ⟨ y; le modèle fourni détermine y;

2- Le terme constant b est, dans la majorité

des cas, différent des ai : sa signification économique est faible, mais sa flexibilité (variabilité) est grande;

3- Le modèle supposé doit être formulé à

partir d'hypothèses théoriques liant les variables étudiées, et c'est, d'ailleurs, la qualité de l'estimation obtenue qui confirmera ou infirmera ces hypothèses;

4- Le modèle linéaire peut être de deux ou

plusieurs variables, d'une ou de plusieurs équations.

II – L'estimation du coefficient de régression a et b : le principe de l'ajustement linéaire par la méthode des moindres carrés ordinaires Les paramètres de régression et la constante ne peuvent être qu'estimés pour donner l'image la plus fidèle que possible de la réalité.

13

Page 14: imprimer econometrie

Supposons qu'une relation entre la consommation (régressant) et le revenu (régresseur) est de la sorte : yt = β xt + + t. graphiquement, on notera : Y (c) - il faut essayer d'ajuster et de tracer une

droite qui soit proche de tous ces points. C'est-à-dire minimiser les écarts entre les points de nuages et la droite tracée. Celle-ci est la droite de régression : il faut déterminer la meilleure.

14

Page 15: imprimer econometrie

Y - c'est la méthode des moindres carrés

ordinaires (MCO) qui nous permet de minimiser les carrés des écarts (distance) à la droite d'ajustement ou de régression.

• Exposé de la méthode des MCO

yt = βxt + + t yt = βxt + ⟨ sera alors le modèle estimateur de yt et β seront donc, les estimateurs de et β, il s'agit alors de calculer et β.

- considérons la droite d'équation :

15

Page 16: imprimer econometrie

yt = βxt + + t. Calculons la valeur des écarts des points observés à la droite, mesurés parallèlement à l'axe des ordonnées :

t = yt - - βxt La somme de ces écarts est égale à : S = ∑ t = ∑ (yt - - βxt)2

Y - La droite des moindres carrés correspond

aux valeurs des coefficients et β qui rendent minimum la quantité (S). Ce minimum est obtenu en égalant à zéro les dérivées partielles de S par rapport à et β. Il faut, tout d'abord,

16

Page 17: imprimer econometrie

rechercher pour un β fixé, la valeur de qui rend S minimale.

• Les hypothèses de la méthode des

MCO H1- Les variables xt sont, à l'inverse des t non aléatoires; elles sont donc connues; H2- E(t) = 0. Cela veut dire que chaque perturbation a une espérance mathématique nulle. Autrement dit, elle est centrée à l'origine. Si alors les résidus ne sont pas centrés à l'origine, cela pourrait provenir de l'omission d'une ou plusieurs variables explicatives; H3- V(et)= σ2

et= constante. Cela veut dire que les écarts (erreurs) yt – yt qui correspond à et ne doivent pas disparaître dans le temps.

H4- La normalité des résidus. Ainsi, la population doit être suffisante pour que les résidus puissent suivre une loi normale de paramètre 0 et σ2 :

σ2 N(m, σ) N(0, σ2et).

17

Page 18: imprimer econometrie

H5- Les résidus sont non corrélés entre eux. C'est la propriété d'homoscédasticité des perturbations. Ainsi, E(e2

t) = σ2 et ce ∀ t = 1, 2,……n. Les perturbations ont même variance, elles se dispersent toutes de manière égale autour de leur valeur moyenne. Donc, on dit qu'elles sont homoscédastiques. En effet, la condition de non corrélation des résidus est matérialisée par : Cov (et, ej) = 0 et ce ∀ i ≠ j | i, j = 1,…..,n H6- La matrice X est certaine. Cela veut dire que les observations réalisées sur les variables explicatives le sont sans erreur. Cela se justifie surtout pour le modèle linéaire à K variables (régression multiple). • Calcul des estimateurs - Nous avons yt = β0 + βxt + t (t = 1,…..,n). - Il s'agit d'estimer β0 et β. - En général, on ne peut pas trouver

exactement les valeurs des paramètres β0 et β qui restent toujours des inconnus.

- On peut noter aussi qu'il y a toujours une différence entre β0 et β et leurs estimateurs β0 et β.

Nous avons alors : yt = β0 + βxt

18

Page 19: imprimer econometrie

- Il y a une différence entre yt et yt. différence que l'on appelle résidu, et que l'on peut désigner par et.

- Nous pouvons, donc, écrire : yt – yt = et, ou :(1) yt - β0 - βxt = et, ou : yt = β0 + βxt + et

Il faut remarquer que yt et xt sont ici des valeurs réelles de l'échantillon (mais que l'on cherche à estimer). Pour n périodes, la relation (1) sera :

(y1 - β0 – βx1) = e1 (y2 - β0 – βx2)= e2

. .

. .

. .

. . (yn - β0 – βxn) = en

La méthode des moindres carrés ordinaires consiste à trouver les valeurs de β0 et β telles que la somme des valeurs absolues des résidus soit minimale. Un résidu égal à + 2 est traité sur le même pied d'égalité qu'in résidu égal à –2.

Si on appelle π cette somme des résidus, on aura les détails suivants :

19

Page 20: imprimer econometrie

π = e21 + e2

2 + e23+……… + e2

ncela sera égal aussi à : (y1 - β0 – βx1)2

+ (y2 - β0 – βx2)2

+ …… …… …… + (yn - β0 – βxn)2

Dans ce cas, yt et xt sont des valeurs de l'échantillon et sont connues. β0 et β sont des inconnus qu'il faut calculer.

Nous savons que la valeur π devient minimale si l'on peut réaliser deux principales conditions :

- dérivées premières de π par rapport à β0 et

β sont toutes deux nulles (condition du premier ordre);

- dérivée seconde par rapport à β est positive (condition du second ordre).

Après démonstration et calculs, on aura :

20

Page 21: imprimer econometrie

xy ββ −=0Et : Donc :

∑ −∑ −−

= 2)())((

xtxxtxytyβ

Et :

∑ −∑ −−

−= 2)())((

0 xtxxtxytyxyβ

21

Page 22: imprimer econometrie

• Illustration (voir exercice n°7 de la série d'exercices n°1)

- Premier cas : régresser y par rapport à x1.

Yt = a0 + a1x1 + t Coefficient de corrélation linéaire simple :

∑ −=

∑ −=

∑ −−=

=

2)(1

2)(1

1

))((1),1cov(

*1

),1cov(1

yiyny

xixnx

yiyxixnyx

yx

yxyxr

σ

σ

σσ

22

Page 23: imprimer econometrie

Tableau des calculs

Observations yt xt (xt-x)2 (yt-y)2 (xt-x)( yt-y)

1 12 2 1 36.56 2.60 23.24 2 14 1 25.70 13.76 18.81 3 10 3 9.42 59.44 23.67 4 16 6 0 2.92 0 5 14 7 0.86 .45 13.76 -36 19 8 3.72 1.66 2.49 7 21 8 3.72 10.82 6.35 8 19 5 1.14 1.66 -1.38 9 21 5 1.14 10.82 -3.52 10 16 8 3.72 2.92 -3.30 11 19 4 4.28 1.66 -2.67 12 21 9 8.58 10.82 9.64 13 25 12 35.16 53.14 43.2314 21 7 0.86 10.82 3.06 Total 2 7 248 85 113.7 226.8 116.1

Estimer les paramètres a0 et a1 :

71.1707.6

==

yx

∑ −∑ −− ))((

= 2)(1 xtxxtxytya

23

Page 24: imprimer econometrie

02.172.113== 17.116

onc : Y = 11.52 + 1.02x + t

1.52 + 1.02x Calculer le coefficient de corrélation

oefficient de détermination; .52 = 52%

D t 1ou : Yt = 1 1

linéaire simple :

= 0.72 = 72%

xaya −=

)07.6*02.1(71.1710

52.110=

−=a

)8.226(141

1*)72.113(14

1)17.116(14

11

),1cov(1

=

= yxyx

yxr σσ

c r2 = (0.72)2 = 0

24

Page 25: imprimer econometrie

Autre manière pour calculer r2(R2)

∑ −

∑−=

∑ −∑ −

==

2)(

21

2)(22

y

)ˆ(

ty

t

ytyyty

On a :

rR

ε

txty 102,152,11 +=

25

Page 26: imprimer econometrie

00.0020.111

34.248.566.182114

24.154.176.232513

30.009.07.202112

40.356.1160.151911

68.354.1368.191610

38.418.1962.16219

38.266.562.16198

32.174.168.19217

68.046.068.19196

66.472.2166.18145

64.169.264.17164

58.498.2058.14103

46.113.254.12142

56.143.256.13121

22ˆ

total

tetettytyt

26

Page 27: imprimer econometrie

%5252.08,226

21,11112

==

−=R

Effectuer le test de Student permettant de se prononcer sur la participation de x1 à l'explication du modèle : Soit Ho =a1=0 Le seuil de signification le plus utilisé est α=0,05, soit un risque de rejet à tort de H0 de 5%.

DLnàStudentdeloiunesuit

a

aaa

aamX

2

1ˆˆ

11ˆ

1ˆˆ

11

−−

−=−

σ

σσ

Sous l'hypothèse H0, cette relation devient :

27

Page 28: imprimer econometrie

Studentderatioappeléesta

t

DLnàStudentdeloia

ta

a

a

a

.21ˆ

1ˆˆ1

1ˆˆ

01

°

−°==−

⎯→⎯σσ

Nous avons déjà calculé a1, il convient, à présent, de calculer σa1. Or, nous avons déjà souligné que :

∑ −=

2)(

2ˆ)1(2

1ˆˆ

xtxavou

aεσσ

72,1132)(

:

=∑ −t

xtx

avonsNous

Nous savons aussi que l'estimation de la variance de l'erreur (σε

2), notée σε2 est égale à :

22

12ˆ ∑−= tenεσ

)('2

22ˆ

tytyteestimationlderésiduleestteoùn

te

−=−

∑=εσ

28

Page 29: imprimer econometrie

A/ Calcul de yt et de et (voir tableau de la question précédente)

D'après le tableau 2 de la question précédente, on obtiendra

....2ˆ22

1ˆ11

ˆ10ˆˆ

etcyye

yyetytytesoit

txaaty

−=

−=

−=

+=

∑et =0 ∑et2 = 111,20 et ∑et2/14, c'est à dire la somme moyenne ou encore et2 = 7,94 B/ Calcul de l'estimation de la variance de l'erreur et de l'écart-type du coefficient de régression L'estimation de la variance de l'erreur est donc égale à :

Ce qui nous permet de calculer la variance estimée de a1 :

27.92142.111

2

22ˆ =

−=

−∑= n

teεσ

29

Page 30: imprimer econometrie

08.072.113

27.92)(

2ˆ21ˆ

ˆ ==−

=∑ xtxa

εσσ

28551.01ˆ

ˆ =a

soit σ

C/ Calcul du ratio de Student et règle de décision Nous savons que

est distribuée selon une loi de Student à n-2 DL.

tat

ta

ta

ˆˆ

ˆ

ˆ°=

σ

La règle de décision pour un seuil α = 0,05 est la suivant :

On rejette l'hypothèse H0; le coefficient α est alors significativement différent de 0 (on accepte a1≠0); la variable explicative x1 est donc contributive à l'explication de la variable y.

025.02

ˆˆ

ˆ −>=° nct

ta

a

tatsi

σ

30

Page 31: imprimer econometrie

025.02

ˆˆ

ˆ: −<=° nct

ta

a

tatcontreparsi

σ

.0' Hhypothèselaccepteon

Le coefficient a1 n'est, donc, pas significativement différent de 0 (on accepte a1= 0), la variable explicative x1, n'est donc pas contributive à l'explication de y.

n'est donc pas contributive à l'explication de y. Dans notre exercice, on a : Dans notre exercice, on a :

57.328551.1

02.1

1ˆˆ

1ˆ===°

a

a

at

σ

025.021422 −=

− ct

nctet

α

On voit très bien que t°>au tc, donc on rejette H0. Donc a1 est bien ≠ 0. X1 contribue à l'explication de y.

On voit très bien que t°>au t

c, donc on rejette H0. Donc a1 est bien ≠ 0. X1 contribue à l'explication de y.

179.2025.012

==c

t

Effectuer le test de Fisher permettant de déterminer si la régression est globalement significative

Effectuer le test de Fisher permettant de déterminer si la régression est globalement significative

31

Page 32: imprimer econometrie

Nous savons que : F°c = R2/n-1

)()21(

12

ktR

kR

cF

−−

−=°

k= nombre de régresseurs t= nombre d'observations dans notre exercice :

)2()21(

12

−−

−=°

tR

kR

cF

si F°c>F0.05t k-t, t-k (DL), nous rejetons l'hypothèse

H0 qui signifie que a1= a2= a3=……….= ak= 0 si, par contre, F°c<F0.05

t k-t, t-k (DL), on accepte l'hypothèse H0, c'est-à-dire le modèle n'a pas de signification dans son ensemble. Dans notre exercice :

13)214(

)52.01(52.0

)2()21(

12

=

−−

=

−−

−=°

tR

kR

cF

Remarque On peut aussi remarquer que pour le modèle de régression simple, nous avons égalité entre

32

Page 33: imprimer econometrie

le coefficient de détermination et le carré du coefficient de corrélation linéaire simple.

2)(

)()21(

2

)()21(

2°=

−−

=

−−

=° t

ktr

r

ktR

RcF

dans notre exercice, nous avions : t°c =3.57, donc (t°c)2 = 13 Règle de décision : On a F°c =13 et F0.05

t 1 et 12 DL= 4.75 Donc, F°c > Ft. cela veut dire qu'il faut rejeter l'hypothèse H0, a1= a2= a3=……….= ak sont bien différent de 0, donc la variable explicative x1 est significative. Construire le tableau d'analyse de la variance pour vérifier les résultats obtenus Il faut, donc, connaître que :

33

Nous savons que :

∑ −=

∑=

∑ −=

2)(

2

2)ˆ(

ytySCTet

teSCR

ytySCE

SCTSCR

yty

teR −=

∑ −

∑−= 12)(

212

Page 34: imprimer econometrie

R2 = r2 =0.52, la connaissance de SCR = =111.20 permet de déterminer SCT = 231.67 car 1-(111.20/SCT) = 0.52. Tableau d'analyse de la variance

34

132647.120

12

1

)(

1 =−kt

11426.921447.1201

−=−=

=

SCTTotalSCRRésiduSCEX

moyensCarrésDlcarrésdesSommesSource

67.23120.11147.120

variationde

.9==°

SCRSCRcalculéF

SCESCE

Page 35: imprimer econometrie

I- LE COEFFICIENT DE DETERMINATION ET LE

COEFFICIENT DE CORRELATION

Nous savons très bien que la variation de Y utour de la moyenne est subdivisée en deux

partie : une partie expliquée par la régression et une partie résiduelle non expliquée.

Le coef

∑+∑∑ =

∑ ∑ ∑ ∑ ×++=

+=

⎯→⎯⎯→⎯

22ˆ2

ˆ22ˆ2

ˆ:

a

2

ttyty

zéroverstendttyttyty

ttytyDonc

ε

εε

ε

ficient de détermination :

35

Page 36: imprimer econometrie

∑=

tyR

2ˆ2

ty2

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜

∑ −

−∑

= centréesiablesdescasyty

yty

RAussi var2)(

)ˆ(2

est le résultat de la variabilité expliquée

sur la variabilité totale de Y.

⎟⎞

⎜⎛

2

∑ −∑−=

∑ −

∑ ∑−−=

∑∑−=

∑=

2)(

21

2)(

22)(2

:var

22

12

2

y

∑ ∑−2

tyt

yty

tytyR

centréesiablesdescasledanstyt

tytRdonc

εε

εty ε

36

Page 37: imprimer econometrie

Ce quotient nous permet de juger de la qualité de l'ajustement d'un modèle. En effet, plus la variance expliquée est proche de la variance totale de Y, meilleur est l'ajustement du nuage de points par la droite des moindrescarrées.

R2 est appelé le coefficient de détermination, et R le coefficient de corrélation multiple. Dans le cas particulier du modèle de régression à une seule variable explicative, il est égal au coefficient de

corrélation simple entre X et Y. dans ce cas, il est

ssion, il mesure la qualité de

s la variabilité de Y. Si R2= 1, cela veut dire que tous les

nent à la droite de

noté (r). INTERPRETATION • Le coefficient de détermination indique le

pourcentage de variance expliquée par la régrel'ajustement linéaire.

0<R2<1 - Si R2= 0, il y a indépendance totale :

aucune liaison entre x et y. Ceci implique que l'équation de régression en présence n'explique en rien et en aucun ca

- points (x, y) appartienrégression, c'est-à-dire le résidu est nul et donc :

37

Page 38: imprimer econometrie

02=∑ tε

2ty• ion :

R>0 ⟨ que X et Y varient dans le même sens R=1 ou R= -1 une corrélation parfaite entre X et Y

⟨ X et Y sont deux variables indépendantes.

• :

Le coefficient de corrélation linéaire r

mesure exclusivement la caractère plus ou moinles variables X et Y.

Pour le coefficient de corrélat∑

2RR=

-1<R<1 R<0 ⟨ que X et Y varient dans le sens inverse;

R =0 ⟨ aucune relation entre X et Y

La corrélation

s linéaire du nuage de points formés par

38

Page 39: imprimer econometrie

⟨ est une

dances linéaires entre les P valeurs observées.

• CAS DE LA REGRESSION LINEAIRE MULTIPLE

r sera toujours compris entre –1 et 1

Le Coefficient de détermination est égal : r2 = R2.

Si r=1 cela serait équivalent à l'existence d'une corrélation exacte entre x et y, autrement dit : axi + byi + c = 0 droite.

La matrice de corrélation, par contre

∑ −=

×

2)(1

2)

co

yiyny

i

= ),cov(

résume la structure des dépen

∑ −=

∑ −−=

(1

))((1),v(

xxnx

yiyxixnyx

yxyx

xyr

σ

σ

σσ

11 ≤≤− r

39

Page 40: imprimer econometrie

- Pour le modèle linéaire général ou la

étermination :

régression multiple, on note coefficient de d

:

22

éesvar centriablesdescasleDans

tyty ∑∑

21

212 tetR ∑−=∑−= ε

∑ − 2)( y∑−=

212

tyteR

REMARQUES 1- Le coefficient de détermination multiple

varie entre 0% et 100%. Dans ce dernier cas, tous les points appartiennent au plan ou à l'hyperplan de régression. Ce coefficient donne une idée assez correcte de l'efficacité de l'ajustement par la méthode des MCO. Cependant, comme sa valeur a tendance à augmenter avec le nombre de variables explicatives (il est

40

Page 41: imprimer econometrie

égal à 100% lorsque le nombre de variables explicatives est égal au nombre

), les économètres ont

Efaibtenid'obexp22.

e

d'observationsintroduit un coefficient de détermination corrigé ou ajusté: 22.

n effet, lorsque le degré de liberté est le, il convient de corriger le R afin de r compte du relativement faible nombre servation comparé au nombre de facteurs licatifs par le calcul d'un R "corrigé", noté

2

2

2- Le coefficient de corrélation multiple (cas

de régression linéaire multiple) est égal :

)21()1(11

2Rkn

nR −−−

−−=

YYYXXXY XR

′′−′′ 1)(=

3- Dans le cas d'un modèle où le nombrd'observation est égal au nombre de variables

41

Page 42: imprimer econometrie

explicatives (degré de liberté égal à 0), le R2 est égal à 1, c-à-d: 100%. Cependant, le

pouvoir explicatif de ce modèle est nul.

42

Page 43: imprimer econometrie

TABLEAU D'ANALYSE DE LA VARIANCE

1- Cas d'un modèle de régression simple

Nous savons que:

CAD: SCT (somme des carrés totale) =

SCR(somme des carrés des résidus). a variabilité totale (SCT) est égale à la

e (SCE) + la variabilité des résidus (SCR).

suivant :

∑+∑ −=∑ −

=−

22)ˆˆ

2)(

(

SCE(somme des carrés expliquées) +

Lvariabilité expliqué

D'où le tableau d'analyse de variance

teytyyty

queettetyty

12

)2()(

+−∑=−∑

kt

2ˆ112)(

var

−−=∑ −=

teSCTotalnktytySCR

T

SCRRésidu

SCEytySCEX

moyensCarrésDlcarrésdesSommesiationdeSource

43

Page 44: imprimer econometrie

La statistique F° est le rapport de la

omme des carrés des résidus. Chacune de es sommes étant divisée par son degré de

liberté respectif. Aussi, si la variance exp

résiduelle, la variable xt est considérée comme étant une variable

nous rejetons l'hypothèse d'égalité des variances, la variable xt est significative; dans le cas contraire, nous acceptons l'hypothèse

)( ktSCR

1SCE

calculé =

Où F° suit la loi de Fischer à 1 et n-2 degré

de liberté. Nous pouvons aussi écrire cette formule en

fonction du coefficient de détermination :

somme des carrés expliqués par xt sur la sc

liquée est significativement supérieure à la variance

réellement explicative.

)()21(

ktR

RF

−−

°

DLktkFtFCADntFFSi⎟⎟⎟

⎜⎜⎜

⎛−−=−>° ),1(2,1

05,0

2=

44

Page 45: imprimer econometrie

d'égalité des variances, la variable explicative de la variable

2-

xt n'est pas yt.

Cas d'un modèle de régression multiple (modèle linéaire général)

'hypothèse de normalité des erreurs implique que sous l'hypothèse H0, F° suit la

Nous savons que la régression est jugée significative si la variabilité expliquée est significativement différent de 0. Tableau d'analyse de la variance dans le

cas RLM :

D'où :

12)( −∑ −= ty)1(12

2)ˆ(,.....2,1

var

−−−−∑=

∑ −=

tySCTTotalkt

SCRktteSCRRésiduk

SCEkytySCEkxxx

moyensCarrésDlcarrésdesSommesiationdeSource

L

)1()1( −−−−∑ ktkt

te )21(2 −==

Rkk

22)ˆ(∑ − Ryty

°F

45

Page 46: imprimer econometrie

loi arons donc ce F° calculé à Ft

(théorique) à k et (t-k-1)DL : si F° > F, nous

de Fischer (rapport de deux Chi-deux). Nous comp

rejetons l'hypothèse H0, le modèle est globalement explicatif. Dans le cas contraire, on retient H0, le modèle pris dans l'ensemble n'est pas explicatif.

46

Page 47: imprimer econometrie

II- LES PRINCIPAUX TESTS STATISTIQUES

- Test d'évaluation globale ou test de Fischer Snedecor

Ce test nous permet de connaître si le odèle a une signification globale, c-à-d : si

introduction des variables x1,…..,xk permet e bien expliquer l'endogène (y), autrement it, il teste la signification simultanée des ariables exogènes (x1,…..,xk) ⟨ est-ce qu'elles ont acceptées dans l'ensemble ou pas?

Il s'agit de tester l'hypothèse H0 : β1 = 2=β3=……..=βk=0

L'hypothèse aléatoire consiste à comparer s valeurs calculées F° aux valeurs tabulées t) sachant que :

Avec K = nombre de regresseurs de Y et t = b

les va ent explicatives;

seu -d : toutes les var

A

ml'ddvs

β

le(F

DLktkFFtetkt

Rk

R),1(21

12

−−=

−−

−=°F

nom re d'observations totales. Si F°(c) > Ft, on rejette l'hypothèse H0, c-à-d:

riables xt sont réellemSi F° < Ft, on accepte l'hypothèse H0 au il de signification α%. C-àiables xt ne sont pas réellement

explicatives.

47

Page 48: imprimer econometrie

REMARQUE Les degrés de liberté correspondent au

nombre de valeurs que nous pouvons choisir arbitrairement (exemple : pour la variabilité totale, connaissant t-1 valeurs, nous pouvons en

ent

t) n'a

, on accepte l'hypothèse H0.

déduire la tème puisque nous connaissons la moyenne y ).

B- Le Test d'évaluation partielle ou

test de StudIl permet de se prononcer sur la

signification de chacun des paramètres. H0 : βk = 0 signifie que l'exogène (x

aucune influence sur l'endogène yt. D'une manière générale, il faut contrôler

l'hypothèse alternative H : β ≠0i k .

σκβσ

β

κβσβ mXTcarkoukt −== ˆ

ˆ

ˆ

ˆ

Si t°> t calculé, on rejette l'hypothèse H0. Si t°< t calculé

⎟⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜⎜

⎝∑ ∑ −

∑=

−=

2)()ˆ(

2)()ˆ(

x

⎟⎞

⎜⎛ 222

txt

nVet

x

x

txecV εαεβAv

σσ

48

Page 49: imprimer econometrie

L'idée générale est d'établir un intervalle de

compte tenu d'un seuil de confiance α%, ce qu

confiance pour chacun des paramètres

i nous permet de cerner la valeur des paramètres βk.

)(ˆˆ DL

ktt −×±= κβσκβκβ

49

Page 50: imprimer econometrie

C- Le Test d'autocorrélation des

H5 E(εt, εt)=0 Si t ≠ t Lorsque H5 est non respectée (non vérifiée), la matrice E(εε) est différente de 0, donc il y a autocorrélation des erreurs. Nous sommes en présence d’une autocorrélation des erreurs lorsque ces derniers sont liés par un processus de reproduction :

il y a autocorrélation positive et autocorrélation négative

1-Sources d’une autocorrélation des erreurs

- Absence d’une variable explicative importante dont l’explication résiduelle permettrait de

re la uer et les

résidus ou des erreurs D.W

--

minimiser les erreurs ; - Une mauvaise spécification du

modèle : les relations entvariable à expliqvariables explicatives ne sont pas suffisamment linéaires et

50

Page 51: imprimer econometrie

s’expriment sous une autre forme que celle du modèle estimé.

er une autocorrélation des erreurs d’ordre 1 sel

t d’hypothèse à faire est le

HH(o ur tester

calculons la statistique de D.W.

ation du modèle.

2-détection de l’autocorrélation des erreurs c’est le test du Durbin Waston (D.W) qui permet de détect

on la forme : εt = ρεt-1_ + vt avec vt ⇒ (0, σv

2) Le tessuivant :

0 : ρ = 0 1 : ρ ≠ O u ρ<0 ou ρ>0).Po

l’hypothèse nulle H0, nous

∑=

∑= −−

=n

t te

n

t teteDW

12

22)1(

Où et sont les résidus de l’estim

51

Page 52: imprimer econometrie

De part sa construction, cette statistique DW varie entre 0 et 4. Afin de tester l'hypothèse H0, D et W ont tabulé les valeurs critiques

nction

e variables explicatives k. de la table permet de deux valeurs d1 et d2

selon le schéma suivant : •

ρ> Selon la position du DW empirique dans cet espace, nous pouvons co

de DW au seuil de 5% en fode la taille de l'échantillon n et du nombre dLa lecturedéterminercomprises entre 0 et 2 qui délimitent l'espace entre 0 et 4

0 ? ρ=0 ρ=0

Interprétation du Test du DW et règle de décision

? ρ<0

nclure : si d2<DW<4-d2, on accepte l'hypothèse H0, donc ρ = 0, il n'y a pas d'autocorrélation des erreurs;

52

Page 53: imprimer econometrie

• si 0<DW<d1, on rejette l'hypothèse H0 car ρ > 0, il y a autocorrélation des erreurs;

• si 4- d1<DW<4, on rejette H0 car ρ < 0, il y a autocorrélation des erreurs;

• si d <DW<d ou 4-d <1 2 2 DW<4-d ,

mination quant à l'autocorrélation des erreurs.

- ondit on d'uti isatio du tes DW oit

r e onstant;

les modèles en coupes

1nous sommes dans une zone de doute ou d'indéter

3 C i l n t• Le modèle en présence d

comporte un term c• Le nombre d'observation doit être

supérieur ou égal à 15; • Pour

instantanée, les observations doivent être ordonnées en fonction de la variable à expliquer.

53

Page 54: imprimer econometrie

'HETEROSCEDASTICITE DES L

ERREURS

Lorsqvérifierreu

On

Soit lequevérifi

a matrice des erreurs st alors :

2m

n

)2()2()12(

)1()2()11(

)( n

nEEE

EEE

Etε

ε

εεεεε

εεεεε

εε−−−−−−−−−−

−−−

−−−

=′=Ω

ue l'hypothèse H3 du modèle n'est pas ée, il y a donc, hétéroscédasticité des rs. En effet, la variance de l'erreur n'est

plus constante, mais sa dispersion varie d'une observation à l'autre.

aura donc : 2)2(Epasn σε =

le modèle linéaire général Y = Xa + ε pour l l'hypothèse E(ε2) = σ2

t n'est pas ée.

)(.......)3()2()1( tEEEEais εεεε ≠≠≠≠

L e

222tto

)()2()1( nnEnEnE εεεεεε −−−

2

1

−−

54

Page 55: imprimer econometrie

et Correction du phénomène 'hétéroscédasticité

nεσ 20 −−−

εσεσ

22

12

00

00

−−−−−−−−−−−−

−−−

−−−

=

Les variances et les écart-types des erreurs ne sont plus constants sur la 1ère diagonale, mais leur dispersion varie d'une observation à l'autre. Détectiond Il n'y a pas une méthode unique pour corriger l'hétéroscédasticité. La règle générale consiste à déterminer une transformation concernant les données - de la variable à expliquer et desvariables explicatives - pour se ramener à un modèle à variances constantes (Homoscédasticitique).

55

Page 56: imprimer econometrie

A. Tests de détection de l'hétéroscédasticité

1- Test de GOLDFELD-QUANDT

bre rtant et que si l'une des

ariables est supposée la cause de hétéroscédasticité.

Ce test n'est valable que si le nomd'observation est impovl' Ce test est proposé en trois étapes : Etape 1 : classer les observations en fonction de la variable explicative X ; Etape 2 : omettre C observations centrales. On choisit par hasard

i

C observations se ouvant au milieu (centre) de l'échantillon. es C observations sont exclues de l'analyse. a valeur de C doit être à peu près égale au uart du nombre d'observations totales.

NB. Il ne faut prendre que les parties entières, sans virgule Etape 3 : régressions sur les deux sous - échan

lustration: exercice n°1 de la série n°4

trcLq

;

tillons et réalisation des tests. IlDans cet exercice, C = 33/4 = 8 observations.

56

Page 57: imprimer econometrie

Premier échantillon: j = 1,..11 Deuxième échantillon:j = 20,..30 Yj = n = 11R2 SC(.) ddl

,649xj + ej 4,26)

n = 11

= ∑e2j = 2616812

1110,870 + 0,814xj + ej (8,29)

Y

= 0,88 R1 = ∑e2

j = 1089638 R

j = 4286,957 + 0 (

= t de Student (.) = t de Student

2 = 0,67 SCR2

1 = n-2 =9 ddl2 = n-2 =9

Sous l'hypothèse H0 d'homoscédasticité, le rapport :

)deg21( libertéderéddletddlàFisherdeloinesuit

S

F =∗

9,9 dl

40,2261681222

ddl==

CR

10896381SCR

1ddl

u

18,3=05.0

40,2 ≤=° tFF

Donc l'hypothèse H0 d'homoscédasticité est le modèle nc pas

hétéroscédastique.

retenue, n'est do

57

Page 58: imprimer econometrie

Exercice n°1 de la série n°5. Procéder au test de détection d'une éventuelle hétéroscédasticité : test de Goldfeld-Quandt Etape 1 : ordonner les observations en fonction du temps de vérification.

T Yt

Xt

1 2 3 4 5 6 -- -- --

-- --

-- --

-- 30

4 5 6 8 8 6

-- -- 38

4 4 4 4 4

3,5

-- --

0,5 Etape 2 : oublier arbitrairement C observations existant au centre de échantillon. l'

C = partie entière de (30/4) = 8.

58

Page 59: imprimer econometrie

Etape 3 : régression sur les deux sous-échantillons.

Premier échantillon : t = 1,..11 Deuxième échantillon:t = 20,..30 Yt = 16.93 - 2.13xt + et (2.31) n = 11 R2 = 0,8 SCR1 = ∑(.) = t de Student ddl1 = n-2 = 9

Yt = 4.84 - 1.32xt + et (9.23) n = 11 R2 = 0,002 SCR2 = ∑e2

t = 872.02 (.) = t de Student ddl2 = n-2 =9

e2t = 164.66

Soit l'hypothèse H0

d'ho cédasticitée rapport :

= modèle homoscédastiquemos ,

L

)21(

9

02.

11

ertésu

ddl

F∗

9,9 dl

29.566.1649

SCR ===872

22

ddlSCR

deg libderéddletddlàFisherdeloiuneit

18,3=05.0

29.5 ≥=° tFF

59

Page 60: imprimer econometrie

Donc l'hypothèse H0 d'homoscédasticité est

ous avons :

Y = 24.09 - 4.125 xt t

(4.20)

rejetée, le modèle est donc hétéroscédastique.

2- Test de GLEISJER

txkttypeduou

txkttypeduoutxkt

typeduêtrepeutasticitéhétéroscédlauteurcetpour

ttxjSoit

222ˆ

22ˆ,222ˆ

:',

10

−=

==

+

υσ

υσυ

aae +=

3- Test de Breusch-Pagan

Les étapes de ce test sont : NY = a0 + a1xt+ut

Etape 1: stimation de ce modèle : E

+ u

σ

υ

txtycar 125.409.24ˆ −=

60

Page 61: imprimer econometrie

NB. Au lieu de travailler à l'aide de (Ut) 2, nous allons la remplacer par |Ut|. Soit l'hypothèse suivante :

)tan'(var

:

ˆ

:sup,

.......10ˆ

.:ˆ

:

2)2(),...2

,1

2(0

teconsesterreurldeianceil

S

H

alorsL

KKU

queposonsnousçadelieuAu

xxU

xsurregresséeydeestiméeerreurU

écritOn

UEk

xxxUEH

++++=

===

αδδδ

σ

21 KK

.......110 x +++= δδ x +αδ

' estnullehypothèse

0.......210 K ===== δδδ

,vérifiéeesthypothèsecettei

hom itéoscédasticalorsya

Etape 2:

URdecul

ˆ2

caletMMCOparUdeEstimation ˆ

61

Page 62: imprimer econometrie

En utilisant le logiciel E.Views, on aura :

n = 30 t de student pour xt = 2.55

αδδ ++= txtUSoit 10ˆ

α+−= txtU 46.109.8ˆ

189.0ˆ

2=

tUR

62

Page 63: imprimer econometrie

onc, on rejette l'hypothèse HO omoscédasticité), le modèle est donc étéroscédastique.

B. Correction de l'hétéroscédasticité etenons la forme d'hétéroscédasticité

Etape 3: Calcul de F°

D(hh

Rsuivante :

20.4)1,(

)28,1(

54.6)230(

)189.01(1

189.0)1(

ˆ2

=−−

=

−−

−−

⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜

DlknktFàdoncest

kntU

R

k

R

FtU

ˆ

21

=

F

63

Page 64: imprimer econometrie

64

de Gleisjer a montré une utr lle

l'ho

Pour corriger l'homoscédasticité dans ce cas,

txktU

222ˆ =

L'application de la régression pondérée par le facteur 1/xt, conduit à un modèle homoscédastique. Méthode 1:

σ

22ˆ1

)2

(212)('

10

k

tUEtxtx

tUEoùD

txt

2tU

tx

Méthode 2: Le Testa e relation sous la forme de laque

moscédasticité peut être pondérée :

U

txtx

atx

a

txty

==

=

++=

σ

txktU

22ˆ =2

σ

nous utilisons la régression pondérée (divisée) par le facteur (xt)1/2.

Page 65: imprimer econometrie

de la manière suivante :

tx=2/1txAvec )(:

donc :

txtU

txtx

atx

a

txty

++= 10

22ˆ12)(' ktUxtx

tUEoùD == σ

Donc le tableau de données sera transformé

t

65

Page 66: imprimer econometrie

Le modèle estimé par la MMCO sera la suivant : At = n1 1t + n2 x2t εt

Par le logiciel E.views, on aura : Les coefficients du modèle initial sont :

−−−−−−−−−−−−−−−−−−−−

==

00.250.050.200.250.000.2

211 tx

t

−−−−−−−−−−

xtx

txtxtx

tytA

x +

66

Page 67: imprimer econometrie

Yt = 24.96 - 4.53 xt + et (2.94) n = 30

:mod,

ˆ

doncestestiméèlee

==

53.411 lna =

96.2400 etn

−=

a

67

Page 68: imprimer econometrie

PRINCIPES DE L’ANALYSE FACTORIELLE • Projection des individus Les coordonnées des points du nuage par

apport aux facteurs sur lesquels la projection st effectuée sont faciles à calculer en ppliquant la forme linéaire reliant un facteur ux variables. Les nouvelles coordonnées sont ouvent désignées par "scores factoriels". Le chéma suivant donne un exemple de rojection dans le plan défini par les deux remiers axes factoriels.

d'o ple, les points 1 et 6 semblent très voisins. Peut-on en déd

comme pour les var

reaasspp

La projection des points-individus permetbtenir des groupes. Par exem

uire que les individus correspondants ont des réponses presque identiques aux questions qui leur sont posées?. La réponse à cette question nécessite de prendre quelques précautions. En effet, les axes obtenus résument au mieux l'information apportée par l'ensemble des points, mais pas l'information apportée par chaque individu pris isolément. Il est donc possible,

iables, que certains individus soient mal représentés par leurs projections sur le premier plan factoriel.

Il ne faut pas non plus oublier, pour juger de la proximité de points, les valeurs

68

Page 69: imprimer econometrie

respectives des quantités d'information restituées par les différents facteurs. Ainsi, les points 7 et 8 sont plus proches que les points 8 et 9 car le premier facteur restitue deux fois plus d'information que le second et joue donc un rôle plus important dans les distances entre points.

.1

.3

.4

• Pro

uaimportande voir gde projetconstituécorrespo

Q n

F220%

.6

.2

.5 .9

jection de groupes d'individus d le nombre d'indi us est t, les projections ne permettent rande chose. Il est alors recommer les centres de gravité des gros pour voir si les varia

ndantes sont liées à l'analyse.

vid

69

F2

40%

.7 .8

trop plus andé upes bles

Page 70: imprimer econometrie

Le schéma suivant représente la projection des centres de gravité des groupes constitués par classe d'âge sur un échantillon de 1000 ménagères. Prenons, par exemple, les ménagères âgé n ait queCh

alculer la

chacun des groupes.

es de 18 à 24 ans. Supposons qu'il n'y e 97 dans l'échantillon de 1000 personnes.

acune d'entre elles a une projection sur le premier facteur, soit F1 (i). la projection du centre de gravité de la classe est donnée par :

Toutes les autres coordonnées sont

obtenues de la même façon. Il faut cependant, contrôler la dispersion des projections autour des centres de gravité. Avant, par exemple, de conclure que l'âge est très important en liaison avec le premier facteur (et pas avec le second), il est nécessaire de c

)(971 197

1 ii

F∑

matrice des variances-covariances interne à

=

F220%

* 65 ans et plus * 45/54 ans

* 35/44 ans * 18/24 ans

F1

40%

* 55/64 ans

* 25/34 ans

70

Page 71: imprimer econometrie

16 ménagères âgées de 18 à 24 ans ont été projetées dans le plan (F1 et F2). Les projections données dans les figures ui antes ne p rmettent pas les mêmes

conclusions. La distribution de la figure se trouvant à gauche permet d'affirmer que la projection du centre de que sa position dans le plan factoriel peut conduire à une interprétation solide; il n'en va

t pas de mê la distributide la figure de droite.

s v e

gravité a un sens et

évidemmen me pour on

Si chacun des groupes est concentré à proximité de son centre de gravité, alors l'interprétation d'une liaison entre l'âge et le premier facteur est fondée. Cela revient à essayer d'interpréter les facteurs, ce qui est aussi le but de la projection des variables initiales.

. . . .

F220%

F220%

. . . . . . . .18/24 ans

. . . . . . . . . . .18/24 ans . . . . . .

F1 40%

F1 40%

. .

71

Page 72: imprimer econometrie

• Projection simultanée des individus et des variables our déterminer qu l t

es groupes, il serait intéressant de projeter à a e grap individus ou ravité ) t s variables initiales. I e que l'éc e

représenter les variables est arbitraire et que

pas de sens. Seu dir n qui repréles

P es variables séparenell l fois, sur le mêm hique, les( les centres de g

lede certains groupesl faut faire attentione

c pendant au fait helle permettant d

la proximité d'une variable et d'un groupe n'a le la ectio s nte e

coefficients de corrélation est importante.

72

X

- 1

35,44 ans .

1 F1

40% 1

1

+

X'

Page 73: imprimer econometrie

Sur ce graphique, deux échelles différentes ont représentées. Pou première, X1 a l'air roche du centre de gravité des ménagères gées de 35 4 ans. Mais p la secochelle, X'1 (qui n'est autre que X1) est eaucoup plus éloignée. La proximité entre X1 t le point (35/44 ans) n'a pas de sens alors ue la proximité de la direction commune de 1 et X'1 avec ce point en a une. Modalités d'application

l'information apportée par l'ensemble de ces variables, d'autre part de découvrir, quand ils existent, les variables latentes sous-jacentes aux

d'analyse permet de sélectionner par celles qui interviennent le plus dans la description du phénomène étudié. Il est, en

s r lap

à 4â our nde ébeqX

Les domaines d'application de l'analyse factorielle sont extrêmement vastes. Les principaux types d'application seront les suivants.

1- Extraction et interprétation des facteurs

Une analyse factorielle permet, d'une part, de structurer les variables initiales pour construire un résumé de

variables initiales et de les interpréter. 2- Structuration des variables initiales Ce typemi un ensemble important de variables

73

Page 74: imprimer econometrie

effet, possible de ne conserver pour des

ne les var l

);

omportement d'achat et

analyses ultérieures que les variables initiales fortement corrélées avec les facteurs les plus importants.

Enfin pour une bonne application de la méthode, certaines précautions doivent être prises, en particulier en ce qui concer

iab es de départ : • Si les échelles sur lesquelles sont

mesurées les variables sont très différentes, il est bon de centrer et de réduire les variables (en effet, la variance de chaque variable intervient et les variables présentant les variances les plus fortes vont être "avantagées" dans l'analyse

• Les variables introduites dans l'analyse doivent être comparables : il n'est pas justifié d'introduire à la fois des variables d'attitudes, de csocio-économiques. Les axes factoriels obtenus risquent fort de n'avoir aucun sens.

74

Page 75: imprimer econometrie

CHAPITRE II alyse factorielle des correspondances

(A.F.C)

Objectif : A.F.C.

L'an

1-L' vise à traiter l'information

ontenue dans un tableau de contingence ou e dépendance relatif à deux ensembles de ature quelconques.

On peut définir une correspondance entre eux ensembles finis I et J par la donnée 'une loi de probabilité Pij sur le produit I*J.

mais seulement de la distribution des fréquence empiriques fij observée sur une opulation concrète E.

. es éléments de ces deux ensembles sont

pon

cdn

dd

Dans la pratique, on ne dispose pas de Pij,

p

Les éléments ou les groupes à étudier sont ici en correspondance, c'est-à-dire ils présentent des relations entre eux.

Ainsi, on peut, par exemple, étudier la correspondance entre les catégories socio-professionnelles et les principales maladiesL

dérés, CAD que le nombre de malades est différent pour chaque maladie. Ces

75

Page 76: imprimer econometrie

fréquences de répétition s'interprètent facilement en termes de probabilités.

Le tableau de dépendance peut donc être représenté dans un espace approprié par un

Résumé : L'AFC a pour objectif d'étudier la

nuage de points affectés de probabilités.

proximité et la dispersion des différents points du nuage entre eux (les individus, les variables ou les deux à la fois).

2- Position du problème

a. Données brutes Considérons un tableau à double entrée,

où les lignes représentent les n éléments (les ind

bles) d'un ensemble J en correspondance avec I.

tout couple (i,j) ∈ à I*J (CAD l'in s 'une colonne j) est associé un nombre positif kij. Soit donc k un tableau de fréquence (absolues ou

ividus ou les observations) d'un ensemble I et où les colonnes représentent les m éléments (les paramètres ou les varia

I = (1,……….i,….n) l'ensemble des observations;

J = (1,……..j,……….m) l'ensemble des variables.

Ater ection d'une ligne i et d

relatives) d'association de données.

76

Page 77: imprimer econometrie

1 .

.

. i

.

.

. ∑ k

Ensemble J (variables ou paramètres)

J

I 1……………………j………………………………m ∑

1 2 . . i . . n

. . .

………………………kij…………………………….. . . .

∑ k

Soit matriciellement :

K =

K ou X = ensemble I (individus ou observations)

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢⎢⎢⎢⎢

=

nmknjknk

imkijkikXouK

.......................1

.........................................

.................................................................1

⎥⎥

⎢⎢

.........................................

.........................................⎥⎤

⎢⎡

mkjkk 1............1............11

77

Page 78: imprimer econometrie

L'élément ij ou Xij représente la mesure param tre j pour l'individu i.

b. ransformation des données ni

On effectue certaines modifications sur les données avant l'analyse, car on veut comparer les profils (com ortements) des gnes et des colonnes et non les nombres

On note :

kdu è

T si tiales : les p fils ro

plibrutes.

∑∈∈

=

∑∈

=

∑∈

=

JjIinijnet

Iinijjn

Jjnijin

,..

.

.

Le tableau des profils des lignes et alors le suivant :

⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜

⎝ .....

.....

.1

......

.........

nnnmn

nnnjn

nnnn

iii

m

⎟⎟⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜⎜⎜

= ........1............

.1....

.1....

.1

nipn

nijn

nin

nnn

IK

⎜⎛

111 nijnn

n*m ⎜⎜

78

Page 79: imprimer econometrie

Et le tableau des profils des colonnes est le suivant :

N pers villes et villages sur leu lieux de vacances, on obtient un tableau K ou X ayant la forme suivante :

Lieu de vacances

Ainsi donc, dans l'enquête où l'on interroge onnes réparties dans nr m

1…. . …2 . . …. j . ………………m

Localités d'origine 1 2 . . i . . N

. . . . . . . . …………… nij. . . ………. ….. . .

ni.

n.j

⎟⎟⎟⎟⎟⎟⎟

⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜

⎜⎜⎜⎜⎜⎜⎜

mnnmn

pnipn

pnpn

nnn

nnn

nin

nnn

.....

.....

.1

......

......

......

......1.1....

1.1....

1.11

⎟⎟⎟

⎜⎜⎜

jnnj

jnij

jnj

nmjX.

.....

.....

1*:

K =

79

Page 80: imprimer econometrie

possibles :

Le nombre n.j

proviennent de la localité

t le tableau des profils des lignes. Chaque ligne de ce tableau représente les proportions d'individus de la localité i ayant choisi les d érents lieux de vac

3- Principe de la Soient les ensemb

haut. Si au lieu de considérer le tableau des données brutes et le tableau des fréquences, on s'attachait plutôt au caractère probabiliste de ces données, on aboutirait à un nouveau

On a distingué m lieux de vacances Agadir, Alpes, Oukaimden….. etc.

La dernière, CAD la mème correspond à la masse des gens qui ont déclaré ne pas être partis en vacances.

ni. reflète l'importance de la localité d'origine i et le nombre l'importance du lieu de vacances.

Si le nombre ni. est grand, CAD:si beaucoup de personnes interrogées

i (région Rbatie par exemple), la ligne i du tableau risque de jouer un rôle important dans l'analyse.

Pour atténuer les disparités entre taille des localités d'origine, on analyse plutô

i

iff ances.

méthode les I et J définis plut

tableau : celui des correspondances aléatoires des données.

80

Page 81: imprimer econometrie

La probabilité associée au terme Kij est :

81

Les lois de probabilité marginales sont de

même :

Pij est donc une estimation de la

probabilité d'association de (i*j).

D'où le tableau des correspondances ou des probabilités associé au tableau des observations suivant :

Elles vérifient les propriétés :

..kij

ijp =⇒

1 1)*(),(

..

k

n

i

m

j ijkij

ijpijknmji

ksi∑

k

=∑=

=⇒∑∈

=

mjavecn

i ijpjP

jniavecm

j ijpiP

,......,11.

,......,11.

=∑=

=

=∑=

=

∑=

==

=∑=

ellesconditionnésprobabilitm

j jpi 11 .1 . =∑==

=

n

i kjk

kijk

jP

ki

j kij

iP

1 ..

.

...

...

1 ...

np ;1=∑

km k

i

Page 82: imprimer econometrie

J I

1…. . …2 . . …. j . ………………….…m ∑

1 2 . . i . . n

.

.

pi.

. . . . . . . …………… pij. . . ………. ….. ……. . .

∑ p.j 1

Le tableau des observations peut être ainsi représenté par variant de 1 à n). Li=(Pi1/Pi., P i. ……….. Pim/Pi.)

n points Li (ii2/Pi. ,….., Pij/P

Dans un espace à mLi

Pi. .

dimensions Rm, chaque point étant pondéré par la probabilité

On obtienéré a

A(I) = ⎨L

Ensemble I

* Li * * *

pond s ssoi; P

* Pi. * * . * * n points

) P1.

Ensem Pi.

Pn.

ble I

L1

L2

.

.

Li

Ln

t alors le nuage de poid sciés à l'ensemble I (indiv u

i.⎬

82

A(1

ints ) :

Page 83: imprimer econometrie

4- La distance : le X2 du tableau de contingence

e passage de i à i' (ou de i' à i) a peu d'influences sur la structure de l'ensemble des paramètres J. Cette proximité est traduite par une distance, notée d2(i, i'

a distance doptée en A.F.C.la roximité o la similarité ent

dite d X entre deux distributions istance associ e à Pij). Cette distance entre deux séries de

équences se p e :

Nous savons que la proximité des projections concerne les profils des points-

s bs Avariables ou des point -o ervations (C D Pij/ ou P /P ). Il reste à adopter une Pi. ij .jdistance.

Deux individus i et i' de l'ensemble I seront dits proches si l

). L a pour définir

re i et i' est lap u2distance u

(d é

fr résent comme suit

jiiP

jietijiPijP

'.'

'

.αα ==

P

i

2

.

mj P

jiP

iPijP

jPiid1 '

'

..1)',(

2∑=

⎟⎠

⎜⎝

−=⎟⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎜⎛

posantEn :

83

Page 84: imprimer econometrie

Cette distance s'écrit sous forme matricielle :

La distance

quadratique. i a

pour coordonnées :

d2(i, i') apparaît ainsi comme la distance engendrée par une forme quadratique définie positive de matrice D, dans un espace vectoriel euclidien.

Par normalisation des axes, il est possible de rendre unitaire la matrice de la forme

Dans ces nouveaux axes, l'individu

⎟⎟⎟⎟⎞

⎜⎜⎜⎛

⎟⎟⎟⎞

⎜⎜⎜⎛

−××−= ijDijiid '

'

')'

,(2

αααα⎠

⎜⎝

⎟⎠

⎜⎝

⎟⎠

jiji

⎟⎟⎞

⎜⎜⎜

⎟⎟⎟⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎜⎜⎜⎛

⎟⎟⎟⎟

⎜⎜⎜⎜

−−=jiijjP

P

jiijiid '.1

1.1

'

')',(2

αααα

⎟⎟⎟

⎠⎜⎜⎜

encoresoitmP

:.

1

;.

1ij

jPijBavec α=

;..,,.........,.......,2,1 imBijBiBiBiM = ⎟⎟⎠

⎞⎜⎜⎝

84

Page 85: imprimer econometrie

..

1:iPijP

jPijBencoreou =

85

,

La distance entre deux points Mi et Mi' est, de la m

La pondération du point i étant toujours Pi.Le nuage de points associés à l'ensemble I

apparaît comme la donnée de n points Michaque point Mi étant pondéré par la probabilité Pi.

Si on désigne par B(I) ce nouveau nuage de points :

Rm

ême façon :

* Li * * * * Pi. * * . * * n points

B(I )= ⎨Mi ; Pi.⎬

B(I)

Page 86: imprimer econometrie

Soit encore : ⎠⎝

Le nuag B(I) est ainsi dans un hyperplan d'équation :

Et finalement :

1 '' = ⎟⎜j jiijii

⎟⎟⎟⎟

⎜⎜⎛

⎟⎟⎟⎟

⎜⎜⎜ −−=

jiBB

jiBijB

iMiMd '

'

')',(2

2),(2

∑ −= ⎟⎟⎟⎞

⎜⎜⎜⎛m BBMMd

⎜⎛

⎜⎜

⎝ij

e

11 . =∑= ijB

j JPm

En effet, d'une part :

D'autre part :

1..1

1.1

1 .1==∑

==∑

=∑=

= iPPimj ijP

iPmj iP

ijPmj ijα

∑=

∑= j ijjj ij 1 .1

=m BPm α

1=∑ Bm

P1 .= ijj J

86

Page 87: imprimer econometrie

5- La détermination du nombre d'axes

coo

faut projeter les points du nuage sur des axe ecteur unitaire (U1, U2, miser la somme des

observations aux axes factoriels :

factoriels Il s'agit d'extraire les axes factoriels du

nuage de points-observations Nm dans Rm, de rdonnées :

87

Ils (F1, F2,…..) de v….) de façon à maxi

carrés des distances entre les projections des points-observations sur ces axes factoriels, ou ce qui revient au même, à minimiser la somme des carrés des distances des points-

Soit graphiquem

ent :

Jjj

Pi

Pij

P∈∀

..

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

∑=

−−2

1)(.min' n

i idiPquantitélaimiseràdireàestc

G F1Bi1

Xi1

Bi2

Xi2

Soit on maximise cette distance

Soit on minimise di1 di2

cette distance

Page 88: imprimer econometrie

Les axes factoriels sont donnés par les vec

ge pour le fac

e % varie entre 0 et 1 (la valeur 1 lorsque

e 2 axe factoriel à reten

teurs propres de la matrice des variances-covariances des variables.

Le facteur lié à la plus grande valeur propre λi sera le premier axe factoriel. C'est le facteur le plus explicatif de la dispersion du nuage de points-observations.

On calcule donc le pourcentage d'explication de l'inertie du nua

teur F1. C

le point est situé sur l'axe factoriel). L ème ir sera celui qui

est associé à la 2ème plus grande valeur propre, et ainsi de suite.

Remarques : 1. Les axes factoriels (ou les facteurs) sont

cn corrél eux;

. La somme des valeurs propres (∑λ )

qu'on a étudié les

rande relation entre les facteurs de Rm et les facteurs

orthogonaux deux à deux et sont donno és entre

2 iqui donne l'inertie totale du nuage de points est appelée "trace";

3. De la même façon proximités entre n points de Rm, on peut étudier les proximités de m points (CAD les variables) dans Rm;

4. En réalité, il y a une g

88

Page 89: imprimer econometrie

de Rn. en effet, l'objectif même de l'A.F.C. est de représenter, sur le même graphique, dans le plan de deux

le I et les

premiers axes factoriels, les proximités entre les éléments de l'ensembproximités entre les éléments de l'ensemble J.

89

Page 90: imprimer econometrie

CHAPITRE II L'analyse factorielle des correspondances

(A.F.C) Cas pratique N°1

n veut étudier la répartition des âges d'une population à l'intérieur de l'audience de chacune des radios.

n ordonnées figurent les effectifs d'auditeurs dans l'échantillon.

Tableau 1 :(pourcentage en colonnes sur 1344 citations)

RADIO AGE

FR. INTER

EUROPE1 RADIO. VILLE

HORIZON

O

E

15- 20 ANS 5 8 23 30 20- 30 ANS 18 10 31 38 30- 40 ANS 23 23 23 21 40- 50 ANS 17 21 12 7 50- 60 ANS 14 16 4 2 + 60 ANS 23 21 7 2 TOTAL 100 100 100 100

RADIO AGE

EPOQUE VILLE. INFO

RMC. RTL

MUS. PAROLES

TOTAL

15-20 ANS 7 3 7 2 13 20- 30 ANS 31 8 16 10 22 30- 40 ANS 22 12 22 23 20 40- 50 ANS 12 15 22 12 15 50- 60 ANS 13 27 20 27 12 + 60 ANS 13 5 37 15 24 1TOTAL 100 100 100 100 100

dios. A radio Ville et

Dans ce tableau, on met en évidence les différences d'une tranche à l'autre à l'intérieur de chacune des ra

90

Page 91: imprimer econometrie

Hos 50-60 ans.

Da e

tre la str e cel'intérieur de chaque radio.

ableau différence oute et st ure de l'audience

FR. INTER

EUROPE1 RADIO. VILLE

ORIZON

rizon les 20-30 ans sont les plus nombreux, à ville Info ce sont le

ns un second tableau, on peut fairapparaître les différences d'écoute d'une radio à l'au et ucture d l'audien à

T 2: d c'é ruct

RADIO AGE

H

15-20 ANS 21 60 66 13 20- 30 ANS 28 82 82 48 30- 40 ANS 45 63 64 6140- 50 ANS 46 3 6 59 3 150- 60 ANS 38 10 4 45+ 60 ANS 19 5 61 58TOTAL 2 65 218 69 275 2

RADIO AGE

EPOQUE VILLE. IN

RMC. RTL

MUS. PAROLES

TO FO

TAL

15-20 ANS 2 176 5 8 1

20- 30 ANS 21 6 19 5 291 30 - 40 ANS 15 17 23 6 29440 - 50 ANS 8 11 26 6 20550- 60 ANS 9 20 23 13 162 + 06 60 ANS 9 18 18 18 2TOT AL 67 74 117 49 1334

Il apparaît ainsi que les audiences de Ville Info et Horizon diffèrent nettement par rapport à la répartition des âges dans l'échantillon. Horizon attire les jeunes, alors

91

Page 92: imprimer econometrie

que Ville Info a beaucoup plus de succès armi les plus ancie

e icu s ounan les pourcen en lignes et

san es chi-deux. v ons si q les tes e f rielle mette de mett en ce carts ne m re beau up

nthé ue. Un eule c e peut s fire g s n

r LE TES S ST TISTI UESsts atistiq es in ent d s queles sulta établ sur l'é antillêtr ppliq à la pulati totaluns porte sur 'exact de dion n po enta ou en oyenn

dent es h thès répon nt as : " a….

p ns. Cett part larité e t retr vée en

raison t sur tages en analy t l

Nous err aus ue card'analys acto per nt re évidence s é d'u aniè coplus sy tiq e s art uflà où

cessai8 diaes.

ramme bâto s seraient né

I - S T A Q Les te st u diqu an lle

mesure peuvent

rée a

ts ués

is po

chon

on e.

Les nt l itu es observat s e urc ge m e. Ils fon l ypo es da ux énoncé il y ";

Les autres visent à tester l'existence l'absence de rapports (relations, correspondances, influences) entre variables ou questions. Ils s'appliquent aux hypothèses énoncées sous la forme :" Si….Alors".

On peut noter que ces tests n'ont de sens que si les données auxq

ou

uelles on les applique sont issues d'un sondage aléatoire.

92

Page 93: imprimer econometrie

1. Intervalles de confiance et comparaison de fréquences ou de moyennes

La théorie de l'échantillonnage nous enseigne que l'estimation est le procédé par lequel on passe d'une connaissance certaine dans l'échantillon à l'estimation incertaine du même phénomène dans la population totale.

Le logiciel Sphinx permet de d'obtenir des indications sur la qualité de ces estimations. On peut, ainsi, déterminer des intervalles de confiance pour une taille d'échantillon donné. Au lancement des tris, le Sphinx envoie les messages suivants:

- Effectif inférieur à 30 : "nombre d'observations très réduit"

- Effectif compris entre 30 et 40 : "Avec….observations, l'erreur d'observation est importante : estimation très imprécise"

- Effectif compris entre 40 et 80 : "estimation imprécise". Tableau 3 : Analyse des tris à plat-TEST STAT

3 Taux d'écoute fourchette à 95%

1 radio.ville 280 23% 21%< <25% 2 horizon 224 19% 17%< <21% 3 ville.info 75 6% 5%< <7% 4 époque 67 6%

Estimcompde fréqu

ation et araison

ences 5%< <7% 5 musica 34 3% 2%< <4% 6 couleur 3 18 2% 1%< <3% 7 paroles 16 1% 0%< <2% Total OBS 1192 L'écart entre les fréquences est significatif

93

Page 94: imprimer econometrie

94

Avec : N : taille de l'échantillon ou de la strate

: fréquence dans l'échantillon % f m s : Tabl

Valorisation monocritère

: moyenne dans l'échantillon % écart-type

eau 4 :VALORISATION CROISEE-TEST STAT suivant le critère coût Vacances

Modalité Effectifs Moyennes Intervalle de confiance à 96% 1 Hôtel 3/4* 39 5 < 8237 709 m < 9380 2 Hôtel 2* 100 8 2 < 606 547 m < 6664 3 Meublé 285 5549 4 < m495 < 6144 4 Ensemble 718 57 0 < m 47 446 < 5054 5 Collectivité

30 39

36

2849 < m < 4429

6 Résid.second

119 3532

3127 < m < 3937

7 Parents amis 135 2541 2250 < m < 2832 Différence non significative à 95%

Dans le premier tableau, on été demandés l'affichage des intervalles de confiance, puis la comparaison des fréquences 1 et 2. On vérifie ainsi qu'il est correct d'annoncer Radio Ville

⎥⎥⎥

⎢⎢⎢

⎥⎥

+−

+−

NsmN

sm

NfN

2*96.1

2*96.1

*96.1*96.1⎤

⎢⎡ −− fffff )1()1(⎢⎣

Page 95: imprimer econometrie

en tête. La probabilité pour que la différence s vé ge

nfiance di ut tirer

du fait que Musica evance Couleur 3 de 16 auditeurs. La

les intervalles de confiance se chevauchent.

dee sur tour Ont

tions s hébe ent du de se can près c

modes d'hébergement dans l'ordre nt leu oût, l

confiance à été demandé. Il indique qu'en le t de ances

chaque mode à l'intérieur de la fourchette t mo e ob

l'échantillon. on constate après vérification

ob er e ne soit due qu'aux aléas du sondan'est que de 5%. Les intervales de cosont sjoints. En revanche, on ne peaucune conclusionddifférence n'est pas significative,

Le uxième exemple concerne une enquêt le isme. été croisés les ques ur l' rgem répondant et le coût s va ces. A lassement des

décroissa de r c 'intervalle de

moyenne, coû s vac se situe pour

encadran la yenn servée dans

(comparaison de moyenne) qu'on ne peut pas dire que les vacances en collectivité reviennent plus cher qu'en résidence secondaire. L'écart de 107 dh n'est pas suffisant pour conclure dans ce sens. Le nombre d'étoiles des hôtels a en revanche une influence significative sur le coût des vacances. L'écart est de l'ordre de 2000 dh, les intervalles de confiance sont disjoints.

95

Page 96: imprimer econometrie

2. Le Chi-deux pour analyser les écarts entre deux distributions

Les tests de comparaison de fréquences et de moyennes consistent à examiner l'écart entre deux de ces grandeurs. S'il est important, on décidera que l'une est plus grande que l'autre. dans le cas contraire, on ne prendra pas de risque de donner un sens à une différence qui n'est peut-être due qu'aux aléas du sondage.

Pour comparer des distributions, on raisonne en examinant un écart total (somme d'écarts partiels). C'est ce qu'on fait pour analyser des tris à plat ou des tris croisés.

On faisant la somme, les écarts positifs peuvent s'annuler par les écarts négatifs. Pour éviter cela, les statisticiens élèvent les différences au carré, d'où le nom du test du Chi-deux (x2) (carré des écarts).

* Chi-deux appliqué à un tri à plat A ce niveau, la définition des effectifs

théoriques peut se faire : Avec "équi-répartition" : on considère une distribution où toutes les modalités

-

ont le même effectif; - Avec "Fixer les effectifs théoriques" :

l'utilisateur peut entrer la répartition de

96

Page 97: imprimer econometrie

son choix (sur la base des faits ou réalités).

Exemple 1 : prenons le cas d'un échantillon où il y a 55% de femmes et 45% d'h

la rép

effectifs est fixé, l'autre s'en déduit.

(657-59que sous les hypothèses d'un tirage aléatoire, il y a soit qudeux p é).

qu'il yDoit-orésultats obtenus? Après avoir indiqué la rép

che. Cela veut bien montrer que la diff

ommes. Peut-on, sur cette base, dire que hommes

et femmes sont inégalement présents dans la population? Cela revient à comparer à

artition 50-50 (équi-répartition) qui devrait donner 596 femmes et 596 hommes. En réalité, il y a 61 hommes en plus et 61 femmes en moins. On dit qu'il n'y a qu'un seul degré de liberté car l'un des

Le Chi-deux est égal à 12 soit 6)2/657+(535-596)2/535. Ceci signifie

1% de chances pour qu'un tel écart ne e le fait du hasard. (voir la table de chi-our 1 degré de libert

En réalité, nous savons par le recensement a 53% de femmes et 47% d'hommes. n, dans ces conditions, s'étonner des

artition théorique (53%, 47%), le message "Ecart Non Significatif" (chi-deux = 2, p =84%) s'affi

érence de 25 hommes en plus et 25

97

Page 98: imprimer econometrie

femmes en moins peut très bien s'expliquer par les effets du hasard (16%).

Peut- n alors prendre le risque pour considérer que la procédure d'interrogation introduit un biais systématique? On considère, en général, qu'en dessous d'un seuil de 85%, la probab

o

ilité de dire vrai est tro

ce plus forte à éco

zon. Le chi-deux est

: "éc

p faible. Exemple 2. Considérons le comportement

d'écoute de la strate "femmes". Peut-on dire que le comportement des

femmes diffère de celui de la population totale? Ont-elles une tendan

uter telle ou telle radio? Pour le savoir, il faut comparer la

distribution réelle (25%, 20%, 6%,….), caractérisant le comportement des femmes à la distribution obtenue sur l'échantillon total de toute la population (23%, 19%, 6%….): voir tableau 3.

D'après le tableau des résultats, le Sphinx affiche les écarts aux effectifs théoriques et calcule le chi-deux. On attire l'attention du lecteur donc sur les écarts les plus importants : 66 et 53 auditrices de plus pour Radio Ville et Horide 10 pour 7 degré de liberté. Le message correspondant s'affiche

art peu significatif". Le seuil de 85% est dépassé. Les chances pour que cet effet ne soit dû qu'au hasard sont non négligeables (12% dans ce cas).

98

Page 99: imprimer econometrie

uestion filtré par SEXE : FEMININ) Ecarts aux effectifs théoriques RADIO.VILLE 164 25% 23% 66 HORIZON 134 20% 19% 53 EPOQUE 37 6% 6% 11 VILLE INFO 46 7% 6% 20 MUSICA 24 4% 3% 11 PAROLES 12 2% 1% 8 COULEUR 3 8 1% 2% - 1 otal 657 cart peu significatif

chi-deux = 10 p = 88% 7 degrés de liberté)

Chi-deux

Fixer les effectifs théoriques

Distribution théorique : 53% 4Données recensement

7%

tat

Question

n°27 sexe Ecart aux valeurs théoriques

1féminin 657 55% 61 2 masculin 535 45% -61 total 1192 100% Ecart significatif (chi-deux = 12 p = 99%)

Q( 1234567tE(

Equi-répartition

DistribHypoth

ution théorique : 50% 50% èses égalités des effectifs

STRATE SEXE : FEMININ

CHI-DEUX

FIXER effectifs théorique

Distribution théorique : Taux d'écoute sur échantillon total

Tableau n°5

Question n°27 sexe Ecart aux valeurs théoriques 1 féminin 657 55% 53% 25 2 masculin 535 45% 47 - 25 Total 1192 100% Ecart non significatif (chi-deux = 2 p = 84%)

99

Page 100: imprimer econometrie

∑= ⎠⎝erx

=

−⎟⎟⎞

⎜⎜⎛

iietiet

1

2

m d grés d iberté

*m si question type 2 ou

i réels de la modalité i

m

m2i

no bre e de e l : c'est *m-1

3 et total observation

et effectifs théoriques de la modalité i eri effectifs

nombre de modalité

D'après cet encad b d ésde i rté est égal a bre e utableau moins une, sauf s'il s'agit d'une

répons ltiple t esréponses sont effectuées par rapport au nombre total d'observations. Dans ce cas, en effet, le nombre total de citations n'est nullement contraint : la connaissance des

m-1 premières modalités ne rminer ceux de la dernière.

Chi-deux appliqué à un tri croisé

ré, le nom re de egr l u nom de lign s d be

question à es mu s don l

effe tifs descper et pas de détem

*

onsidérons toujours l'exemple de l'analyse du comportement d'écoute et étudions un tableau croisé. On peut comparer

C

100

Page 101: imprimer econometrie

le taux d'écoute des femmes à celui des hommes. Les femmes ont-elles le même

i les femmes ont le même comportement que les hommes, l'audience de chaque radio devrait comprendre une proportion égale

r pour chaque radio, Pour faire ce calcul, il faut connaître,

ie et la rti s dans

e tableau obtenu correspond à une répartition proportionnelle des sexes dans

locales, il devrait y avoir parmi les 280 au ortion des

comportement que les hommes? S

d'hommes et de femmes. Si cela est vrai, la règ e d ois devrait donnel e tr

le nombre d'auditeurs des deux sexes.

l'au nce totale de chaque radiodrép tion hommes/femmeal'échantillon.

C

l'audience de chaque radio ou des comportements d'écoute pour chacun des sexes. C'est donc le tableau des effectifs théoriques, celui auquel on s'attend dans l'hypothèse d'absence d'influence (hypothèse nulle) du sexe sur l'écoute.

La première étape consiste donc à calculer le tableau des effectifs théoriques. Si le sexe n'a pas d'influence sur l'écoute des radios

diteurs de radio ville, la même prop femmes et d'hommes que dans

l'échantillon, soit respectivement 425/714 et

101

Page 102: imprimer econometrie

289/714. On en déduit la répartition théorique : 167 femmes et 113 hommes.

Il s'agit, ensuite, comme pour le tri à plat, de

portance de ces distorsions. On y

biais du Sphinx. Il faut de ce fait se

calculer le chi-deux comme la somme des carrés des écarts (effectifs réels moins effectifs théoriques). On divise par les totaux de chaque cellule pour éliminer l'effet de masse : le déficit de 3 auditrices sur Couleur 3 est relativement plus important que le même écart observé sur Radio ville.

Le tableau des contributions au chi-deux (% chi-deux partiel/chi-deux total) rend compte de l'im

voit qu'elles sont les plus fortes dans l'audience de Musica, Paroles et Couleur 3. Les écarts sur ces radios représentent 87% (12 + 18 + 11 + 16 + 12 + 18) du chi-deux total.

Le chiffre indique le % du chi-deux partiel au chi-deux total, le signe indique le sens de l'écart.

• Le + signifie qu'il y a excès d'effectifs par rapport à l'indépendance. Dans notre exemple, Musica attire plus les femmes;

• Le signe - indique un déficit. Paroles "repousse" les hommes.

Le tableau des contributions au chi-deux s'affiche automatiquement par la

102

Page 103: imprimer econometrie

méfier de la portée des conclusions qu'il suggère. Les écarts sont-ils suffisamment gra

que la valeur du chi

ant la valeur P, l'un des messages sui

85% DEPENDANCE PEU

*

R

nds pour conclure à l'existence d'une influence se traduisant par des "excédents-attractions" ou des déficits-répulsions" entre modalités lignes et colonnes?

La réponse est souvent fournie par l'application du test. Il consiste à déterminer quelle est la probabilité p pour

-deux ne soit pas l'effet des simples aléas du sondage. Pour un chi-deux donné, cette probabilité dépend de la taille du tableau (ou nombre de degrés de liberté). En effet, plus les cellules sont nombreuses, plus de petits écarts sur chaque cellule peuvent conduire à un écart total important.

Suivvants s'affiche : * P > 95% DEPENDANCE SIGNIFICATIVE * 95% > P <

SIGNIFICATIVE P < 85% IL N' Y A PAS DE DEPENDANCE SIGNIFICATIVE

EMARQUE

Il ne s'agit pas, à ce niveau, d'indications à suivre. L'utilisateur ou le statisticien peut en décider autrement s'il le juge justifié.

103

Page 104: imprimer econometrie

Dans notre cas, la réponse est "non". Le chi-deux est trop faible et il y a près d'une chance sur deux pour que les écarts d'effectifs ne tiennent qu'a l'effet sondage (la probabilité de dire vrai n'est que de 55%). L'examen du tableau des effectifs le confirme intuitivement.

peut donc être opportun de rés

n tabla s

Nous concluons donc que finalement le sexe n'a pas d'influence sur le comportement d'écoute. l'hypothèse d'indépendance est confirmée.

En théorie, le test n'est influant et concluant que si les effectifs des cellules du tableau théorique sont au moins égaux à 5. L'écran du Sphinx rend compte de cette remarque en indiquant le nombre de cellules d'effectifs inférieur à 5. Il

umer l'information en regroupant des lignes ou des colonnes.

En résumé, la démarche d'analyse d'uale u croisé utilisant le test du chi-deux est

uivante :

1. Formulation de l'hypothèse de dépendance : Si le sexe Alors L'Ecoute (de l'hypothèse symétrique d'indépendance, dite aussi hypothèse nulle);

résultat du test : acceptation de2. Examen du l'hypothèse si la dépendance est significative, refus dans le cas contraire : "Il n'y a pas de dépendance significative";

3. Analyse des écarts guidée par l'examen des contributions au chi-deux si et seulement si l'hypothèse nulle est rejetée.

104

Page 105: imprimer econometrie

II- DIFFICULTES D'INTERPRETATION DES TESTS

STATISTIQUES Les tests n'apportent qu'une information

statistique, relative aux fréquences ou moyennes considérées. Le sens qu'on leur attribue dépend de la nature et du contenu des informations traitées. L'oublier peut conduire à de grossières erreurs d'interprétation.

Le tableau n°7 retrace l'exemple d'une étude qui cherche à savoir si le mode d'interview a une influence ou pas sur l'âge des personnes consultées.

L'hypothèse de départ est la suivante : "le mode de contact a une influence sur l'identité du répondant". Il n'est cependant pas toujours facile de choisir le bon sens pour énoncer l'hypothèse.

Parfois, des tableaux croisés traduisent en fait des influences doubles. A l'homme d'étude de trancher et de déc

te 96% du chi-deux total. C'est-à-dire que l'écart entre le tableau réel et le tableau théorique vienave lemosur

ncorrespondant aux non réponses et en appliquant le test du chi-deux au nouveau tab ea ableau n°7), on

ider selon le contexte ou les perspectives d'action. Ainsi, l'examen détaillé des chi-deux partiels du

tableau 7 montre que la cellule non-réponse/non-réponse représen

t surtout du fait que 6 questionnaires ont été saisis code non-réponse pour les deux variables (âge et c

de d'interview). ces questionnaires n'apportent rien e phénomène étudié.

supprimant les lignes et les colonnes lE

u (voir toujours tl

105

Page 106: imprimer econometrie

parvient à la conclusion inverse de la préd'influence sur l'âge des répondants".

test de correspondances

lule à l'écart total, ind

cor

montrer, les jeunes ont des

cédente : "le mode d'interview n'a pas En

raisonnant sur le premier tableau, on attribuait d'une manière abusive au mode d'interview un effet qui ne se manifeste en fait que sur les quelques questionnaires comportant une non-réponse.

JUGEMENT PARTIEL PLUTOT QUE GLOBAL : le chi-deux, un

L'examen précédent nous montre qu'il ne suffit pas de prendre en considération le chi-deux total. Il faut aussi considérer la contribution de chaque cel

ication fournie par le pourcentage entre chi-deux partiel et chi-deux total.

Le chi-deux est en réalité un indicateur de respondance. Dans le tableau n°8, il ne

suffit pas de dire que l'âge a une influence sur les habitudes d'écoute. Cela n'est juste que pour certaines tranches d'âge et pour certaines radios. Il faut, en plus, pouvoir spécifier à quelle tranche d'âge correspond telle radio.

En fait, comme l'analyse des pourcentages en lignes suffit à le

habitudes d'écoute différentes de la population totale et des plus âgés : ils sont proportionnellement plus nombreux à écouter Horizon ou Radio Ville, et moins

106

Page 107: imprimer econometrie

nombreux à écouter les radios nationales. On en conclut qu'ils sont attirés par les premières et qu'ils délaissent les secondes.

Quant aux 30-40 ans ou aux 50-60 ans, ils répartissent leur écoute à peu près à proportion de l'audience globale de chaque radio. Leur comportement ne peut être distingué de celui de l'ensemble de la population. Il en va de même pour les auditeu

C'est ce que traduit bien le tableau des contributions au chi-deux. Les lignes ou colonnes pour lesquelles les contributions au chi-deux sont les plus fortes (en gras) s'écartent du comportement moyen. En effet, certaines tranches d'âge privilégient ou délaissent certaines radios, mais ce n'est vrai ni pour toutes les tranches d'âge, ni pour toutes les radios.

rs d'Epoque.

Le jugement global fourni par le test du chi-deux doit donc être précisé par l'examen des contributions au chi-deux et des données de départ (pourcentages, effectifs). Il ne suffit pas d'indiquer qu'il y a dépendance, il faut préciser qu'elles correspondances elle permet d'établir.

107

Page 108: imprimer econometrie

CHAPITRE II L'analyse factorielle des correspondances

(A.F.C) Cas pratique N°2

L'A.F.C résume l'information contenue dans des tableaux de données, mais aussi elle remplace les diagrammes en bâtons, etc.

Reprenons l'exemple de l'écoute des radios en fonction de l'âge des sujets ou de l'audience.

Sur une carte factorielle, les distances sont facteurs de ressemblance ou de dissemblances. Les concentrations de points définissent des zones opposables les unes aux autres.

Sur la première carte présentée et qui concerne l'exemple cité plus haut, on peut remarquer qu'elle oppose les radios des jeunes aux radios des anciens. Aussi, dans une zone centrale, on voit le regroupement des radios nationales et auditeurs d'âge médian.

ur cette carte, on notera aussi que : les pavés vides représentent les modalités en lignes; les pavés pleins font référence aux modalités en colonnes; la surface des pavés est proportionnelle aux effectifs des modalités considérées

S-

-

-

108

Page 109: imprimer econometrie

(nombres du tableau initial). On peut

de Epoque et Mus.Paroles est faible (voir le tableau initial de l'échantillon;

oter

originales

ique, on se reportant aux tableaux des

et de forts écarts à l'indépendance. cela s'explique par les chiffres figurant en car ccorre

Les 30-40 ans et ceux qui écoutent Epoque sodire

avancer, à travers la carte que l'audience

elles ont respectivement 67 et 49 auditeurs).

A partir de cette carte, on peut aussi nque :

- A la périphérie, il y a les modalités

Horizon et Radio Ville, les 15-20 ans et 20-30 ans d'une part, Ville Info et Musicoparole, les 50-60 ans et + 60 ans d'autre part.

On peut vérifier cette position périphér

pourcentages déjà vu. Ainsi, pour ces modalités, les structures d'audience et les habitudes d'écoute diffèrent énormément de ce qu'elles sont sur l'échantillon total. L'examen des contributions au Chi-deux confirme ce constat. En effet, ces modalités sont l'obj

a tères gras dans les lignes et colonnes spondantes.

- Au centre, les modalités sans surprises

nt plus près du centre de la carte. On peut , en se référant au tableau initial de

109

Page 110: imprimer econometrie

pouans ont des habitudes d'écoute voisines de celle e

Modalité ligne proche d'une modalité colconditions sont plus nombreux. Exemple, la propo t e Horizon est plus forte que ce qu'elle rep

forte con

rcentages ou d'effectifs, que les 30-40

s d l'échantillon. - Proximité égale attirance ou

ressemblance

onne : les effectifs qui répondent aux deux

r ion des 15-20 ans dans l'audience d

résente dans l'échantillon total (30% contre 13%, voir le tableau initial). Cette situation est confirmée aussi par la

tribution au chi-deux de le cellule 15-20 ans, Horizon (voir les développement précédents). Le signe + signifie un écart positif traduit sur la carte par la proximité des deux modalité. Horizon attire les jeunes.

On peut procéder de la sorte en ce qui concerne Ville Info avec les 50-60 ans et les plus de 60 ans.

- Eloignement égale répulsion ou dissemblance

Eloignement d'une modalité ligne par rapport à une modalité colonne : signifie une répproIraisonnement peut être fait en ce qui

ulsion. Exemple, les 15-20 ans sont en portion moins nombreux à écouter Ville

nfo que dans l'échantillon total. Le même

110

Page 111: imprimer econometrie

cH

vérifiée en examinant le chi-dl'importance de l'écart aux effectifs théoriques dan

oncerne les plus de 60 ans par rapport à orizon. Cette explication est

eux partiel : 7% du chi-deux, est

s la cellule Horizon, + 60 ans. Le signe - montre qu'il s'agit d'un déficit traduit sur la carte par des positions très éloignées.

Conclusion : deux modalités lignes éloignées ne se ressemblent pas.

Coefficient et interprétation des axes Le coefficient béta La valeur du coefficient béta figurant en tête de

commentaire papier indique le caractère plus ou moins significatif des écarts à l'indépendance. Ce coefficient varie de la même façon que le chi-deux, mais ne dépend pas du nombre du degré de liberté. Quand il est sup

Si de correspondances Ages mmentaire de la c

érieur à 3, la carte est significative. Dans le cas d'un autre exemple, (Revenu ou CSP *

taux d'écoute), le béta est égal uniquement à 1.4 (voir le tableau ci-contre).

on compare les bétas des cartes * taux d'écoute (co

arte plus haut) et des CSP * Ecoute, on remarque que les correspondances sont plus marquées en ce concerne les âges (béta = 50) que les CSP ( béta = 27). On peut donc, conclure que l'âge de ses auditeurs caractérise mieux une radio que leur CSP. Les revenus semblent n'avoir aucune influence sur les comportements d'écoute. Revenu-Radio (pourcentages en colonnes établis sur 1 124 citations)

111

Page 112: imprimer econometrie

RAAGE

S

TOTAL

DIO FR. INTER

EUR0 PE1

RADIO. VILLE

HORIZON

EPOQUE

V.INFO

RMC RTL

M.PAROLE

- 4000 6 4 4 7 10 12 4 5 8 4-70 22 00 18 20 25 21 21 32 19 27

7-10 0 29 00 31 24 27 32 25 33 36 22 10-15 27 000 28 34 24 22 26 23 27 24 15-20 9 000 12 8 10 9 12 3 7 11 + 20 0 7 00 7 9 8 6 4 4 5 8 TOTA 100 L 100 100 100 100 100 100 100 100

fait que les mo

imp

Les axes factoriels Dans la carte factorielle suivante qui

concerne Radio * CSP, les oppositions selon l'axe horizontal expriment le

dalités étudiants-écoliers d'une part, les retraités d'autre part, sont l'objet d'écart

ortant. Leurs comportements d'écoute les distinguent du comportement moyen.

Selon l'axe vertical, les ouvriers sont opposés aux cadres supérieurs/professions libérales et dans une moindre mesure aux cadres moyens.

A l'ouest de la carte, on trouve les radios attirant les jeunes (Horizon, etc.), à l'est,

Chi-deux

Analyse factorielle

Il n'y a pas de dépendance significative

(chi-deux = 43.28 p = 84%)

Résultats non significatifs (béta = 1.4)

La carte d'AFC ne s'affiche pas

Retour au tableau de départ

112

Page 113: imprimer econometrie

celleelles s a A o trouver les radios attirant les

d ce s de cadre . Toutes ces interprétations dépendent du fic t b , ma uss u r t d r itué ar c un es es En ffe l'a e ve ical, s op osi ns ouvriers

rendent compte que de de comportement, tandis qu'on considérant l comporteml'axe horizontal, on restitue 73% de l'information.

Si on veut réaliser des regroupement, on eut dire que la géographie

particulièrement caractérisée par les con

s s a A o trouver les radios attirant les

d ce s de cadre . Toutes ces interprétations dépendent du fic t b , ma uss u r t d r itué ar c un es es En ffe l'a e ve ical, s op osi ns ouvriers

rendent compte que de 10%de comportement, tandis qu'on considérant l comporteml'axe horizontal, on restitue 73% de l'information.

Si on veut réaliser des regroupement, on eut dire que la géographie

particulièrement caractérisée par les con

de de retrretr ités. ités. u nu n rd,ouvriersrd,ouvriers

on on devr et au devr et au

ait ait

susu llelle s s ss

coefcoef ienien étaéta i ai a i di d poupou cencen ageage u u lienlien estest pp hachac dd axax . . e e t, t, sursur xx rtrt lele pp tiotio cadres supérieurs/professions libéralescadres supérieurs/professions libérales ne

des particularités ne

des particularités 10%

es variations dees variations de ent tout le long de ent tout le long de

pp de notre carte est de notre carte est

trastes est/ouest, du nord au sud.

Impact des changements d'un tableau

trastes est/ouest, du nord au sud.

Impact des changements d'un tableau croisé sur la carte d'A.F.C

Suppression de lignes et/ou colonnes Les modifications du tableau initial

affectent largement les résultats de l'A.F.C.

ontre, montre que le béta est trè

Reprenons l'exemple de l'étude qui concernait le mode d'interview et l'âge des répondants.

Le tableau ci cs élevé (90). L'axe horizontal explique la

quasi-totalité des distorsions et rend

113

Page 114: imprimer econometrie

compte du fait que les questionnaires sans réponse à l'âge n'ont pas été remplis pour le mode d'interview ! L’analyse de dépendance-ind

n impact sur l'âge des rép

êmes conclusions. A ce niveau, la suppression des non-réponses a permis de mieux disperser les points se trouvant au centre de la carte. Mais le béta chute et un seul axe (horizontal) ren

s mo

épendance nous montre que 96% du chi-deux est dû à la cellule non-réponses/non-réponses.

Si on supprime les non-réponses du tableau et l'on désire effectuer l'AFC, la carte ne s'affiche pas. Il n'y a donc pas de dépendance significative (les comportements sont presque analogues), béta est inférieur à 3. Le mode d'interview n'a de ce fait, aucu

ondants. La même analyse appliquée à l'influence

du mode d'interview sur le sexe du répondant ne conduit pas aux m

d compte et restitue toute la variance. Conclusion : la suppression dedalités lignes ou colonnes a une grande

influence sur l'interprétation de la carte de l'AFC.

Regroupement de lignes et/ou colonnes

114

Page 115: imprimer econometrie

Le regroupement de deux lignes ou deux colonnes conduit à les remplacer dans la carte par leur centre de gravité.

On peut regrouper les indépendants et agriculteurs. On peut aussi les associer aux catégories "chômeurs" et "inactifs". Ainsi, tou

raités. Le béta augmente, mais au

tes ces catégories occupent une place assez importante dans la première carte : leurs comportements d'écoute sont relativement peu marqués. En faisant ce genre de regroupement, on ne bouleverse pratiquement pas grand-chose. En plus, cela fait ressortir encore plus les oppositions étudiants/ret

ssi le poids du premier axe. Conclusion : le regroupements de modalité

(à l'opposé de leur suppression) ne fait qu'accentuer les caractéristiques perceptibles sur la première carte.

NB. Il ne faut jamais regrouper des modalités qui s'opposent.

115

Page 116: imprimer econometrie

CHAPITRE III L'analyse en composantes principales

(A.C.P)

1- Objectif : l'A.C.P consiste à décrire un tableau de

données quantitatives. Ces données peuvent, par exemple, correspondre à P mesures morphologiques : taille, poids, longueur des bras,…..observées sur n individus.

On dispose donc d'un tableau "individus-variables" noté X, à n lignes et p colonnes ayant la forme suivante :

⎥⎥⎥⎤

⎢⎢⎢⎢⎢⎡

kk

pk

jkkk

11............1............

21

11

1 2………..j………….

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

pnk

jnknknk

pik

jikikik

pj

........................21

..............................................................

......................................................................................

2

⎥⎥⎥

⎢⎢⎢⎢

kk

21..............................................................

2............2............22

p

X =n*p Matrice carrée

individus

116

Page 117: imprimer econometrie

On peut lire qui signifie la val

Il faut donc passer à un tableau y : individus-nouvelles variables, en réduisant le

ombre de variables nécessaires pour décrire les individus, tout en perdant le moins pos

urs (q<p). Il s'agit donc de passer de la matrice des

L'élément général

facteur jes facteurs devront répondre aux deux

conditions déjà vues :

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢

⎢⎢⎢⎢⎢

nqfnf

ijf

qff

.............................1

......................................

1................................11

.

.

le nombre Xji

eur de la jème variable sur le 1ème individu.

n

sible d'information. Formulation du problème Le problème posé consiste à réduire les P

variables initiales en un nombre q de variables "Composantes", ou facte

données initiales (n individus * p variables) à une matrice réduite :

Facteurs (j = 1,…………………………….,q)

⎢⎢⎢.⎢⎢⎢

NB. On joue sur les variables et non pas sur les Individus

Individus (i = 1,…………..,n)

fij est la valeur du pour l'individu 1.

L

117

Page 118: imprimer econometrie

2- La notion d'axe Factoriel Soit l'exemple simpl

dedifférentjpourmFjFCorceIndépendank kjj

0),(*1 1

=

∑p

XaFLinéarité*

e suivant utilisé pour présenter la notion d'axe factoriel :

ntéscentre de gravité du nuage de poanalysé : A et B sont deux de(individus) du nuage. L'information apportée par l'individ

1

m

- Trois

==

points ont été représe : G es

s n po

- (représenté par le point A ) est égalecarré de la distance de G à A : I = (G

De la même façon : I2 = (GB)2

G A1

A2

∆2

B1

B

B2

Deux individus A et B

118

A

ints

u 1

t le

ints

au A)2

∆1

Page 119: imprimer econometrie

Si maintenant, deux axes passant par G

)2, GA1étant

r ∆1. De la même façon : I2 (∆1) = (GB1)2, GB étant la distance des points G et B :

sur

ou nsemble des points considérés,

(∆1) = I (∆1) + I2(∆1) = (GA1)2 + (GB1)2

ur l'axe ∆2, cette information est donnée par :

(∆ 2)2 + (GB2)2

est cl r sur le graphique que la quantité I (∆ ) est plus grande que la quantité I (∆1). l'axcomprapp

Il va donc s'agir, pour un nuage de n poi tdimede su

sont considérés (représentés ici par ∆1 et ∆2), l'information restituée sur ces axes peut être facilement calculée.

• Pour le point A, cette information est égale, sur ∆1 à : I1 (∆1) = (GA1la distance des points G et A1 : A1 est la projection orthogonale de A su

•1 1

B1 est la projection orthogonale de B∆1.

P r l'el'information restituée par ∆1 est égale à :

I 1po

I 2) = (GAIl ai

2

e ∆2 est donc meilleur que ∆1 pour rendre te des positions respectives de A et B par

ort au point G.

n s représentés dans un espace à p nsions, de trouver le meilleur axe et ainsi ite.

119

Page 120: imprimer econometrie

Il se posera alors le problème de choisir le nombre d'axes retenus puis de leur interprétation.

3- La matrice des variances-covariances

covariances la matrice générLes éléments de la diagonale principale sont les

Cette matrice est symétrique, carrée (de taillede la diagonale principale) est égale à la var

ns a poucor

ale principale est formée de 1 (corrélation d'une variable avec elle-même). Sa tra

centrées et réduites.

résumant le mieux l'information contenue dans la matrice initiale, puis un second, indépendant du premier, résumant le

- On appelle matrice de variances-V ayant pour élément

al Vij la covariance des variables i et j.

variances Vii des différentes variables.

p), sa trace (c-à-d la somme des termes

iance totale du nuage de points. - De même, la matrice des corrélatior élément principal Rij, le coefficient de

rélation entre les variables i et j. La diagon

ce est égale à p (nombre de variables). L'une ou l'autre de ces matrices sert de

point de départ à l'ACP; la 1ère correspond au cas où les variables sont centrées; la seconde au cas où elles sont

4- Procédure de résolution Le principe de la procédure de résolution

va être de trouver successivement un premier facteur

120

Page 121: imprimer econometrie

mieux l'information résiduelle, et ainsi de

ette méthode et la variance tot .

les

trice des

lus

tant somme des

suite (l'expression de la quantité d'information retenue pour c

ale) L'algorithme de résolution utilisé met

l'accent sur les points suivants : - Les axes factoriels (ou composantes

principales) passent par le centre de gravité du nuage de points formé parobservations;

- Les axes factoriels sont des vecteurs propres de la matrice de variances-covariances (ou de la macorrélations si celle-ci est utilisée);

- La valeur propre associée à un axe factoriel (repéré par un vecteur propre unitaire) mesure la variance de cet axe;

- La première composante principale est donc le vecteur propre associé à la pgrande valeur propre; la seconde est associée à la valeur propre suivante, et ainsi de suite;

- On obtient ainsi p axes factoriels (p éle nombre de variables); lavaleurs propres associées à ces axes est égale à la variance totale (trace de la matrice de variance-covariance);

- Les axes sont orthogonaux;

121

Page 122: imprimer econometrie

- La variance totale du nuage de points est concentrée sur les premiers axes.

En résumé, la procédure de résolution de l'ACP est la suivante :

Matrice des données initiales MnpIndividus/variables

Calcul de la matrice des variances-covaiances Vnp

Extraction des axes factoriels

(Vecteurs propres de V)

Choix de K axes factoriels

facd

ax

Calcul des corrélations entre les

axes principaux etles variables initiales

(matrice C

pk)

Calcultorielses ines fa o

des scores (coordonnées

dividus sur les ct riels) matrice

Fnk

122

Page 123: imprimer econometrie

Remarque : interprétation des projections

1-

te comme un c envers les q variaximité entre

ariables signifie que les deux variables correspondantes sont corrélées. La corrélation est d'autant significative que les points

une proximité entre les projections de deux points observations (individus) s'interprèanalogue

2- Une pro

omportement bles.

deux points v

* * * * * *

* * * * * * * *

* * * * * * * * * * * * * * * * * * * * * **

**

*

* * *

* * * ** * * * * * * * * / / ** * * * * * * * * * * * * *

F2

* *

Comportement analogue

envers les q variables

P points

Projections des observations

F1

123

Page 124: imprimer econometrie

représentatifs de ces variables sont plus éloignées de l'origine (G).

- Une proximité entre un point variable et un point observation (individu) signifie que la variable joue un rôle important pour l'observaconsidérée.

** * . . * * . *. .

. * * * * . * . * * . *

3

tion

* * . * * . * .

* . * * *

* *. . . * * . ** * *

*

4- Une signification doit être donnée aux axes factoriels sur la base de l'analyse faite et des proximités (individux-variables, variables-variables

F2 *

point variable

F1

Point observation

.

ou individus-individus) observées.

124