regsimple

56
ECO 4272 : Introduction ` a l’´ econom´ etrie Notes sur le mod` ele de r´ egression simple Steve Ambler * epartement des sciences ´ economiques ´ Ecole des sciences de la gestion Universit´ e du Qu´ ebec ` a Montr´ eal c 2013 : Steve Ambler Automne 2013 * Ces notes sont en cours de d´ eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´ eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message ` a [email protected]. 1

Upload: mohamedchaouche

Post on 14-Jun-2015

49 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Regsimple

ECO 4272 : Introduction a l’econometrieNotes sur le modele de regression simple

Steve Ambler∗

Departement des sciences economiquesEcole des sciences de la gestion

Universite du Quebec a Montrealc©2013 : Steve Ambler

Automne 2013

∗Ces notes sont en cours de developpement. J’ai besoin de vos commentaires et de vos suggestions pourles ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message [email protected].

1

Page 2: Regsimple

Table des matieres1 Introduction 4

2 Objectifs du cours 4

3 Le modele de regression simple 4

4 Estimateur moindres carres ordinaires (MCO) 54.1 Proprietes algebriques cles de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9

4.1.1 La somme des residus est zero . . . . . . . . . . . . . . . . . . . . . . . . 104.1.2 La valeur moyenne de la variable dependante predite est egale a la moyenne

echantillonnale de la variable dependante . . . . . . . . . . . . . . . . . . 104.1.3 Orthogonalite entre la variable explicative et les residus . . . . . . . . . . . 11

4.2 La notion de l’ajustement statistique (R2) . . . . . . . . . . . . . . . . . . . . . . 124.3 L’ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Hypotheses statistiques de base du modele 175.1 Esperance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 185.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 185.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6 Proprietes statistiques de l’estimateur 206.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

6.1.1 β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.1.2 β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.3.1 Theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

7 Proprietes echantillonnales de l’estimateur 347.1 Estimateur convergent de σ2

β1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

7.2 Estimateur convergent de σ2β1

en cas d’homoscedasticite . . . . . . . . . . . . . . . 387.3 Detecter l’heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Tests d’hypothese 418.1 Approche general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418.2 Hypothese alternative bilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428.3 Hypothese alternative unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9 Intervalles de confiance pour les coefficients 439.1 Intervalles de confiance pour les predictions . . . . . . . . . . . . . . . . . . . . . 44

10 Un exemple d’estimation du modele de regression simple avec R 45

2

Page 3: Regsimple

11 Le modele de regression simple lorsque X est une variable dichotomique 51

12 Concepts a retenir 55

13 References 56

3

Page 4: Regsimple

1 Introduction

2 Objectifs du cours

– Presenter le modele de regression simple.

– Deriver l’estimateur moindres carres ordinaires (MCO).

– Etudier les proprietes algebriques de cet estimateur.

– Etudier la mesure habituelle de l’ajustement statistique, le R2.

– Regarder les hypotheses statistiques derriere le modele et analyser leurs consequences pour

l’estimateur MCO (absence de biais, convergence, efficience).

– Montrer l’absence de biais de l’estimateur MCO.

– Deriver les proprietes echantillonnales de l’estimateur MCO et montrer sa convergence.

– Distinguer entre les cas d’erreurs heteroscedastiques et erreurs homoscedastiques.

– Montrer, sous les hypotheses d’homoscedasticite et normalite, l’efficience de l’estimateur

MCO (theoreme Gauss-Markov).

– Analyser les tests d’hypothese concernant les parametres estimes du modele.

– Analyser le calcul d’intervalles de confiance pour les parametres estimes dans le cadre du

modele.

3 Le modele de regression simple

– Le modele de base peut s’ecrire

Yi = β0 + β1Xi + ui.

L’idee de base est qu’une variable economique Yi peut etre predite ou explique par une autre va-

riable economique Xi. La relation entre les deux variables est lineaire. Sans le terme ui, l’equation

est l’equation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnee a l’origine et β1 est

4

Page 5: Regsimple

la pente de la droite. On peut penser au parametre β0 comme etant associe a une deuxieme variable

explicative qui est une constante qu’on normalise pour etre egale a un. Autrement dit, on aurait pu

ecrire le modele comme

Yi = β0 × 1 + β1 ×Xi + ui.

Le modele de regression simple contient une constante par defaut. Il est possible aussi d’etudier le

modele suivant :

Yi = βXi + ui.

Ce modele, sans constante, a des proprietes statistiques assez differentes. Pour ceux qui s’interessent

a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).

On appelle communement Yi la � variable dependante � du modele de regression, et on appelle

Xi la � variable explicative � du modele de regression.

4 Estimateur moindres carres ordinaires (MCO)

– Nous considerons le probleme de predire la valeur de la variable dependante Yi, etant donnee

la valeur de Xi.

– L’erreur de prevision peut s’ecrire Yi − β0 − β1Xi.

– Le probleme a resoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la

somme des erreurs de prevision au carre :

– Notez que le critere de minimiser la somme des erreurs au carre n’est pas le seul critere

possible. Par exemple, on pourrait decider de minimiser la somme des erreurs en valeur

absolue.

– Il y a deux raisons fondamentales pour la popularite et l’importance de l’estimateur MCO

dans l’histoire de la statistique et de l’econometrie.

1. D’abord, l’algebre est relativement simple. Le critere est une expression quadratique

(du deuxieme degre), et donc les conditions du premier ordre donnent un systeme

5

Page 6: Regsimple

d’equations lineaires. Il est tres facile de resoudre un systeme de deux equations lineaires.

2. Deuxiement, sous certaines conditions (a voir plus tard), l’estimateur MCO des coef-

ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs

lineaires et non biaises – autrement dit, il est l’estimateur le plus efficient parmi les

estimateur lineaires non biaises.

– Le probleme de minimisation peut s’ecrire comme suit.

minβ0,β1

n∑i=1

(Yi − β0 − β1Xi)2 .

– Les conditions du premier ordre (CPOs) pour ce probleme sont comme suit. D’abord par

rapport au choix de β0 :

−2n∑i=1

(Yi − β0 − β1Xi

)= 0.

Ensuite, par rapport au choix de β1 :

−2n∑i=1

(Yi − β0 − β1Xi

)Xi = 0,

ou j’ai ecrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs

MCO, c’est a dire les solutions au probleme de minimisation. 1

– Il s’agit de deux equations ou les deux inconnus sont β0 et β1.

– Il est facile d’isoler β0 en fonction de β1 et par la suite de trouver la solution pour β1.

– Nous avons a partir de la premiere CPO :

n∑i=1

(Yi − β0 − β1Xi

)= 0

⇒n∑i=1

β0 = n β0 =n∑i=1

(Yi − β1Xi

)1. En principe, il faudrait verifier les conditions du deuxieme ordre pour savoir que nous avons trouve un minimum

et non un maximum. Nous n’allons pas faire cet exercice ici.

6

Page 7: Regsimple

⇒ β0 =1

n

n∑i=1

Yi − β11

n

n∑i=1

Xi

⇒ β0 = Y − β1X.

Nous venons de trouver la solution pour β0 en fonction des moyennes echantillonnales X et

Y et de la solution pour β1.

– Maintenant, substituant cette solution dans la deuxieme CPO, nous avons :

n∑i=1

(Yi − Y + β1X − β1Xi

)Xi = 0.

– Multipliant des deux cotes de l’equation par 1n

et rearrangeant, nous obtenons

1

n

n∑i=1

YiXi −1

n

n∑i=1

Y Xi −1

n

n∑i=1

β1 (Xi)2 +

1

n

n∑i=1

β1XXi = 0

⇒ 1

n

n∑i=1

YiXi − Y1

n

n∑i=1

Xi

−β1

(1

n

n∑i=1

(Xi)2 − X 1

n

n∑i=1

Xi

)= 0

⇒ 1

n

n∑i=1

YiXi − Y X

−β1

(1

n

n∑i=1

(Xi)2 − XX

)= 0

⇒ β1 =1n

∑ni=1 YiXi − XY

1n

∑ni=1 (Xi)

2 − X2

⇒ β1 =1n

∑ni=1

(Yi − Y

) (Xi − X

)1n

∑ni=1

(Xi − X

)2 .

Cette solution depend des identites

1

n

n∑i=1

YiXi − XY =1

n

n∑i=1

(Yi − Y

) (Xi − X

)7

Page 8: Regsimple

et1

n

n∑i=1

(Xi)2 − X2 =

1

n

n∑i=1

(Xi − X

)2.

Ceci est facile a montrer. Nous avons

1

n

n∑i=1

(Yi − Y

) (Xi − X

)

1

n

n∑i=1

(YiXi − YiX −XiY + XY

)

=1

n

n∑i=1

YiXi −1

n

n∑i=1

YiX −1

n

n∑i=1

XiY +1

n

n∑i=1

XY

=1

n

n∑i=1

YiXi − X1

n

n∑i=1

Yi − Y1

n

n∑i=1

Xi +n

nXY

=1

n

n∑i=1

YiXi − XY − Y X + XY

=1

n

n∑i=1

YiXi − XY .

La preuve pour le denominateur est semblable.

C’est une premiere facon d’exprimer la solution. Multipliant numerateur et denominateur

par n nous avons aussi

β1 =

∑ni=1

(Yi − Y

) (Xi − X

)∑ni=1

(Xi − X

)2 .

C’est une deuxieme facon d’exprimer la solution. Maintenant, divisant numerateur et denominateur

par (n− 1) nous avons aussi

β1 =

1(n−1)

∑ni=1

(Yi − Y

) (Xi − X

)1

(n−1)

∑ni=1

(Xi − X

)2 .

– Donc, nous avons trois expressions equivalentes pour la solution pour β1.

– Comme aide-memoire, la derniere expression est peut-etre la plus utile. Elle dit que l’estima-

8

Page 9: Regsimple

teur MCO de β1 est le ratio entre la covariance echantillonnale entre X et Y et la variance

echantillonnale de X (voir le chapitre sur la theorie des probabilites pour les definitions de

covariance echantillonnale et variance echantillonnale).

– Pour repeter ceci en notation algebrique :

β1 =Cov (X , Y )

Var (X).

– Je crois qu’il n’est pas trop difficile de se souvenir de cette facon d’ecrire la solution pour

β1, et de se souvenir de la solution pour β0 en termes des moyennes echantillonnales X et Y

et β1.

4.1 Proprietes algebriques cles de l’estimateur MCO

– L’estimateur MCO possede quelques proprietes de base que nous allons demontrer dans cette

section.

– Nous allons par la suite nous servir de ces proprietes a maintes reprises par la suite pour

trouver d’autres proprietes de l’estimateur MCO.

– J’appelle ces proprietes les proprietes � algebriques � puisqu’elles ne dependent pas d’hy-

potheses concernant les proprietes statistiques des variables aleatoires Y , X ou u.

– Autrement dit, pour n’importe quelles series de donnees sur deux variables X et Y , ces

proprietes doivent tenir. On n’a meme pas besoin de supposer que X et Y sont des variables

aleatoires en bonne et due forme.

– Plusieurs de ces proprietes dependent du fait que le modele de regression inclut une constante.

– Pour le cas de modeles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),

ou encore celui d’Eisenhauer (2003).

9

Page 10: Regsimple

4.1.1 La somme des residus est zero

– Definissons

ui ≡ Yi − β0 − β1Xi,

le residu de la regression pour l’observation i.

– Nous voulons montrer que :1

n

n∑i=1

ui = 0.

– Voici la preuve.1

n

n∑i=1

ui =1

n

n∑i=1

(Yi − Y + β1X − β1Xi

)

=1

n

n∑i=1

(Yi − Y

)− β1

1

n

n∑i=1

(Xi − X

)= 0.

4.1.2 La valeur moyenne de la variable dependante predite est egale a la moyenne echantillonnale

de la variable dependante

– Definissons

Yi ≡ β0 + β1Xi,

la valeur predite de Yi.

– Nous voulons montrer que :1

n

n∑i=1

Yi = Y .

– Voici la preuve :

Yi ≡ Yi − ui

⇒ 1

n

n∑i=1

Yi =1

n

n∑i=1

Yi −1

n

n∑i=1

ui =1

n

n∑i=1

Yi ≡ Y .

10

Page 11: Regsimple

4.1.3 Orthogonalite entre la variable explicative et les residus

– Nous voulons montrer que :n∑i=1

Xiui = 0.

– Ceci est la definition de l’orthogonalite entre deux variables.

– Puisque nous allons utiliser l’algebre lineaire dans le chapitre sur le modele de regression

multiple, c’est peut-etre opportun d’introduire ici le concept d’orthogonalite entre deux vec-

teurs. Nous pouvons reecrire cette equation en notation vectorielle comme

n∑i=1

Xiui =

[X1 X2 . . . Xn

]

u1

u2

...

un

≡ X ′U = 0.

– Donc c’est la definition habituelle d’orthogonalite entre deux vecteurs en algebre lineaire.

– Nous verrons plus loin qu’il y a aussi une interpretation geometrique.

– Voici la preuve :n∑i=1

Xiui =n∑i=1

Xiui − Xn∑i=1

ui

=n∑i=1

(Xi − X

)ui

=n∑i=1

(Xi − X

) (Yi − Y + β1X − β1Xi

)

=n∑i=1

(Xi − X

) ((Yi − Y

)− β1

(Xi − X

))

=n∑i=1

(Xi − X

) (Yi − Y

)− β1

n∑i=1

(Xi − X

)2

=n∑i=1

(Xi − X

) (Yi − Y

)

11

Page 12: Regsimple

−∑n

i=1

(Xi − X

) (Yi − Y

)∑ni=1

(Xi − X

)2

n∑i=1

(Xi − X

)2

=n∑i=1

(Xi − X

) (Yi − Y

)−

n∑i=1

(Xi − X

) (Yi − Y

)= 0.

– L’orthogonalite est reliee a l’interpretation geometrique de la methode des MCO. Estimer

un modele par MCO revient a projeter la variable dependante dans l’espace traverse par la

variable explicative (ou les variables explicatives dans le cas de la regression multiple).

– Le principe est illustre par la Figure 1 ci-dessous. Nous constatons sur le graphique que si

nous prenons la ligne de regression comme un vecteur, la ligne pointillee sur le graphique

est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit par

rapport a la ligne de regression, d’ou le terme � orthogonal �.

– Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-

terpretation geometrique de la regression simple se trouve dans l’article de Davidson et Mac-

Kinnon (1999).

Figure 1

4.2 La notion de l’ajustement statistique (R2)

– Definissons :

TSS ≡n∑i=1

(Yi − Y

)2,

12

Page 13: Regsimple

la somme totale des carres (� total sum of squares � en anglais) ;

SSR ≡n∑i=1

(Yi − Yi

)2

,

la somme des residus au carre (� residual sum of squares � en anglais) ;

ESS ≡n∑i=1

(Yi − Y

)2

,

la somme expliquee des carres (� explained sum of squares � en anglais).

– Nous pouvons montrer que :

TSS = ESS + SSR.

– Voici la preuve :

TSS =n∑i=1

(Yi − Y

)2

=n∑i=1

((Yi − Yi

)+(Yi − Y

))2

=n∑i=1

(Yi − Yi

)2

+n∑i=1

(Yi − Y

)2

+2n∑i=1

(Yi − Yi

)(Yi − Y

)

= SSR + ESS + 2n∑i=1

ui

(Yi − Y

)

= SSR + ESS + 2n∑i=1

uiYi − 2Yn∑i=1

ui

= SSR + ESS + 2n∑i=1

uiYi

= SSR + ESS + 2n∑i=1

ui

(β0 + β1Xi

)

13

Page 14: Regsimple

= SSR + ESS + 2β0

n∑i=1

ui + 2β1

n∑i=1

uiXi

= SSR + ESS.

Notez que nous avons invoque a quelques reprises les proprietes algebriques de l’estimateur

MCO que nous avons deja demontrees.

– Maintenant, definissons

R2 ≡ ESSTSS

.

– Puisque TSS, ESS et SSR sont la somme de termes au carre (et pour cette raison sont des

termes positifs sinon strictement positifs), il faut que :

0 ≤ R2 ≤ 1.

– Il faut aussi que

R2 = 1− SSRTSS

.

– L’ajustement statistique s’appelle aussi le � coefficient de determination � de la regression.

– L’ajustement statistique est defini independamment des proprietes statistiques du modele de

regression. Il a l’interpretation du pourcentage de la variation de la variable dependante Y

autour de sa moyenne qui peut etre explique par les variations de la variable explicative X .

– Pour le modele de regression simple, il y a une relation algebrique exacte entre le R2 et le

coefficient de correlation entre les variables X et Y . La relation est

R2 = Corr (X, Y ) .

– Je montre ce resultat dans l’encadre qui suit.

– La lecture de l’encadre est facultative, mais je vous encourage a retenir le resultat (egalite

entre la mesure R2 et le coefficient de correlation entre X et Y au carre).

14

Page 15: Regsimple

Je demontre ici que l’ajustement statistique (dans le modele de regression simple) doit etre egal

au carre du coefficient de correlation entre X et Y . Nous avons

R2 ≡

∑ni=1

(Yi − Y

)2

∑ni=1

(Yi − Y

)2

Nous avons aussi (en multipliant le numerateur et le denominateur dans la definition de la

correlation echantillonnale par (n− 1))

(Corr (X , Y )

)2 ≡

∑ni=1

(Xi − X

) (Yi − Y

)√∑ni=1

(Xi − X

)2√∑n

i=1

(Yi − Y

)2

2

=

(∑ni=1

(Xi − X

) (Yi − Y

))2∑ni=1

(Xi − X

)2∑ni=1

(Yi − Y

)2

Donc, il faut montrer que

∑ni=1

(Yi − Y

)2

∑ni=1

(Yi − Y

)2 =

(∑ni=1

(Xi − X

) (Yi − Y

))2∑ni=1

(Xi − X

)2∑ni=1

(Yi − Y

)2

⇔n∑i=1

(Yi − Y

)2n∑i=1

(Xi − X

)2=

(n∑i=1

(Xi − X

) (Yi − Y

))2

.

Travaillant avec le bras gauche de cette equation, nous avons

n∑i=1

(Yi − Y

)2n∑i=1

(Xi − X

)2

=n∑i=1

(β0 + β1Xi − Y

)2n∑i=1

(Xi − X

)2

=n∑i=1

(Y − β1X + β1Xi − Y

)2n∑i=1

(Xi − X

)2

15

Page 16: Regsimple

=n∑i=1

(β1Xi − β1X

)2n∑i=1

(Xi − X

)2

= β21

n∑i=1

(Xi − X

)2n∑i=1

(Xi − X

)2

=

(∑ni=1

(Xi − X

) (Yi − Y

)∑ni=1

(Xi − X

)2

)2( n∑i=1

(Xi − X

)2

)2

=

(n∑i=1

(Xi − X

) (Yi − Y

))2

,

ce qui fut a demontrer.

Donc, meme si nous sommes en train de discuter des proprietes algebriques du modele

de regression simple, et meme si la notion du R2 est definie independamment des proprietes

statistiques des variables X et Y , nous voyons que le R2 est relie au concept statistique de

correlation. Il existe des tests d’hypothese de la significativite de correlations entre variables

aleatoires (que nous n’allons pas explorer dans ce cours).

– Tel qu’indique plus tot, l’ajustement statistique R2 est defini independamment des hy-

potheses statistiques derriere le modele.

– Nous venons de voir (dans l’encadre precedant) qu’il y a un lien stricte dans le modele de

regression simple entre le R2 et le coefficient de correlation entre la variable dependante

Y et la variable explicative X .

– Le R2 a aussi une autre interpretation statistique. On peut l’utiliser pour tester l’hy-

pothese nulle de l’absence de relation entre la variable explicative (les variables expli-

catives a part la constante dans le modele de regression multiple). Voir Giles (2013b,

2013c). Selon Giles, le R2 suit, sous l’hypothese nulle (et sous l’hypothese de l’ho-

moscedasticite), une distribution Beta.

– Nous allons voir dans le chapitre sur la regression multiple qu’on peut construire une

16

Page 17: Regsimple

autre statistique pour tester la meme hypothese qui suit une distribution F de Fisher.

4.3 L’ecart type de la regression

– Definissons :

s2u =

1

(n− 2)

n∑i=1

(ui)2 =

SSR(n− 2)

.

– Dans le cas ou nous supposons une variance constante du terme d’erreur du modele (voir la

section suivante concernant les hypotheses statistiques du modele), c’est un estimateur non

biaise de la variance du terme d’erreur.

– Il s’agit du cas ou les erreurs sont homoscedastiques, ou donc Var (ui) = σ2u, une variance

constante.

– Notez que cette hypothese (variance constante des erreurs) ne fera pas partie des hypotheses

statistiques de base que nous adopterons.

– Nous divison par (n− 2) afint d’obtenir un estimateur non biaise.

– Il y a une autre raison pour la division par (n− 2). On perd deux degres de liberte car il faut

estimer deux parametres inconnus (β0 et β1) afin de calculer les residus de la regression.

– Maintenant, definissons :

su ≡√s2u.

– su est l’ecart type de la regression.

– L’ecart type de la regression est un des resultats d’estimation que fournissent automatique-

ment la plupart des logiciels econometriques.

5 Hypotheses statistiques de base du modele

– A partir de ce point, nous elaborons quelques proprietes statistiques de l’estimateur MCO.

Elles dependront de certaines hypotheses statistiques de base, que voici.

17

Page 18: Regsimple

– Ces hypotheses seront cruciales pour montrer les proprietes d’absence de biais et de conver-

gence.

– Nous en aurons besoin aussi (avec une hypothese additionnelle) pour montrer l’efficience de

l’estimateur MCO.

5.1 Esperance conditionnelle nulle de l’erreur

– Nous supposons que :

E (ui|X = Xi) = 0.

– Intuitivement, l’hypothese nous dit que le fait de connaıtre la valeur realisee de la variable

explicative ne donne pas d’information concernant la valeur de l’erreur.

5.2 Observations i.i.d.

– Nous supposons que :

(Xi , Yi) , i = 1, 2, . . . , n i.i.d.

– Nous avons deja vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On

suppose que nos observations sont independantes et qu’elles sont identiquement distribuees.

– Notez que nous ne faisons pas une hypothese concernant le type de distribution qui genere

les observations (normale, exponentielle, paretienne stable, etc.). Tout ce qu’on suppose c’est

que les observations sont toujours generees par la meme distribution.

5.3 Les observations aberrantes sont peu probables

– Nous supposons que :

0 < E(X4)<∞;

0 < E(Y 4)<∞;

18

Page 19: Regsimple

– Cette hypothese sert a nous rappeler que l’estimateur MCO peut etre sensible aux observa-

tions aberrantes.

– Il est toujours bon d’examiner les residus afin de detecter la presence de ces observations,

qui pourraient indiquer des problemes comme des erreurs de transcription des valeurs dans

les donnees, etc.

– Il est important de noter qu’en presence d’observations aberrantes importantes, la valeur de

β1 peut etre tres sensible a cette ou a ces valeurs, meme si elles sont peu nombreuses. Intui-

tement, meme un nombre tres faible de ces observations aberrantes peut avoir une influence

preponderantes sur les valeurs estimees des parametres. Dans un tel cas, les estimateurs

MCO ne seront pas convergents puisqu’ils dependent d’un petit nombre d’observations.

5.4 Notre approche

Par rapport a l’approche dans certains manuels de base en econometrie, nous adoptons une

approche plus generale.

1. Souvent, la premiere fois qu’on presente le modele de regression simple, on suppose que

les observations sur la variable explicative X sont constantes a travers des echantillons

differents. Pour deriver les proprietes statistiques de notre estimateur MCO, on peut traiter

les observations comme des constantes au lieu de les traiter comme des realisations d’une

variable aleatoire. L’algebre est plus facile, mais c’est beaucoup moins realiste.

2. Souvent, lorsqu’on presente le modele de base, on suppose aussi que la variance condition-

nelle du terme d’erreur est egale a sa variance non conditionnelle et qu’elle est constante.

Autrement dit,

Var (ui|X = Xi) = Var (ui) = σ2u.

L’avantage de ces hypotheses simplificatrices est de simplifier l’algebre. On arrive a une

expression plus simple pour la variance echantillonnale de nos estimateurs MCO. Malheu-

reusement, ce sont des hypotheses qui tiennent rarement dans les donnees utilisees par les

19

Page 20: Regsimple

econometres appliques. Cette hypothese n’est pas retenue ici, ce qui va mener a une expres-

sion plus compliquee mais plus generale pour la variance echantillonnale de nos estimateurs.

3. Souvent, lorsqu’on presente le modele de base, on suppose que le terme d’erreur est distribue

selon une loi normale. Ceci permet de faire de l’inference exacte (voir le chapitre sur les tests

d’hypothese pour une definition). Cette hypothese n’est pas retenue ici.

4. Au lieu de supposer la normalite, nous allons faire l’hypothese que les echantillons de

donnees que nous avons a notre disposition sont assez grandes pour que les statistiques

utilisees pour faire des tests d’hypothese soient approximatiement distribuees selon une loi

normale.

6 Proprietes statistiques de l’estimateur

6.1 Absence de biais de l’estimateur

6.1.1 β1

– Nous avons :

β1 =

∑ni=1

(Xi − X

) (Yi − Y

)∑ni=1

(Xi − X

)2

=

∑ni=1

(Xi − X

) (β0 + β1Xi + ui − β0 − β1X − u

)∑ni=1

(Xi − X

)2

=β1

∑ni=1

(Xi − X

)2+∑n

i=1

(Xi − X

)(ui − u)∑n

i=1

(Xi − X

)2

= β1 +

∑ni=1

(Xi − X

)(ui − u)∑n

i=1

(Xi − X

)2

= β1 +

∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2 .

– Ceci montre que l’estimateur est egal a sa vraie valeur plus un terme qui depend du produit

des erreurs avec les ecarts des Xi par rapport a leurs moyennes echantillonnales.

20

Page 21: Regsimple

– Notez ce que l’on fait pour passer de la premiere ligne a la deuxieme. On substitut Yi utili-

sant sa valeur si le modele de regression est literalement vrai. Cela fait apparaıtre les vraies

valeurs de β0 et de β1, et fait apparaıtre aussi l’erreur (la vraie et non le residu). On fera

souvent une substitution semblable lorsqu’on veut analyser les proprietes statistiques d’un

estimateur.

– Maintenant, il s’agit de calculer la valeur esperee de cette expression :

E(β1

)= β1 + E

(∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2

)

= β1 + E

(E

(∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2

)|X1, X2, . . . Xn

)

= β1 + E

(∑ni=1

(Xi − X

)E (ui|X1, X2, . . . Xn)∑n

i=1

(Xi − X

)2

)

= β1 + E

(∑ni=1

(Xi − X

)E (ui|Xi)∑n

i=1

(Xi − X

)2

)= β1.

– Pour passer de la premiere ligne a la deuxieme dans cette suite d’egalites, nous avons utilise

la loi des esperances iterees, qui dit que pour n’importe quelle variable aleatoire Y ,

E (E (Yi|Xi)) = E (Yi) .

Nous l’avons tout simplement applique a la variable aleatoire qui est

∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2 .

– Pour passer de la deuxieme a la troisieme ligne, il faut noter que les esperances des X condi-

tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des

constantes et les ecrire du cote gauche de l’operateur d’esperance conditionnelle. Ce faisant,

21

Page 22: Regsimple

l’operateur d’esperance conditionnelle s’applique uniquement au terme d’erreur ui.

– La derniere egalite suit directement de nos hypotheses de base concernant le modele, dont

une stipule que E (ui|Xi) = 0.

6.1.2 β0

– Nous avons :

E(β0

)= E

(Y − β1X

)= E

(β0 + β1X +

1

n

n∑i=1

ui − β1X

)

= β0 + E(β1 − β1

)X +

1

n

n∑i=1

E (ui)

= β0 +1

n

n∑i=1

E (E (ui|Xi))

= β0,

ou encore une fois nous avons utilise la loi des esperances iterees :

E (ui) = E (E (ui|Xi)) .

– Ici, j’ai suivi la reponse a la question 4.7 du manuel. Il n’est pas forcement evident que

E(β1 − β1

)X = 0,

puisque X doit etre considere comme une variable aleatoire. Il faut remonter a l’absence de

biais de β1, ou on a montre que

β1 − β1 = −∑n

i=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2 .

22

Page 23: Regsimple

Donc, on a

E(β1 − β1

)X = −E

(∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2

)X

= −E

(X

(∑ni=1

(Xi − X

)E (ui|Xi)∑n

i=1

(Xi − X

)2

))= 0.

Encore une fois, nous avons utilise la loi des esperances iterees.

6.2 Convergence de l’estimateur

– Nous allons remettre ce sujet a un peu plus tard. En calculant les proprietes echantillonnales

de l’estimateur, nous allons montrer que sa variance decroıt avec la taille de l’echantillon n.

– Si c’est le cas, nous avons a toutes fins pratiques montre sa convergence. Nous avons montre

l’absence de biais, et la variance converge a zero lorsque n tend vers l’infini.

6.3 Efficience de l’estimateur

– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothese addi-

tionnelle, que le terme d’erreur du modele de regression est homoscedastique, ce qui veut

dire a une variance constante.

– Si ce n’est pas le cas, et si nous connaissons de quoi depend la variance du terme d’erreur,

il peut etre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit

de l’estimateur moindres carres generalises (generalised least squares ou GLS en anglais),

que nous n’aurons pas l’occasion d’etudier en detail dans ce cours. Voir le chapitre 15 du

manuel.

– Une preuve detaillee du theoreme Gauss-Markov se trouve dans l’ecadre qui suit. Nous

n’aurons probablement pas le temps de voir cette preuve en detail dans le cours. Je vous

invite fortement a la lire et a la comprendre.

23

Page 24: Regsimple

6.3.1 Theoreme Gauss-Markov

– Il s’agit d’une preuve que l’estimateur β1 est l’estimateur le plus efficient parmi les

estimateurs qui sont lineaires en Yi.

– Rappelons d’abord les hypotheses qui doivent tenir pour demontrer le theoreme Gauss-

Markov.

1. E (ui|X1, . . . , Xn) = 0 .

2. Var (ui|X1, . . . , Xn) = σ2u, 0 < σ2

u <∞.

3. E (uiuj|X1, . . . , Xn) = 0, i 6= j.

– La derniere hypothese dit que les erreurs ne sont pas correlees entre elles.

– D’abord, montrons que β1 est un estimateur lineaire en Yi. Nous avons

β1 =

∑ni=1

(Yi − Y

) (Xi − X

)∑ni=1

(Xi − X

)2

=

∑ni=1 Yi

(Xi − X

)− Y

∑ni=1

(Xi − X

)∑ni=1

(Xi − X

)2

=

∑ni=1 Yi

(Xi − X

)∑ni=1

(Xi − X

)2

=n∑i=1

(Xi − X

)∑ni=1

(Xi − X

)2Yi

≡n∑i=1

aiYi,

ou donc

ai ≡(Xi − X

)∑ni=1

(Xi − X

)2

– Les poids ai ne dependent pas des Yi, et donc l’estimateur est lineaire en Yi.

– Nous avons vu que sous l’hypothese de l’homoscedasticite, la variance conditionnelle de

24

Page 25: Regsimple

β1 est donnee par

Var(β1|X1, . . . , Xn

)=

σ2u∑n

i=1

(Xi − X

)2 .

– Nous avons aussi montre que l’estimateur β1 est conditionnellement non biaise.

– Maintenant, considerons n’importe quel estimateur lineaire

β1 =n∑i=1

aiYi

et qui satisfait la propriete

E(β1|X1, . . . , Xn

)= β1.

– Nous avons

β1 =n∑i=1

aiYi

=n∑i=1

ai (β0 + β1Xi + ui)

= β0

n∑i=1

ai + β1

n∑i=1

aiXi +n∑i=1

aiui.

– Nous avons aussi

E

(n∑i=1

aiui|X1, . . . , Xn

)=

n∑i=1

aiE (ui|X1, . . . , Xn) = 0.

– De cette facon, nous avons

E(β1|X1, . . . , Xn

)= β0

(n∑i=1

ai

)+ β1

(n∑i=1

aiXi

).

25

Page 26: Regsimple

– Par hypothese, notre estimateur est conditionnellement non biaise et donc il faut que

β0

(n∑i=1

ai

)+ β1

(n∑i=1

aiXi

)= β1.

– Pour que cette egalite tienne pour des valeurs quelconques de β0 et de β1 il faut que

n∑i=1

ai = 0

etn∑i=1

aiXi = 1.

– Nous avons donc

β1 = β0

n∑i=1

ai + β1

n∑i=1

aiXi +n∑i=1

aiui = β1 +n∑i=1

aiui.

– Calculons la variance conditionnelle de β1. Nous avons

Var(β1|X1, . . . , Xn

)= Var

(n∑i=1

aiui|X1, . . . , Xn

)

=n∑i=1

Var (aiui|X1, . . . , Xn) + 2∑i<j

Cov (aiui , ajuj|X1, . . . , Xn)

=n∑i=1

Var (aiui|X1, . . . , Xn)

= σ2u

n∑i=1

ai2.

– Les covariances disparaissent a cause de la troisieme hypothese ci-dessus.

– Maintenant, il suffit de montrer que la variance conditionnelle de β1 doit etre superieure

a la variance conditionnelle de β1.

26

Page 27: Regsimple

– Definissons

di ≡ ai − ai

– Nous avons

n∑i=1

ai2 =

n∑i=1

(ai + di)2 =

n∑i=1

a2i + 2

n∑i=1

aidi +n∑i=1

di2.

– Maintenant, il faut utiliser la definition des ai qui est donnee ci-dessus. Nous avons

n∑i=1

aidi =

∑ni=1

(Xi − X

)di∑n

i=1

(Xi − X

)2

=

∑ni=1 Xidi − X

∑ni=1 di∑n

i=1

(Xi − X

)2

=

∑ni=1Xi (ai − ai)− X

∑ni=1 (ai − ai)∑n

i=1

(Xi − X

)2

=(∑n

i=1Xiai −∑n

i=1Xiai)− X (∑n

i=1 ai −∑n

i=1 ai)∑ni=1

(Xi − X

)2

= 0.

– La derniere egalite tient puisque les deux estimateurs β1 et β1 sont conditionnellement

non biaises et pour cette raison il faut que

(n∑i=1

Xiai −n∑i=1

Xiai

)=

n∑i=1

ai =n∑i=1

ai = 0.

– Finalement, nous avons donc

Var(β1|X1, . . . , Xn

)

= σ2u

n∑i=1

ai2

27

Page 28: Regsimple

= σ2u

(n∑i=1

a2i +

n∑i=1

di2

)

= Var(β1|X1, . . . , Xn

)+ σ2

u

n∑i=1

di2

⇒ Var(β1|X1, . . . , Xn

)− Var

(β1|X1, . . . , Xn

)= σ2

u

n∑i=1

di2 > 0

si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β1 est tout simplement l’estimateur MCO.

– Il y a aussi une preuve du theoreme Gauss-Markov dans le cadre du modele de regression

multiple dans le chapitre suivant. Vous allez constater (j’espere) que la preuve, qui utilise

une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas

demontre l’efficience de l’estimateur β0.

6.4 Erreur quadratique moyenne

– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.

– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus

efficient qu’un autre si les deux estimateurs sont non biaises et que le premier a une variance

moins elevee que le deuxieme.

– Une autre facon de comparer deux estimateurs est de comparer leurs erreurs quadratiques

moyennes. Nous avons deja vu ce concept dans le chapitre sur la statistique.

– Voici la definition de l’erreur quadratique moyenne d’un estimateur quelconque β :

EQM(β)≡ E

((β − β

)2).

– Il s’agit de l’esperance de l’ecart au carre entre la valeur de l’estimateur et sa vraie valeur.

– C’est une mesure assez intuitive de la precision d’un estimateur.

28

Page 29: Regsimple

– Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de

l’estimateur et du biais de l’estimateur au carre. Autrement dit,

EQM(β)

= Var(β)

+(

E(β − β

))2

.

– Voici la preuve. Nous savons que pour une variable aleatoire quelconque X ,

Var (X) = E(X2)− (E (X))2 .

Cette formule s’applique aussi a la variable aleatoire(β − β

). Donc nous avons

Var(β − β

)= E

((β − β

)2)−(

E(β − β

))2

⇒ E((

β − β)2)

= Var(β − β

)+(

E(β − β

))2

⇒ E((

β − β)2)

= Var(β)

+(

E(β − β

))2

,

ce qui fut a montrer, puisque

Var(β − β

)= Var

(β)

du au fait que β n’est pas une variable aleatoire.

– Le critere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont

pas forcement non biaises.

– Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le

biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus

grande variance est mauvaise). Il y a des estimateurs qui sont biaises mais qui ont neanmoins

une erreur quadratique moyenne inferieure a n’importe quel estimateur non biaise justement

parce qu’ils ont une variance tres faible.

29

Page 30: Regsimple

– Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du

modele de regression lineaire et l’estimateur MCO, le concept d’efficience est plus au centre

de l’analyse puisque, sous des hypotheses relativement faibles, l’estimateur MCO est non

biaise.

– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le

contexte du modele de regression simple.

– Il etudie le modele de regression simple sans constante :

Yi = βXi + ui,

ou les Xi sont non aleatoires et ou on a ui ∼ i.i.d. (0, σ2) (les erreurs sont

independamment et identiquement distribuees avec moyenne nulle et variance egale a

σ2). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothese

concernant l’esperance non conditionnelle des erreurs simplifie l’analyse.)

– Il montre que si on minimise l’erreur quadratique moyenne, � l’estimateur � qu’on

obtient depend de β lui-meme, qui est non observable. Donc, c’est un estimateur qui est

� non operationnel �, c’est a dire que nous pouvons meme pas calculer.

– Dans son deuxieme article (2013e), Giles montre qu’il est possible de trouver un estima-

teur operationnel (que nous pouvons calculer) si on minimise une combinaison lineaire

de la variance et du biais de l’estimateur. Le probleme peut s’ecrire

minβQ =

αVar

(β)

σ2

+ (1− α)

(

E(β − β

))β

2 .

– La fonction objectif est une somme ponderee de la variance relative (par rapport a la

variance de l’erreur) et du biais au carre relatif (par rapport a la vraie valeur de β) de

l’estimateur β.

30

Page 31: Regsimple

– La solution a ce probleme (que nous allons calculer un peu plus loin) est

β = β(1− α)

∑ni=1 Xi

2

α + (1− α)∑n

i=1Xi2

ou β est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur

donnee de α.

– Pour α = 0 nous avons β = β. Autrement dit, si on met tout le poids sur la minimisation

du biais au carre, on obtient l’estimateur MCO, qui n’est pas biaise.

– Pour α > 0, |β| < |β|. L’estimateur β est plus pres de zero. (C’est un exemple de ce

qu’on appelle un � shrinkage estimator � en anglais.)

– Cette solution est un peu difficile a montrer. Commencons par definir β comme un esti-

mateur lineaire quelconque :

β ≡n∑i=1

aiYi

pour des constantes quelconques ai.

– Cette definition nous donne immediatement

E(β)

= E

(n∑i=1

ai (βXi + ui)

)

= β

n∑i=1

aiXi + E

(n∑i=1

aiui

)

= β

n∑i=1

aiXi

⇒ E(β − β

)= β

(n∑i=1

aiXi − 1

)

puisque nous avons fait l’hypothese que les Xi sont non stochastiques et que E (ui) = 0.

31

Page 32: Regsimple

– La variance de l’estimateur est donnee par

Var(β)

=n∑i=1

ai2Var (Yi) = σ2

n∑i=1

ai2

pusque nous faisons l’hypothese que la variance des erreurs est constante.

– Notre probleme de minimisation peut donc s’ecrire

minai

Q = α

(σ2∑n

i=1 ai2

σ2

)+ (1− α)

(β∑n

i=1 (aiXi − 1)

β

)2

ou bien

minai

Q = α

(n∑i=1

ai2

)+ (1− α)

(n∑i=1

(aiXi − 1)

)2

.

– Les variables de choix du probleme sont les ai et non β lui-meme.

– En choisissant notre fonction objectif comme une somme ponderee de la variance rela-

tive de l’estimateur et du biais au carre relatif, nous avons reussi a eliminer les parametres

non observables (β et σ2) du probleme.

– Pour un ai quelconque la condition du premier ordre s’ecrit

∂Q

∂ai= 0 = 2αai + 2 (1− α)Xi

(n∑j=1

ajXj − 1

)

⇒ αai + (1− α)Xi

(n∑j=1

ajXj − 1

)= 0.

– Multiplions cette expression par Yi et calculons la somme a travers les n termes en ai.

Nous obtenons

αaiYi + (1− α)XiYi

(n∑j=1

ajXj − 1

)= 0

⇒ αn∑i=1

aiYi + (1− α)n∑i=1

XiYi

(n∑j=1

ajXj − 1

)= 0

32

Page 33: Regsimple

⇒ αβ + (1− α)n∑i=1

XiYi

(n∑j=1

ajXj − 1

)= 0 (1)

puisque nous avons defini au depart notre estimateur comme β ≡∑n

i=1 aiYi.

– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme a travers les n

termes, ce qui donne

αaiXi + (1− α)Xi2

(n∑j=1

ajXj − 1

)= 0

⇒ αn∑i=1

aiXi + (1− α)n∑i=1

Xi2

(n∑j=1

ajXj − 1

)= 0

⇒ αn∑j=1

ajXj + (1− α)n∑i=1

Xi2

(n∑j=1

ajXj − 1

)= 0

(par un simple changement d’indice)

⇒ αn∑j=1

ajXj + (1− α)n∑i=1

Xi2

n∑j=1

ajXj − (1− α)n∑i=1

Xi2 = 0

⇒n∑j=1

ajXj

(α + (1− α)

n∑i=1

Xi2

)=

((1− α)

n∑i=1

Xi2

)

⇒n∑j=1

ajXj =

((1− α)

∑ni=1Xi

2)(

α + (1− α)∑n

i=1Xi2).

– Maintenant, substituons cette solution pour∑n

j=1 ajXj dans l´equation (1) et simpli-

fions :

⇒ αβ + (1− α)n∑i=1

XiYi

( ((1− α)

∑2i=1Xi

2)(

α + (1− α)∑2

i=1 Xi2).− 1

)= 0

⇒ αβ = (1− α)n∑i=1

XiYi

(α + (1− α)

∑ni=1Xi

2 − (1− α)∑n

i=1Xi2(

α + (1− α)∑2

i=1Xi2) )

33

Page 34: Regsimple

⇒ αβ = (1− α)n∑i=1

XiYi

(α(

α + (1− α)∑2

i=1Xi2))

⇒ β =n∑i=1

XiYi

((1− α)(

α + (1− α)∑2

i=1Xi2))

⇒ β =

∑ni=1XiYi∑ni=1 Xi

2

(1− α)∑n

i=1Xi2

α + (1− α)∑2

i=1Xi2

= β(1− α)

∑ni=1 Xi

2

α + (1− α)∑2

i=1 Xi2.

– Ceci est le cas puisque pour ce modele l’estimateur MCO β est donne par (exercice)

β =

∑ni=1XiYi∑ni=1Xi

2 .

7 Proprietes echantillonnales de l’estimateur

– Dans cette section, le but principal de l’exercice est de deriver la variance (et par extension

l’ecart type) de nos estimateurs MCO β0 et β1.

– Les ecarts types de β0 et de β1 font partie de l’output standard de n’importe quel logiciel de

regression.

– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothese concernant les coef-

ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimes.

– Nous avons :

β1 = β1 +

∑ni=1

(Xi − X

)ui∑n

i=1

(Xi − X

)2

= β1 +1n

∑ni=1

(Xi − X

)ui

1n

∑ni=1

(Xi − X

)2 .

– D’abord, travaillons avec le numerateur.

34

Page 35: Regsimple

– Nous avons deja vu que

Xp−→ µX ,

ce qui veut dire que la moyenne echantillonnale converge en probabilite a la moyenne dans

la population. Donc, pour des echantillons assez grands, nous avons

1

n

n∑i=1

(Xi − X

)ui ≈

1

n

n∑i=1

(Xi − µX)ui ≡ v ≡ 1

n

n∑i=1

vi.

– La variable aleatoire vi que nous venons de definir satisfait les proprietes suivantes :

1. E (vi) = 0 ;

2. vi est i.i.d. ;

3. σ2v <∞ .

– La variable satisfait les hypotheses pour pouvoir invoquer le theoreme de la limite centrale.

Donc, nous avonsv

σv

d−→ N (0 , 1) ,

ou σ2v = σ2

v/n.

– Maintenant, travaillons avec le denominateur. Nous avons deja vu a la fin du chapitre sur la

statistique que la variance echantillonnale est un estimateur convergent de la variance d’une

variable aleatoire. Donc nous avons :

1

n− 1

n∑i=1

(Xi − X

)2 ≈ 1

n

n∑i=1

(Xi − X

)2 p−→ σ2X .

– Mettant ensemble numerateur et denominateur, nous avons

Var(β1 − β1

)=

σ2v

n (σ2X)

2

et, (β1 − β1

)d−→ N

(0 ,

σ2v

n (σ2X)

2

)

35

Page 36: Regsimple

– Notez tres bien ce que nous venons de faire. Nous avons montre la convergence en distri-

bution du numerateur, et la convergence en probabilite du denominateur, et par la suite nous

avons saute tout de suite a la convergence en distribution du ratio des deux.

– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-

prietes asymptotiques (proprietes en grand echantillon) de nos statistiques. Notez que nous

ne pouvons pas le faire lorsqu’il s’agit d’esperances. Par exemple,

E(X

Y

)6= E(X)

E(Y )

sauf dans le cas de variables aleatoires independantes.

– Par contre, sous certaines hypotheses, nous avons

Xp−→ µX , Y

p−→ µY ⇒ X

Y

p−→ µXµY

,

et

Xd−→ N

(µX , σ2

X

), Y

p−→ µY ⇒ X

Y

d−→ N

(µXµY

,

(1

µY

)2

σ2X

).

– Nous avons utilise le Theoreme de Slutsky, un des theoremes les plus utiles en theorie

des probabilites. Il permet de scinder des expressions compliquees de variables aleatoires

(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la

convergence de l’expression suit immediatement.

– Nous aurons frequemment l’occasion d’utiliser une version de ce theoreme. Pour plus de

details, voir le chapitre des notes sur le modele de regresson multiple.

– Notez que la variance de β1 decroıt avec n et tend vers zero lorsque n tend vers l’infini. Lors-

qu’on parle de convergence en distribution, on utilise normalement une variable aleatoire

normalisee de telle facon a ce sa variance ne diminue pas avec la taille de l’echantillon. Pour

36

Page 37: Regsimple

cette raison, il serait conventionnel de dire que :

√n(β1 − β1

)d−→ N

(0 ,

σ2v

(σ2X)

2

)

– Maintenant, definissons

σ2β1≡ σ2

v

n (σ2X)

2 .

– Maintenant, si nous divisons(β1 − β1

)par la racine carree de σ2

β1, nous obtenons une sta-

tistique qui converge en distribution vers une loi normale centree reduite :

(β1 − β1

)√σ2β1

(β1 − β1

)σβ1

d−→ N (0 , 1) .

– Notez que nous venons de montrer a toutes fins pratiques la convergence de l’estimateur

MCO de β1. Nous avions deja montre que l’estimateur MCO est non biaise. Maintenant,

nous venons de montrer que la variance de notre estimateur tend vers zero lorsque la taille

de l’echantillon tend vers l’infini. Autrement dit,

limn→∞

σ2β1

= 0.

– Nous avons tous les prerequis pour conclure que l’estimateur MCO de β1 converge en pro-

babilite a sa vraie valeur.

7.1 Estimateur convergent de σ2β1

– La variance de la variable aleatoire v definie ci-dessus n’est generalement pas connue, la

variance de X non plus.

– Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population

par un estimateur convergent de ce moment.

37

Page 38: Regsimple

– Definissons :

σ2β1≡ 1

n

1n−2

∑ni=1

(Xi − X

)2(ui)

2(1n

∑ni=1

(Xi − X

)2)2

– Ensuite, definissons l’ecart type estime de β1 comme

SE(β1

)≡√σ2β1.

– La plupart des logiciels de regression calculent cet ecart type. Il faut, par contre, verifier si

l’option par defaut est de calculer cet ecart type robuste (robuste a la presence de l’hetero-

scedasticite) ou plutot de calculer l’ecart type qui suppose l’homoscedasticite.

7.2 Estimateur convergent de σ2β1

en cas d’homoscedasticite

– Si nous sommes prets a supposer que

Var (ui|X = Xi) = Var (ui) = σ2u,

nous pouvons remplacer l’estimateur convergent de σ2β1

par

σ2β1≡ 1

n

1n−1

∑ni=1 (ui)

2

1n

∑ni=1

(Xi − X

)2 .

– J’ai utilise la notation legerement differente σ2β1

pour distinguer entre le cas general (lors-

qu’on ne suppose pas l’homoscedasticite) ou on utilise un estimateur � robuste � de la

variance et le cas particulier ou on suppose l’homoscedasticite.

– Le manuel est parmi les seuls a utiliser l’estimateur robuste comme l’estimateur par defaut.

Beaucoup de manuels presentent le cas homoscedastique comme le cas de base et montre

par la suite qu’est-ce qui arrive si l’hypothese d’homoscedasticite ne tient pas. Je partage

l’opinion des auteurs que l’homoscedasticite est une hypothese forte qui risque de ne pas

tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien

38

Page 39: Regsimple

d’enseigner le cas general et l’estimateur robuste comme l’option par defaut d’un econometre

applique.

– Lorsqu’on utilise un logiciel de regression comme R, STATA ou GRETL, il faut lire atten-

tivement la documentation pour savoir quelle est l’option par defaut utilisee pour estimer

la matrice variance-covariance des coefficients estimes. Dans la plupart des cas l’option par

defaut suppose l’homoscedasticite et il faut specifier l’option � robuste � ou l’equivalent si

vous n’etes pas prets a supposer l’homoscedasticite, ce qui sera generalement le cas.

Les ecarts types robustes peuvent etre plus grands ou plus petits que les ecarts types non ro-

bustes. Pour une explication plus detaillee et une illustration dans un cas tres simple, voir Auld

(2012). Auld demontre les points suivants.

1. En presence d’heteroscedasticite, si la variance des erreurs n’est pas fortement correlee

avec la variable explicative du modele (X), il y aura peu de difference entre l’ecart

type calcule avec la methode robuste et l’ecart type calcule sous l’hypothese de l’ho-

moscedasticite.

2. Si la variance des erreurs augmente pour des valeurs desXi qui sont loin de leur moyenne

echantillonnale X , l’ecart type calcule avec la methode non robuste (supposant l’ho-

moscedasticite) sera biaise vers zero (trop petit). L’ecart type calcule avec la methode

robuste sera en general plus grand que l’ecart type non robuste.

3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pres de leur

moyenne echantillonnale X , l’ecart type calcule avec la methode non robuste (supposant

l’homoscedasticite) sera biaise et sera en moyenne trop grand. L’ecart type calcule avec

la methode robuste sera en general plus petit que l’ecart type non robuste.

4. Avec les donnees reeles on rencontre plus souvent le cas ou l’ecart type non robuste est

baisie vers zero (est trop petit). Donc, typiquement les ecarts types robustes sont plus

eleves que les ecarts types non robustes.

39

Page 40: Regsimple

7.3 Detecter l’heteroscedasticite

– Il peut etre important de pouvoir detecter la presence d’erreurs heteroscedastiques. Il y a des

tests formels, 2 mais il y a aussi des methodes moins formelles que les chercheurs appliques

peuvent utiliser.

– Une facon simple serait de creer, une fois le modele estime, un graphique avec les Xi sur

l’axe horizontal et les residus carres u2i sur l’axe vertical.

– Une relation evidente entre les deux (par exemple, des valeurs de u2i qui semblent augmenter

avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair de la

presence d’heteroscedasticite.

– Une autre facon serait, une fois le modele estime, d’estimer une regression ou on prend

les residus carres comme variable dependante et Xi comme variable explicative, ou des

fonctions non lineaires des Xi. Par exemple,

u2i = γ0 + γ1Xi + εi

ou encore

u2i = γ0 + γ1Xi

2 + εi.

– L’idee est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ1 la valeur estimee du coef-

ficient γ1 Une valeur significative de γ1 (voir la section suivante sur les tests d’hypothese)

serait un indice clair de la presence d’heteroscedasticite. 3 Nous allons revenir sur cette ques-

tion et sur quelques tests formels pour detecter l’homoscedasticite dans le chapitre sur la

regression multiple.

2. Nous verrons certains de ces tests formels dans le chapitre sur le modele de regression multiple.3. Notez qu’il ne s’agit pas d’un test formel avec des proprietes statistiques connues. Il faut interpreter le resultat

du test a titre indicatif seulement. Par contre, le test formel appele test Breusch-Pagan est essentiellement base sur uneregression de ce type.

40

Page 41: Regsimple

8 Tests d’hypothese

8.1 Approche general

– Le principe de base pour tester des hypotheses simples est presqu’identique a ce que nous

avons vu dans le chapitre sur l’inference statistique.

– L’hypothese nulle specifie generalement que le coefficient d’interet (qui peut etre β0 ou

β1 prend une certaine valeur. L’hypothese alternative peut etre bilaterale ou unilaterale,

dependant du contexte.

– D’abord, il faut creer une statistique normalisee qui a une moyenne nulle et une variance

unitaire sous l’hypothese nulle. Il s’agit d’une � statistique t � meme si en general elle

n’obeit pas a une loi t de Student. Par exemple :

t ≡ β1 − β1,0

SE(β1

)ou SE

(β1

)est un estimateur convergent de l’ecart type du coefficient β1 et β1,0 est la valeur

que prend le coefficient β1 sous l’hypothese nulle.

– Si nous sommes prets a faire l’hypothese que le terme d’erreur du modele ui obeit a une loi

normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de

Student. Dans ce cas, bien sur, il est preferable d’utiliser la forme homoscedastique pour le

calcul de l’ecart type de l’estimateur β1.

– Si non, sous les hypotheses du modele de regression, la statistique t obeit en grand echantillon

a une loi normale centree reduite. Voir la section precedente sur les proprietes echantillonnales

de l’estimateur.

– Comme il est habituellement le cas, nous remplacons l’ecart type dans le denominateur par

un estimateur convergent.

– Maintenant, nous procedons exactement comme dans le chapitre sur la statistique.

41

Page 42: Regsimple

8.2 Hypothese alternative bilaterale

– D’abord, si l’hypothese alternative est bilaterale :

H1 : β1 6= β1,0,

nous rejetons l’hypothese nulle si la statistique calculee est suffisamment loin de zero. La

p-value du test est donnee par :

p-value = Pr(|z| > |tact|

)= 2Φ

(−|tact|

)ou tact est la valeur calculee de la statistique et, comme auparavant, Φ(z) est la valeur de la

distribution normale centree reduite cumulee a z.

– On appelle appelle communement un � test de significativite � un test de l’hypothese nulle

que la variable explicative n’est pas significative, et donc n’aide pas a expliquer la variabilite

de la variable dependante. Dans, ce cas, l’hypothese nulle est H0 : β1 = 0 et l’hypothese

alternative est bilaterale. On peut aussi parler d’un test de significativite de la constante

dans le modele de regression simple. Les tests de significativite sont tellement repandus que,

si l’output fourni par un logiciel d’econometrie donne les � statistiques t � associees aux

coefficients estimes, il s’agit de statistiques appropriees pour tester l’hypothese nulle que le

coefficient est egal a zero.

8.3 Hypothese alternative unilaterale

– Ensuite, si l’hypothese alternative est unilaterale, il faut distinguer entre les deux cas pos-

sibles.

1. D’abord,

H1 : β1 > β1,0.

Nous rejetons l’hypothese nulle si la statistique calculee est suffisamment positive. La

42

Page 43: Regsimple

p-value du test est donnee par :

p-value = Pr(z > tact

)= 1− Φ

(tact).

2. La deuxieme possibilite est :

H1 : β1 < β1,0.

Nous rejetons l’hypothese nulle si la statistique calculee est suffisamment negative. La

p-value du test est donnee par :

p-value = Pr(z < tact

)= Φ

(tact).

9 Intervalles de confiance pour les coefficients

– Le principe est identique que pour l’estimateur de la moyenne de la population que nous

avons vu dans le chapitre sur l’inference statistique.

– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la

valeur de z > 0 tel que

Φ(−z) =1−X/100

2.

Donc, on cherche la valeur de z > 0 pour laquelle (100−X)2

% de la distribution normale

centree reduite se trouve a gauche de −z. Cela veut dire bien sur que (100−X)2

% de la distri-

bution normale centree reduite se trouve a droite de z.

– Nous avons (pour β1 : le principe pour β0 est identique) :

X

100= Pr

(−z ≤ β1 − β1

σβ1≤ z

)

= Pr(−zσβ1 ≤

(β1 − β1

)≤ zσβ1

)

43

Page 44: Regsimple

= Pr(−zσβ1 ≤

(β1 − β1

)≤ zσβ1

)= Pr

(β1 − zσβ1 ≤ β1 ≤ β1 + zσβ1

),

ou σβ1 ≡ SE(β1

), notre estimateur convergent de l’ecart type de β1.

– Cela implique que l’intervalle de confiance de X% autour de β1 peut etre ecrit de la facon

suivante :

β1 ± zσβ1 ,

ou

Φ(−z) =1−X/100

2.

9.1 Intervalles de confiance pour les predictions

Souvent, on estime un modele de regression pour predire l’impact du changement de la variable

explicative sur la variable dependante. Par exemple, dans le cadre du modele developpe en detail

dans le manuel, on pourrait vouloir predire l’impact sur le rendement scolaire d’une reduction de

la taille moyenne des classes de deux eleves. Soit ∆X le changement propose de la valeur de la

variable explicative. On a tout de suite

∆Yi = β1∆Xi,

ou ∆Yi est le changement predit de la variable dependante. Developper un intervalle de confiance

dans ce cas est facile. Le changement pose ∆X est connue. On peut le traiter comme une constante,

et donc nous avons

Var(

∆Yi

)= Var

(β1∆Xi

)= (∆Xi)

2 Var(β1

)

44

Page 45: Regsimple

Donc, procedant de la meme maniere que pour l’intervalle de confiance pour β1 lui-meme on a

X

100= Pr

−z ≤ ∆Xi

(β1 − β1

)(∆Xi)σβ1

≤ z

= Pr

(−z (∆Xi)σβ1 ≤ ∆Xi

(β1 − β1

)≤ z (∆Xi)σβ1

)= Pr

(−z (∆Xi)σβ1 ≤ ∆Xi

(β1 − β1

)≤ z (∆Xi)σβ1

)= Pr

(−z (∆Xi)σβ1 + ∆Xiβ1 ≤ ∆Xiβ1 ≤ z (∆Xi)σβ1 + ∆Xiβ1

).

Donc, l’intervalle de confiance pour le changement predit est donne par

∆Xiβ1 ± z (∆Xi)σβ1

Si nous remplacons l’ecart type de β1 par un estimateur convergent (notre truc habituel), l’intervalle

de confiance peut s’ecrire

∆Xiβ1 ± z (∆Xi) σβ1

10 Un exemple d’estimation du modele de regression simple

avec R

Voici un exemple de comment estimer un modele de regression simple avec le logiciel R.

L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus

de detaillee. Vous pouvez facilement jouer avec le code une fois que le logiciel est installe. Le but

du modele est de predire la demande pour les abonnements a des revues scientifiques (abonnements

par des bibliotheques universitaires) ou la variable explicative est le prix par nombre de citations.

Le modele est

ln (subsi) = β0 + β1 ln (citepricei) + ui,

45

Page 46: Regsimple

ou la variable dependante subsi est le nombre d’abonnements a la revue i (mesure en logs), et la

variable explicative citepricei est le prix annuel d’un abonnement divise par le nombre de citations

annuel d’articles publies dans la revue (mesure aussi en logs). Notez que le choix de mesurer les

deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre

sur les modeles de regression non lineaires. 4

Les donnees sont dans une banque de donnees qui s’appelle � Journals �. Il s’agit de

donnees (avec n = 180) sur les abonnements par des bibliotheques universitaires a des revues

scientifiques. La taille de l’echantillon est le nombre de revues dans l’echantillon.

Afin d’effectuer l’estimation d’un modele de regression simple de base et afin d’effec-

tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais

aussi les � packages � AER (qui contient les donnees utilisees pour estimer le modele),

lmtest, sandwich et zoo (ces trois packages permettent de calculer les ecarts types ro-

bustes du modele estime et d’effectuer des tests d’hypothese utilisant les ecarts types ro-

bustes). Si les packages ne sont pas deja installes, il faut les installer avec la commande

install.packages(·) :

install.packages("AER")

install.packages("lmtest")

install.packages("zoo")

install.packages("sandwich")

Notez que sous Linux il est preferable d’installer le package comme administrateur du systeme

ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.

Une fois les packages installes, on peut proceder a charger les donnees et estimer le modele

par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les

4. Entretemps, a moins d’avis contraire, je vous demande d’utiliser des variables non transformees dans les exer-cices empiriques.

46

Page 47: Regsimple

commandes. Les lignes precedees par � # � sont des commentaires.

R> # Charger les donnees.

R> library("AER")

R> data("Journals")

R> # Permettre d’appeler les variables directement par leurs

noms.

R> attach(Journals)

R> # Calculer des statistiques descriptives concernant les

variables.

R> # summary(Journals)

R> # Creer une base de donnees avec un sous-ensemble des

variables.

R> journals <- Journals[, c("subs", "price")]

R> # Ajouter le prix par citation a la base de donnees

restreinte.

R> journals$citeprice <- Journals$price / Journals$citations

R> # Permettre d’appeler les variables dans journals

directement.

R> attach(journals)

R> # Produire un nuage de points avec les abonnements et le

prix par citation.

R> plot(log(subs) ∼ log(citeprice), data = journals)

R> # Estimer le modele par MCO utilisant la commande lm(·).

R> # Les resultats sont stockes dans l’objet jour lm.

R> jour lm <- lm(log(subs) ∼ log(citeprice))

R> # Ajouter la ligne de regression estimee au nuage de

47

Page 48: Regsimple

points.

R> abline(jour lm)

R> # Calculer des statistiques de base avec l’output de

l’estimation.

R> summary(jour lm)

R> # Ouvrir un fichier pour contenir ces statistiques.

R> # Le nom du fichier est � regumm.out �.

R> outfile <- file("regsumm.out", "w")

R> capture.output(summary(jour lm), file=outfile)

R> # Fermer le fichier qui contient l’output.

R> close(outfile)

Resumons ce que nous avons fait avec ces commandes.

– La commande data(·) charge la banque de donnees en memoire.

– La commande journals<- cree une plus petite banque de donnees en extrayant les

variables subs (combien d’abonnements) et price (prix de l’abonnement).

– La commande journals$citeprice<- ajoute une nouvelle variable a la banque

journals qui est le prix par citation.

– La commande plot(·) cree un graphique avec les observations, avec subs (en loga-

rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)

– La commande lm(·) estime le modele de regression simple par MCO, et la commande

jour lm<- place les resultats dans la variable jour lm.

– La commande abline(·) utilise les resultats pour placer la ligne de regression sur le

graphique qui a deja ete cree.

– La commande summary(·) imprime les resultats de la regression a l’ecran.

– La commande outfile<- cree un fichier texte ou on peut envoyer les resultats.

– La commande capture.output(·) envoie les resultats dans le fichier qui a ete cree.

48

Page 49: Regsimple

– La commande close(·) ferme le fichier.

Les resultats de l’estimation sont comme suit.

Call:

lm(formula = log(subs) ∼ log(citeprice), data = journals)

Residuals:

Min 1Q Median 3Q Max

-2.72478 -0.53609 0.03721 0.46619 1.84808

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.76621 0.05591 85.25 <2e-16 ***

log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7497 on 178 degrees of freedom

Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548

F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16

Vous etes deja en mesure de comprendre tous les elements de l’output, sauf a la toute fin lors-

qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement

statistique R2 que nous avons etudiee est ce qu’on appelle Multiple R-squared dans

l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le modele de regression

multiple.

En ce qui concerne les residus, le logiciel nous donne la valeur minimale parmi les residus,

49

Page 50: Regsimple

la valeur associee au premier quartile (la valeur pour laquelle 25% des residus on une valeur

inferieure), la valeur mediane (qui n’est pas forcement egale a la moyenne), la valeur associee

au troisieme quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-

male) peuvent etre utiles pour reperer des observations aberrantes.

Une mise en garde : le code ci-dessus estime le modele par MCO utilisant les options

par defaut. La fonction lm utilise par defaut une hypothese d’homoscedasticite. Donc, les

ecarts types des deux coefficients (β0 et β1 dans notre notation) ne sont pas des ecarts types

robustes. Afin d’obtenir des ecarts types robustes a la presence de l’heteroscedasticite, il faut

utiliser la commande suivante :

R> coeftest(jour lm, vcov=vcovHC)

Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et

lmtest soit intalles, tel qu’indique ci-dessus. Il faut aussi charger en memoire les packages

lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-

mande coeftest(·), avec les commandes suivantes :

R> library("lmtest")

R> library("sandwich")

Les resultats de cette commande sont comme suit :

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.7662 0.0555 85.8 <2e-16

log(citeprice) -0.5331 0.0345 -15.5 <2e-16

Ce modele est un exemple d’un modele ou il n’y a pas une difference enorme entre les ecarts

types robustes et non robustes. Puisque l’ordinateur est capable de calculer les ecarts types en

une fraction de seconde, il coute presque rien de les calculer des deux facons afin de verifier si

50

Page 51: Regsimple

les resultats sont semblables ou non.

Un graphique avec les donnees (variable dependante sur l’axe vertical et variable explica-

tive sur l’axe horizontal) et la ligne de regression est la Figure 2 ci-dessous.

Figure 2

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

−4 −2 0 2

12

34

56

7

log(citeprice)

log(

subs

)

11 Le modele de regression simple lorsque X est une variable

dichotomique

Jusqu’ici, nous avons suppose que la variable explicative dans le modele de regression simple,

X , est une variable aleatoire continue. Il es souvent le cas que la variable explicative est une

variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, present ou

51

Page 52: Regsimple

absent, etc.

On peux representer ces deux valeurs possibles de la variable explicative variable dichotomi-

que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement

scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donnees sur la taille des

classes ou Di = 1 pour des ratios eleves/professeurs inferieurs a 20 est Di = 0 pour des ratios

eleves/professeurs au moins egaux a 20.

Dans ces cas, β1 n’a pas l’interpretation d’un coefficient de pente. Il a l’interpretation de la

moyenne conditionnelle de la variable dependante Y lorsque Di = 1. L’ordonnee β0 a l’in-

terpretation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interpretation de

la difference entre les moyennes de deux populations ou plutot de sous-populations.

Algebriquement, nous avons

Yi = β0 + β1Xi + ui

⇒ E (Yi|Xi = 0) = β0 + β1 × 0 + E (ui|Xi = 0) = β0

et

⇒ E (Yi|Xi = 1) = β0 + β1 × 1 + E (ui|Xi = 1) = β0 + β1.

On ecrit dans le manuel qu’il y a equivalence entre d’une part estimer le modele de regression

simple par MCO avec une variable explicativeX et d’autre part calculer les moyennes echantillon-

nales des sous-echantillons. Dans l’encadre qui suit, je montre cette equivalence. Je montre aussi

l’equivalence entre tester la significativite du coefficient estime β1 et tester la significativite de la

difference entre deux moyennes.

Le modele avec une variable explicative dichotomique peut s’ecire

Yi = β0 + β1Di + ui,

ou Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-

52

Page 53: Regsimple

quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que

D ≡ 1

n

n∑i=1

Di =n1

n.

L’estimateur β0 est donne par la formule habituelle

β0 = Y − β1D.

L’estimateur β1 est donne par la formule habituelle

β1 =

∑ni=1

(Yi − Y

) (Di − D

)∑ni=1

(Di − D

)2 .

Dans ce cas, avec Di une variable dichotomique, nous avons

n∑i=1

(Di − D

)2

=

n0∑i=1

D2 +

n1∑i=1

(1− D

)2

= n0

(n1

n

)2

+ n1

(1− n1

n

)2

= n0

(n1

n

)2

+ n1

(n0

n

)2

=n0n1

2 + n1n02

n2

=n0n1 (n0 + n1)

n2=n0n1

n.

Definissons Y 1i la valeur de Yi dans le cas ou Di = 1. Definissons Y 0

i la valeur de Yi dans le

53

Page 54: Regsimple

cas ou Di = 0. Nous avons

β1 =

∑ni=1

(Yi − Y

) (Di − D

)n0n1/n

=

∑n1

i=1

(Y 1i − Y

)(1− n1/n)−

∑n0

i=1

(Y 0i − Y

)(n1/n)

n0n1/n

=

∑n1

i=1

(Y 1i − Y

)(n0/n)−

∑n0

i=1

(Y 0i − Y

)(n1/n)

n0n1/n

=1

n1

n1∑i=1

(Y 1i − Y

)− 1

n0

n0∑i=1

(Y 0i − Y

)

=1

n1

n1∑i=1

Y 1i −

1

n1

Y

n1∑i=1

1− 1

n0

n0∑i=1

Y 0i +

1

n0

Y

n0∑i=1

1

=1

n1

n1∑i=1

Y 1i −

n1

n1

Y − 1

n0

n0∑i=1

Y 0i +

n0

n0

Y

=1

n1

n1∑i=1

Y 1i −

1

n0

n0∑i=1

Y 0i .

Ceci est tout simplement la difference entre la moyenne echantillonnale de Y pour le sous-

echantillon ou Di = 1 et sa moyenne echantillonnale pour le sous-echantillon ou Di = 0.

Il faut maintenant montrer que β0 est tout simplement egal a la moyenne echantillonnale

de Y pour le sous-echantillon ou Di = 0. Nous avons

β0 = Y − n1

n

(∑ni=1

(Yi − Y

) (Di − D

)n0n1/n

)

= Y − n1

n

(∑n1

i=1

(Y 1i − Y

)(1− n1/n)−

∑n0

i=1

(Y 0i − Y

)(n1/n)

n0n1/n

)

= Y − n1

n

( n0

n

∑n1

i=1 Y1i − n1

n

∑n0

i=1 Y0i − Y n0n1

n+ Y n0n1

n

n0n1/n

)

= Y − n1

n

( n0

n

∑n1

i=1 Y1i − n1

n

∑n0

i=1 Y0i

n0n1/n

)

54

Page 55: Regsimple

=1

n

n∑i=1

Yi −1

n

n1∑i=1

Y 1i +

n1

n0n

n0∑i=1

Y 0i

=1

n

(n1∑i=1

Y 1i +

n0∑i=1

Y 0i

)− 1

n

n1∑i=1

Y 1i +

n1

n0n

n0∑i=1

Y 0i

=

(1

n+

n1

n0n

) n0∑i=1

Y 0i

=1

n0

n0∑i=1

Y 0i ,

ce qui fut a demontrer. La statistique t pour tester la significativite du coefficient estime β1 est

donnee par la formule habituelle :

t =β1

SE(β1

) .Dans ce cas, nous avons

t =Y 1 − Y 0√

Var(Y 1 − Y 0

) ,=

Y 1 − Y 0√Var(Y 1)

+ Var(Y 0) ,

=

(Y 1 − Y 0

)− 0√

σ2Y 1

n1+

σ2Y 0

n0

,

ou

Y 1 ≡ 1

n1

n1∑i=1

Y 1i , Y

0 ≡ 1

n0

n0∑i=1

Y 0i .

Cette formule correspond exactement a la formule derivee dans le chapitre sur la statistique

et les tests d’hypotheses pour tester la difference entre les moyennes de deux populations

differentes.

Ici, l’hypothese d’heteroscedasticite permet a la variance de l’erreur du modele de

regression de dependre des deux valeurs differentes possibles de Di.

55

Page 56: Regsimple

12 Concepts a retenir

– Comment ecrire le modele de regression simple.

– Le probleme de minimisation auquel l’estimateur MCO est une solution.

– Les proprietes algebriques de l’estimateur MCO. Il est important de pouvoir suivre les

demonstrations de ces proprietes et de les comprendre, mais il n’est pas necessaire d’etre

capable de les reproduire.

– Le concept du R2, et les concepts de somme totale des carres, somme expliquee des carres,

et somme des residus carres et la relation entre ces sommes.

– Les hypotheses statistiques de base du modele de regression simple qui sont requises pour

montrer l’absence de biais et la convergence.

– Les hypotheses additionnelles necessaires pour montrer l’efficience de l’estimateur MCO

(theoreme Gauss-Markov).

– Il faut avoir suivi et compris la derivation des proprietes echantillonnales des coefficients

estimes.

– Comment tester des hypotheses concernant les coefficients estimes du modele, contre des

hypotheses alternatives bilaterales ou unilaterales.

– Comment calculer un intervalle de confiance pour les coefficients du modele.

– Comment calculer un intervalle de confiance pour un changement predit.

13 References

Voir ce lien :

http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf

Derniere modification : 12/10/2013

56