reg multiple

Upload: steveambler1662

Post on 03-Apr-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/29/2019 Reg Multiple

    1/106

    ECO 4272 : Introduction a leconometrieNotes sur la Regression Multiple

    Steve Ambler

    Departement des sciences economiques

    Ecole des sciences de la gestion

    Universite du Quebec a Montreal

    c2013 : Steve Ambler

    Hiver 2013

    Ces notes sont en cours de developpement. Jai besoin de vos commentaires et de vos suggestions pour

    les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message [email protected].

    1

    mailto:[email protected]:[email protected]:[email protected]
  • 7/29/2019 Reg Multiple

    2/106

    Table des matieres

    1 Introduction 5

    2 Biais du a une variable omise 5

    2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 Modele de regression multiple 10

    3.1 Specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.2 Specification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.3 Hypotheses de base du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.5 Quelques exemples simples des regles de differentiation . . . . . . . . . . . . . . . 16

    3.6 Approche non matricielle au probleme de minimisation . . . . . . . . . . . . . . . 18

    4 Proprietes de lestimateur MCO 21

    4.1 Proprietes algebriques de lestimateur MCO . . . . . . . . . . . . . . . . . . . . . 21

    4.2 Ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    4.3 Mesures dajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.3.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.3.2 Le R2 ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    4.4 Proprietes statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 27

    4.5 Petite note : theoreme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.6 Proprietes statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.7 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 33

    4.8 Proprietes statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 34

    4.8.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5 Variance echantillonnale de 37

    5.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    2

  • 7/29/2019 Reg Multiple

    3/106

    5.2 Homoscedasticite versus Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . 40

    6 Efficience de lestimateur MCO sous lhomoscedasticite 41

    6.1 Preuve du theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    7 Biais du a des variables omises (bis) 44

    8 Tests dhypotheses et ensembles de confiance 52

    8.1 Tests dhypotheses simples par rapport a un seul coefficient . . . . . . . . . . . . . 52

    8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de coefficients . 54

    8.3 Pourquoi les tests sequentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 55

    8.4 Tests dhypotheses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    8.5 Que faire lorsque nest pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 59

    8.6 Une seule restriction comme un cas special . . . . . . . . . . . . . . . . . . . . . 60

    8.7 Significativite de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    8.8 Tests dhypothese en presence dhomoscedasticite . . . . . . . . . . . . . . . . . . 65

    8.9 Test de significativite de la regression dans le cas homoscedastique . . . . . . . . . 73

    8.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    8.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    9 Multicollinearite 76

    9.1 Multicollinearite parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    9.2 Multicollinearite imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    9.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    10 Un Exemple 82

    11 Un Autre Exemple 87

    12 Concepts a retenir 104

    3

  • 7/29/2019 Reg Multiple

    4/106

    13 References 105

    4

  • 7/29/2019 Reg Multiple

    5/106

    1 Introduction

    Dans ce chapitre sur le modele de regression multiple, il y a presque rien de fondamentalement

    nouveau par rapport au modele de regression simple. Une lecture de la table des matieres de ces

    notes servira a vous convaincre que ce sont les memes sujets qui reviennent. Cest comme si on

    allait reapprendre la matiere sur le modele de regression simple mais en notation matricielle. Cest

    donc une bonne occasion de faire de la revision, surtout en ce qui concerne les proprietes de

    lestimateur MCO. A peu pres le seul aspect novateur (a part la notation matricielle elle-meme)

    sera lidee de tester des hypotheses jointes (et une notion qui y est tres reliee, celle des ensembles

    de confiance). 1

    Une fois cette notation apprise, toutes les derivations algebriques concernant les proprietes

    algebriques de lestimateur MCO et les proprietes statistiques de lestimateur MCO sont plus sim-

    ples en notation matricielle quen notation de sommations. Jespere vous convaincre de ce principe

    avant de terminer notre etude sur le modele de regression multiple.

    2 Biais du a une variable omise

    On peut motiver le modele de regression multiple en montrant que, si nous voulons analyser

    limpact dune variable explicative sur une variable dependante et si nous omettons une ou des

    variables qui ont un impact sur la variable dependante, notre estime de limpact de la variable

    explicative dinteret sera en general biaise, dans la mesure ou la correlation entre cette variable

    omise ou ces variables omises et la variable explicative du modele est non nulle.

    Cela veut dire que, meme si nous ne nous interessons pas particulierement a limpact de ces

    variables omises, il faut neanmoins en tenir compte dans notre regression afin dobtenir un estime

    non biaise de limpact de notre variable dinteret (pour utiliser lexemple empirique du manuel,

    limpact de la taille moyenne des classes sur le rendement scolaire).

    1. Le concept de tester une hypothese simple qui porte sur une combinaison de coefficients est nouveau aussi,

    mais nous allons montrer comment transformer le modele de regression multiple pour traiter ce cas comme un test

    dune hypothese nulle qui porte sur un seul coefficient. Voir la sous-section 8.2.

    5

  • 7/29/2019 Reg Multiple

    6/106

    On sait a partir de notre etude du modele de regression simple, que lestimateur du coefficient

    de pente 1 est egal a :

    1 = 1 +1n

    ni=1

    Xi X

    ui

    1n

    n

    i=1 Xi X2 .

    Maintenant, on modifie nos hypotheses statistiques par rapport au modele de regression simple

    etudie dans le dernier chapitre. On nimpose plus que lesperance (conditionnelle a la valeur ob-

    servee Xi) soit egale a zero. Maintenant, on a :

    1

    n

    ni=1

    Xi X

    ui

    p Cov (u , X) = Corr (u , X) uX,

    et

    1

    n

    ni=1

    Xi X

    2 p 2X.Donc, par le theoreme de Slutsky (voir la section (4.5) ci-dessous), ce qui nous permet detudier

    separement les proprietes en grand echantillon du numerateur et du denominateur du deuxieme

    terme dans lexpression pour la valeur de notre estimateur 1, on a :

    1p

    1 +

    Corr (u , X) uX

    2X

    = 1 + Corr (u , X)u

    X.

    Lestimateur nest plus convergent. Il y a un biais, meme asymptotiquement (lorsque le nombre

    dobservations tend vers linfini). Le signe du biais depend du signe de la correlation entre la

    variable explicative Xi et le terme derreur ui.

    Notez que dans ce cas, les hypotheses de base du modele ne sont pas respectees. La variable

    omise, qui est incluse dans le terme derreur du modele, est correlee avec la variable explicative du

    modele X. Autrement dit, lhypothese

    E (ui|X = Xi) = 0

    ne tient plus. Dans le cadre dune etude empirique, il faut evaluer la plausibilite de cette hypothese

    6

  • 7/29/2019 Reg Multiple

    7/106

    avec les donnees quon a. Sil y a une variable dans la banque de donnees qui en principe pourrait

    affecter la variable dependante de letude et qui risque detre correlee avec une variable qui est

    incluse comme variable explicative dans le modele, il y a probablement un probleme de variable

    omise. 2

    Une solution possible est dinclure les variables omises explicitement comme variables ex-

    plicatives additionnelles dans le modele de regression. Le modele de regression simple devient un

    modele de regression multiple. Nous verrons dans la section suivante la specification du modele

    de regression multiple et les hypotheses standard qui permettront, comme dans le modele de

    regression simple, de demontrer certaines proprietes souhaitables de lestimateur MCO des co-

    efficients.

    2.1 Exemple

    Nous pouvons etre encore plus explicites. Supposons que le vrai modele est donne par

    Yi = 0 + 1X1i + 2X2i + ui

    tandis que le modele estime est

    Yi = 0 + 1X1i + ui

    ou

    ui 2X2i + ui.

    Le terme derreur du modele estime incorpore la variable omise X2i avec le vrai terme derreur ui.

    Nous avons

    1 =1nn

    i=1X1i X1 Yi Y

    1n

    ni=1

    X1i X1

    22. Dans des cours plus avances, vous allez apprendre des facons formelles de tester labsence de correlation entre

    les variables explicatives du modele et le terme derreur. Voir par exemple McFadden (2002). Sans ces m ethodologies

    avancees, il faut se fier a la logique et a son intuition.

    7

  • 7/29/2019 Reg Multiple

    8/106

    =1n

    ni=1

    X1i X1

    0 + 1X1i + 2X2i + ui 0 1X1 2X2 u

    1n

    ni=1

    X1i X1

    2= 1

    1n

    n

    i=1

    X1i X1

    2

    1

    nni=1 X1i X12+ 2

    1n

    n

    i=1

    X1i X1

    X2i X2

    1nni=1 X1i X12+

    1n

    ni=1

    X1i X1

    (ui u)

    1n

    ni=1

    X1i X1

    2= 1 + 2

    1n

    ni=1

    X1i X1

    X2i X2

    1n

    ni=1

    X1i X1

    2 + 1nni=1

    X1i X1

    (ui u)1n

    ni=1

    X1i X1

    2 .Calculant lesperance de 1, nous obtenons

    E1 = 1 + 2E 1nni=1 X1i X1 X2i X21n

    ni=1

    X1i X12

    +E

    +

    1n

    ni=1

    X1i X1

    E ((ui u) |X11, X12, . . . , X 1n)

    1n

    ni=1

    X1i X1

    2

    = 1 + 2E

    1n

    ni=1

    X1i X1

    X2i X2

    1n

    ni=1

    X1i X1

    2

    par la loi des esperances iterees. En general,

    E

    1n

    ni=1

    X1i X1

    X2i X2

    1n

    ni=1

    X1i X1

    2

    = 0.

    Lestimateur est biaise, le biais etant donne par la valeur de lesperance dans lequation precedente.

    Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de lechantillon

    n tend vers linfini). Lexpression

    1

    n

    ni=1

    X1i X1

    X2i X2

    est tout simplement (ou presque) la covariance echantillonnale entre X1 et X2. (Cest different par

    8

  • 7/29/2019 Reg Multiple

    9/106

    un facteur de n/(n 1) qui est presquegal a un si n est grand.) Lexpression

    1

    n

    ni=1

    X1i X1

    2

    est tout simplement (ou presque) la variance echantillonnale de X1. Si les deux expressions sont

    des estimateurs convergents de leurs equivalents dans la population, nous avons :

    1

    n

    ni=1

    X1i X1

    X2i X2

    p Cov (X1 , X2)et

    1

    n

    n

    i=1X1i X12 p Var (X1) .

    Par le theoreme de Slutsky (voir la section 4.5 ci-dessous), nous avons

    1p 1 + 2 Cov (X1 , X2)

    Var (X1)

    La difference entre 1 et sa vraie valeur est approximativement egale a la vraie valeur de 2 fois le

    ratio de la covariance entre X1 et X2 et la variance de X2. Si on connat au moins le signe de 2 et

    de la covariance, on peut predire le signe de cet ecart. Aussi, nous savons que

    Cov (X1 , X2)

    Var (X1)

    est la valeur (asymptotique) du coefficient de pente dune regression ou X2 est la variable

    dependante et X1 est la variable explicative.

    9

  • 7/29/2019 Reg Multiple

    10/106

    3 Modele de regression multiple

    3.1 Specification

    Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui. (1)

    Chaque variable explicative porte deux indices inferieurs. Le premier fait reference a son iden-

    tite. Le deuxieme fait reference a lunite dobservation (ou periode dans le cas de series

    chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de

    n observations.

    3.2 Specification matricielle

    Y = X+ U,

    ou

    Y

    Y1 Y2 . . . Y n

    ,

    X

    1 X11 X21 . . . X k1

    1 X12 X22 . . . X k2...

    ......

    . . ....

    1 X1n X2n . . . X kn

    ,

    0 1 2 . . . k

    ,

    U

    u1 u2 . . . un

    .

    donc, Y est un vecteur colonne de dimensions n 1, X est une matrice de dimensions n (k + 1), est un vecteur colonne de dimensions (k + 1) 1, et U est un vecteur colonne de dimensions

    10

  • 7/29/2019 Reg Multiple

    11/106

    n 1. Le modele contient une constante 0 et par convention la premiere colonne de X contientun vecteur de valeurs egales a un.

    Notez que la convention concernant les indices inferieurs associes aux variables explicatives

    du modele (qui, repetons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la

    j-ieme observation de la i-ieme variable explicative, nest pas strictement conforme avec la nota-

    tion conventionnelle de lalgebre lineaire ou des matrices. Soit Xune matrice de dimensions k l.En algebre lineaire on peut faire reference a un element de la matrice X par le biais dindices

    inferieurs. La convention est que Xij est lelement dans li-ieme rangee et la j-ieme colonne.

    Donc, il sagit dun mariage malheureux entre deux notations qui sont incompatibles. Dans ces

    notes, la notation Xij fera reference par defaut a la specification du modele dans lequation (1).

    Lorsque je veux utiliser la notation conventionnelle de lalgebre lineaire, je vais lecrire explicite-

    ment. 3

    Pour linstant, il ne sagit que de la notation. Lavantage dintroduire cette notation est la sim-

    plification de lalgebre. Nous verrons de quoi il sagit lors de la d erivation de lestimateur MCO. 4

    Avant de deriver lestimateur MCO, nous allons nous pencher dans la sous-section suivante sur les

    hypotheses statistiques derriere le modele de regression multiple.

    3.3 Hypotheses de base du modele

    Les hypotheses sont les equivalents des hypotheses de base du modele de regression simple du

    chapitre 4.

    Voir lencadre Key Concept 18.1 a la page 707 du manuel.

    1. E (ui

    |Xi) = 0. Cette hypothese est reliee a la preuve que lestimateur MCO de est un

    estimateur non biaise.

    2. (Xi , Yi) i.i.d. Cette hypothese est reliee a la preuve que lestimateur MCO de est un

    3. Si vous soupconnez quil y a des incoherences de notation, je vous prie de bien vouloir me les signaler.

    4. Toutes les preuves que nous allons voir (absence de biais de lestimateur MCO, proprietes echantillonnales de

    lestimateur, etc., sont beaucoup plus faciles a montrer en notation matricielle quen utilisant des sommations. Jespere

    que vous allez finir par etre convaincus de ce principe.

    11

  • 7/29/2019 Reg Multiple

    12/106

    estimateur convergent.

    3. Xi et ui ont des quatriemes moments non nuls et finis. Cette hypothese est aussi reliee a la

    preuve que lestimateur MCO de est un estimateur convergent.

    4. X est de rang plein en colonnes. Cela revient a dire quil ny a pas une colonne de la matrice

    X qui peut etre exprimee comme une combinaison lineaire exacte des autres colonnes de la

    matrice. Une des consequences de cette hypothese sera que la matrice (XX) (qui est une

    matrice carree par construction) sera une matrice de rang plein (k+1), et donc il sera possible

    de calculer son inverse (XX)1. Cet inverse (voir ci-dessous) fait partie de la definition de

    lestimateur MCO de . Donc, sans cette hypothese, lestimateur MCO de ne sera meme

    pas bien defini.

    5. Var (ui|Xi) = 2u.

    6. La distribution de ui conditionnelle a la valeur de Xi suit une loi normale.

    Les quatre premieres hypotheses sont les hypotheses retenues par defaut. Nous naurons besoin

    des deux dernieres hypotheses que pour des cas speciaux. Lavant derniere hypothese sapplique

    seulement dans le cas special derreurs homoscedastiques. Si nous sommes prets a supposer des

    erreurs homoscedastiques, nous obtiendrons une version plus simple de la matrice de variance-

    covariance des estimateurs MCO. Cette simplification correspond a ce que nous avons vu dans le

    cadre du modele de regression simple dans le cas homoscedastique. La derniere hypothese sap-

    plique seulement comme condition suffisante (avec les autres) pour demontrer le theoreme Gauss-

    Markov. Ce theoreme, dont on a deja vu une version dans le contexte du modele de regression

    simple, dit que lestimateur MCO de est lestimateur lineaire non biaise avec la variance la plus

    petite (donc est lestimateur lineaire non biaise le plus efficient). Le terme consacre en anglais estlestimateur BLUE (Best Linear Unbiased Estimator).

    12

  • 7/29/2019 Reg Multiple

    13/106

    3.4 Estimateur MCO

    Nous voulons choisir les valeurs des elements de qui minimisent la somme des residus carres.

    Pourquoi lestimateur MCO et non un autre type destimateur ? La justification se trouve plus loin,

    dans la section 6 de ces notes. On peut montrer que sous les hypotheses de base du modele et sous

    lhomoscedasticite et la normalite des erreurs, lestimateur MCO est lestimateur le plus efficient

    dans la classe destimateurs lineaires (une fonction lineaire des observations Yi) et non biaises).

    Cest le theoreme, celebre dans lhistoire de la pensee en statistique et en econometrie, Gauss-

    Markov. Il y a dautres estimateurs aussi que lon pourrait inventer qui satisfont un ou plusieurs

    des criteres souhaitables (absence de biais, convergence, etc.) meme sils sont moins efficients.

    Le probleme peut secrire comme

    min

    UU.

    Simple, non ? Remplacons U par sa definition. Le probleme devient :

    min

    (Y X) (Y X) ,

    ce qui est equivalent a :

    min

    (YY XY YX+ XX) .

    Vous devez etre parfaitement a laise avec cette multiplication matricielle. On applique les memes

    regles que pour la multiplication de scalaires en faisant bien attention a lorientation (est-ce quelles

    sont transposees ou non ?) des matrices.

    Derivant par rapport a , nous obtenons :

    XY XY + XX+ (XX) = 0.

    Notez aussi que le 0 du cote droit est implicitement un vecteur de zeros. Lexpression du

    13

  • 7/29/2019 Reg Multiple

    14/106

    cote gauche est de dimensions (k + 1) 1 et donc lexpression du cote droit doit etre conforme.Lorsquil ny a pas dambigute entre scalaire et vecteur nous allons utiliser cette notation. Pour

    denoter explicitement un vecteur de zeros au lieu dun scalaire lorsquil pourrait y avoir ambigute,

    nous utiliserons 0 ou le nombre de colonnes sera defini selon le contexte : si nous voulons etre

    encore plus explicites concernant les dimensions du vecteur nous allons utiliser 0m pour denoter

    un vecteur de zeros de dimensions m 1. Ceci nous donne

    XX = XY.

    Cet ensemble dequations sappelle communement les equations normales de lestimation

    MCO. Notez quil y a (k + 1) equations. Les inconnus sont les valeurs des coefficients, dont il y

    a (k + 1). Les equations sont des fonctions lineaires des coefficients. Si la matrice (XX) est de

    rang plein (voir la discussion plus loin sur la multicollinearite parfaite) nous pouvons linverser

    afin dobtenir

    (XX)1

    XX = (XX)1

    XY.

    Nous avons

    (XX)1 XX = I = ,

    ou I est la matrice didentite de dimensions (k + 1) (k + 1),

    I

    1 0 0 . . . 0

    0 1 0 . . . 0

    0 0 1 . . . 0

    .

    .....

    .

    .. . . ....

    0 0 0 . . . 1

    ,

    et donc

    = (XX)1 XY.

    14

  • 7/29/2019 Reg Multiple

    15/106

    Jai ecrit un chapeau sur pour indiquer quil sagit de notre estimateur MCO. Simple, non ? Cest

    la premiere fois que nous voyons une application de la differentiation de matrices dans le cours.

    Ce sera dailleurs presque la derniere fois. Rappelez-vous la page D-4 du document que je vous

    ai donne a lire (je donne la reference exacte encore une fois a la fin de ces notes), specifiquement

    lencadre en bas de la page :

    y yx

    Ax A

    x

    A A

    xx 2x

    xAx Ax + Ax

    Etudiez bien la condition du premier ordre pour etre sur a 100% de comprendre comment on

    lobtient en appliquant ces regles. Notez bien aussi que, pour les fins de notre differentiation, il y

    a une fonction (la somme des residus carres) de k + 1 variables explicatives qui sont les elements

    de .

    Notez bien que le calcul de implique linversion dune matrice de dimensions (k+1)(k+1).Dans le cas general (ou k > 3), nous savons que nous ne pouvons pas obtenir une expression

    algebrique pour cette matrice inversee. Resoudre ce probleme equivaut (ou presque) a trouver

    les racines dun polynome dordre k + 1, et il y a un theoreme qui dit ceci est impossible en

    general (algebriquement) pour des polynomes dordre 5 et plus. La solution algebrique pour un

    polynome dordre 4 setale sur plusieurs pages, et elle nest pas dune grande utilite pratique. Si

    nous voulions ecrire la solution pour avec k > 3 avec une notation de sommations, ca serait plus

    quaffreux, ca serait carrement impossible. Il y a des moyens de contourner ce probleme, mais ce

    sont des moyens qui datent davant lepoque dordinateurs personnels puissants. De nos jours, nous

    pouvons toujours demander a lordinateur dinverser nos matrices (XX), utilisant des algorithmes

    numeriques puissants et efficaces.

    15

  • 7/29/2019 Reg Multiple

    16/106

    3.5 Quelques exemples simples des regles de differentiation

    Pour illustrer le fonctionnement de ces regles de differentiation, prenons quelques exemples

    concrets tres simples. Dabord, supposons que

    y =

    A1 A2

    x1x2

    = A1x1 + A2x2.

    La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la

    fonction (x1 et x2) et donc deux derivees partielles distinctes. Par convention, on ecrit les derivees

    partielles en colonne :

    y

    x

    yx1y

    x2.

    Nous constatons que

    y

    x1= A1

    et y

    x2= A2.

    Donc,

    y

    x=

    A1A2

    = A,ce qui est conforme a la premiere regle du tableau.

    Maintenant, supposons que

    y =

    A11 A12A21 A22

    x1

    x2

    16

  • 7/29/2019 Reg Multiple

    17/106

    =

    A11x1 + A12x2A21x1 + A22x2

    y1

    y2

    Maintenant, y est composee de deux fonctions, definies par les deux rangees de lexpression ci-

    dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2), et donc on a un total de

    quatre derivees partielles. Nous avons

    y1x1

    = A11,

    y1x2

    = A12,

    y2x1

    = A21,

    et

    y2x2

    = A22.

    Par convention, on ecrit ces quatre derivees en notation matricielle comme

    y1x1

    y2x1

    y1x2

    y2x2

    .

    Donc, la convention revient a aligner toutes les derivees de la meme fonction dans la meme

    colonne, et toutes les derivees par rapport au meme argument dans la meme rangee. Dans notre

    cas, nous avons y1x1 y2x1y1x2

    y2x2

    = A11 A21

    A12 A22

    = A,et encore une fois la premiere regle du tableau est respectee.

    Maintenant, supposons que

    y =

    x1 x2

    A11 A12A21 A22

    x1

    x2

    17

  • 7/29/2019 Reg Multiple

    18/106

    =

    x1A11 + x2A21 x1A12 + x2A22

    x1x2

    = A11x1

    2 + A21x1x2 + A12x1x2 + A22x22.

    Cette fois-ci la fonction y est scalaire. Il y a deux derivees partielles possibles. Nous avons

    y

    x1= 2A11x1 + A21x2 + A12x2

    et

    y

    x2= 2A22x2 + A21x1 + A12x1.

    Ecrivant ces resultats en notation matricielle nous avons yx1y

    x2

    = A11A12

    A21A22

    x1

    x2

    + A11A21

    A12A22

    x1

    x2

    = Ax + Ax,ce qui est conforme a la quatrieme regle du tableau.

    Pour des cas plus compliques (plusieurs fonctions, plusieurs arguments), les expressions non

    matricielles peuvent devenir assez longues et assez compliquees. Ces regles de differentiation ma-

    tricielle permettent de tenir compte automatiquement et systematiquement (sans oublier des ter-

    mes !) de toutes les derivees partielles possibles. Elles permettent aussi decrire toutes les derivees

    partielles dans une notation tres compacte.

    3.6 Approche non matricielle au probleme de minimisation

    Le modele de regression multiple peut secrire en notation non matricielle comme suit :

    Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.

    18

  • 7/29/2019 Reg Multiple

    19/106

    On veut minimiser la somme des residus au carre. Le probleme peut secrire comme suit :

    min0,1,...,k

    ni=1

    (Yi 0 X1i1 X2i2 . . . Xkik)2 .

    Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sur, il y a

    k + 1 conditions dur premier ordre pusiquil y a k + 1 variables de choix pour minimiser notre

    fonction (la somme des residus au carre) :

    0 : 0 = 2n

    i=1

    (Yi 0 X1i1 . . . Xkik) ;

    1 : 0 = 2n

    i=1

    X1i (Yi 0 X1i1 . . . Xkik) ;

    2 : 0 = 2n

    i=1

    X2i (Yi 0 X1i1 . . . Xkik) ;

    . . .

    k : 0 = 2n

    i=1

    Xki (Yi 0 X1i1 . . . Xkik) .

    Il sagit dun systeme de k + 1 equations en k + 1 inconnus (les s). Nous pouvons reecrire le

    systeme comme suit :n

    i=1

    Yi =n

    i=1

    (0 + X1i1 + . . . + Xkik) ;

    ni=1

    X1iYi =n

    i=1

    X1i (0 + X1i1 + . . . + Xkik) ;

    n

    i=1 X2iYi =n

    i=1 X2i (0 + X1i1 + . . . + Xkik) ;. . .

    ni=1

    XkiYi =n

    i=1

    Xki (0 + X1i1 + . . . + Xkik) .

    19

  • 7/29/2019 Reg Multiple

    20/106

    Nous pouvons maintenant convertir ses equations en notation matricielle :

    1 . . . 1

    Y1...

    Yn

    = 1 . . . 1 X;

    X11 . . . X 1k

    Y1...

    Yn

    =

    X11 . . . X 1k

    X;

    ...

    X11 . . . X kn

    Y1...

    Yn

    =

    Xk1 . . . X kn

    X,

    ou jai ecrit un chapeau sur pour indiquer quil sagit dun systeme dequations dont la solution

    nous donne nos estimateurs moindres carres ordinaires. Soyez sur de comprendre ce passage a la

    notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,

    nous avons tout de suite

    1 . . . 1

    X11 . . . X 1n

    X21 . . . X 2n...

    ......

    Xk1 . . . X kn

    Y1...

    Yn

    =

    1 . . . 1

    X11 . . . X 1n

    X21 . . . X 2n...

    ......

    Xk1 . . . X kn

    X

    XY = XX

    = (XX)1XY.

    Nous retrouvons la meme solution en notation matricielle (ce qui nest point surprenant).

    20

  • 7/29/2019 Reg Multiple

    21/106

    4 Proprietes de lestimateur MCO

    4.1 Proprietes algebriques de lestimateur MCO

    Comme dans le chapitre 4, nous allons montrer que lestimateur a des proprietes algebriques

    qui doivent tenir independamment des hypotheses statistiques concernant les variables (explica-

    tives et dependante) du modele. Ces proprietes doivent tenir pour nimporte quel echantillon de

    donnees Nous utiliserons les resultats de cette section par la suite pour deriver certaines des pro-

    prietes statistiques de lestimateur MCO. Nous avons, directement a partir des CPOs,

    XX = XY

    X

    X Y

    = 0

    X

    Y X

    = 0.

    Entre parentheses, nous avons un vecteur de dimensions n 1 qui nous donne les residus de laregression (variable dependante moins la valeur predite de la variable dependante donnee par X).

    Autrement dit,

    Y X U .Donc, nous avons :

    XU = 0,ou Uest le vecteur de residus de la regression. Les residus sont orthogonaux aux variables explica-tives. Par definition, deux vecteurs Z1 et Z2 de dimensions n 1 sont orthogonaux si et seulementsi

    Z1Z2 = 0

    Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale

    aux residus de la regression. Ce resultat est une generalisation du resultat dans le chapitre sur la

    21

  • 7/29/2019 Reg Multiple

    22/106

    regression simple de lorthogonalite entre la seule variable explicative (a part la constante) et les

    residus. Cest une generalisation, mais la preuve est beaucoup plus succincte que celle quon a vue

    dans le chapitre sur la regression simple. Encore un avantage de la notation matricielle.

    Nous avons vu dans le chapitre sur le modele de regression simple que lorthogonalite est reliee

    a linterpretation geometrique de la methode de MCO. Estimer un modele par MCO revient a

    projeter la variable dependante dans lespace traverse par la variable explicative (ou les variables

    explicatives dans le cas de la regression multiple). La Figure 1 ci-dessous reprend le graphique

    que nous avons vu dans le chapitre precedent. Cest donc pour le cas ou il y a deux variables

    explicatives. La ligne de regression est considere comme un vecteur. La ligne pointillee sur le

    graphique est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit

    par rapport a la ligne de regression, dou le terme orthogonal .

    Figure 1

    Notez que, par convention, la premiere colonne de X represente la constante et donc contient

    un vecteur de valeurs egales a un. Si nous denotons cette premiere colonne par X1 (notez que nous

    utilisons ici une notation dalgebre lineaire), nous avons tout de suite

    X1U = n

    i=1

    ui = 0.

    Donc, la somme des residus est egale a zero, comme dans le modele de regression simple.

    Definissons

    Y X,

    22

  • 7/29/2019 Reg Multiple

    23/106

    le vecteur de valeurs predites de la variable dependante. Nous avons

    Y

    U =

    X(XX)

    1XY

    U

    = YX(XX)1

    XU = 0.Les valeurs predites de la variable dependante sont orthogonales aux residus.

    Finalement, nous avons

    X

    Y Y

    = X

    X(XX)

    1XY Y

    = XX(XX)

    1XY XY = XY XY = 0.

    Puisque la premiere colonne de X est un vecteur de valeurs unitaires, une consequence directe

    de ce resultat est que la moyenne echantillonnale des valeurs predites est egale a la moyenne

    echantillonnale de la variable dependante elle-meme. Autrement dit :

    1

    n

    n

    i=1 Yi =1

    n

    n

    i=1 Y Y ,un resultat semblable a ce que nous avons vu dans le chapitre sur la regression simple.

    4.2 Ecart type de la regression

    On definit

    SER su,

    ou

    s2u 1

    n k 1n

    i=1

    u2i =SSR

    n k 1 ,

    23

  • 7/29/2019 Reg Multiple

    24/106

    et donc SSR est la somme des residus au carre. On divise par (n k 1) afin dobtenir un estimenon biaise de la variance de lerreur dans lequation de regression lorsque celle-ci est constante. 5 Je

    sais que jinsiste beaucoup la-dessus, mais les demonstrations algebriques dans cette section sont

    beaucoup plus courtes que leurs equivalents dans le chapitre precedent. Cest dans ce sens que je

    dis que lutilisation de la notation matricielle dans le contexte du modele de regression multiple

    simplifie enormement lanalyse. Sil fallait deriver les memes proprietes sans avoir recours aux

    matrices, les demonstrations setaleraient sur plusieurs pages.

    4.3 Mesures dajustement statistique

    4.3.1 Le R2

    La mesure R2 est definie de la meme facon que dans le cas du modele de regression simple :

    R2 =ESS

    TSS= 1 SSR

    TSS,

    ou on definit

    ESS

    n

    i=1 Yi Y2

    ,

    ou Y est la moyenne echantillonnale des Yi, et

    TSS n

    i=1

    Yi Y

    2Nous avons suppose implicitement ici que

    TSS = SSR + ESS.

    En fait, il faut demontrer ce resultat, comme nous avons fait dans le chapitre sur le modele de

    5. Ici on suppose implicitement des erreurs homoscedastiques, ou a variance constante. Sinon il nest pas logique

    de parler de la variance de lerreur.

    24

  • 7/29/2019 Reg Multiple

    25/106

    regression simple. Nous avons

    YY =

    X+

    U

    X+

    U

    = XX+ XU + UX+ UU= XX+ UU

    YY + UU = YY + SSR.Nous avons utilise pour passer a lavant derniere ligne de cette sequence dequations le resultat que

    XU = 0. Nous avons presque montre le resultat voulu en quatre lignes, mais nous avonsTSS (Y Y) (Y Y)

    = YY YY YY + YY

    ou Y est un vecteur de constantes avec chaque valeur egale a Y, et nous avons

    ESS Y Y Y YYY YY YY + YY.

    Donc, nous devons montrer que

    Y

    Y = Y

    Y

    Y

    n

    i=1 Yi = Yn

    i=1 Yi 1

    n

    ni=1

    Yi =1

    n

    ni=1

    Yi = Y ,

    ce qui doit etre le cas puisque nous avons montre parmi les proprietes algebriques de lestimateur

    MCO que la moyenne echantillonnale des valeurs predites de la variable dependante doit etre egale

    25

  • 7/29/2019 Reg Multiple

    26/106

    a la moyenne echantillonnale de la variable dependante elle-meme. Donc, nous venons de montrer

    que

    TSS = ESS + SSR.

    Sachant que Y Y + U, une facon plus succincte de le faire est comme suit :TSS = (Y Y) (Y Y)

    =

    Y + U Y Y + U Y=

    Y Y

    +

    U

    Y Y

    +

    U

    =

    Y Y Y Y+ Y YU + U Y Y+ UU=

    Y Y

    Y Y

    + UU ESS + SSR,

    puisque nous avons montre auparavant que Y

    U = 0 et

    YU = n

    i=1

    Y Ui = Yn

    i=1

    Ui = 0.

    4.3.2 Le R2 ajuste

    On peut montrer mathematiquement que le fait de rajouter une variable explicative addition-

    nelle a un modele de regression multiple ne peut que faire augmenter son R2. 6

    De cette facon, nous pouvons toujours ameliorer lajustement statistique dune regression

    en ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que

    dobservations ((k + 1) = n), il est possible datteindre un ajustement statistique parfait . Il

    6. Si vous etes a laise avec les principes de base de loptimisation sous contrainte, ce resultat est evident. Les-

    timateur MCO est la solution a un probleme de minimisation. Si on minimise la somme des residus carres sujet a la

    contrainte quun des coefficients est egal a zero (on enleve la variable du modele), et puis on minimise la somme des

    residus carres en ne pas imposant cette contrainte, la somme des r esidus carres doit etre au moins aussi petite dans le

    dernier cas, puisque nous relachons une des contraintes du probleme de minimisation.

    26

  • 7/29/2019 Reg Multiple

    27/106

    faudrait trouver la solution a

    0 = U = Y X

    Y = X.

    Nous avons n equations et n inconnus. Dans la mesure ou Xest de rang plein (rang n), nous avons

    = X1Y.

    Donc, un R2 eleve nest pas toujours et partout une bonne chose.

    Puisque lajustement mesure par le R2 ne peut quaugmenter quand on ajoute des variables

    explicatives, il serait bien davoir une autre mesure qui penalise la mesure par un facteur lorsquon

    ajoute des variables explicatives. Le R2 ajuste, denote par R2 est une telle mesure. Voici sa

    definition :

    R2 1 n 1n k 1

    SSR

    TSS= 1 s

    2u

    s2Y.

    On peut souligner trois proprietes du R2.

    1. Puisque n1nk1

    > 1, on sait que R2 < R2.

    2. Le fait dajouter une variable explicative supplementaire a deux effets sur R2. Dune part, la

    somme des residus carres SSR doit baisser, ce qui fait augmenter R2. Dautre part, le facteur

    n1nk1

    augmente, ce qui fait diminuer R2.

    3. Il est possible que R2 soit negatif.

    4.4 Proprietes statistiques : absence de biais

    Toutes les proprietes (algebriques) de lestimateur MCO que nous avons montrees jusqua

    maintenant tiennent independamment des hypotheses statistiques de la section (3.3). La seule hy-

    pothese que nous avons utilise pour deriver les proprietes algebriques est celle du rang plein en

    colonnes de X et donc de la possibilite de calculer (XX)1.

    27

  • 7/29/2019 Reg Multiple

    28/106

    Pour montrer labsence de biais, nous utilisons la strategie habituelle. Nous remplacons Y

    dans la definition de lestimateur par sa definition (X+ U), nous simplifions, et finalement nous

    calculons la valeur esperee de lestimateur en utilisant la loi des esperances iterees.

    Nous avons :

    = (XX)1XY

    = (XX)1X(X+ U)

    = + (XX)1XU

    E

    = + E

    (XX)1XU

    = + E (XX)1XE (U|X) = .La derniere egalite depend de la loi des esperances iterees.

    Je ne sais pas si vous etes daccord, mais je crois que la demonstration de labsence de biais

    dans le cas du modele de regression multiple est beaucoup plus simple que dans le cas du modele de

    regression simple, a cause de lutilisation de la notation matricielle. La preuve secrit sur quelques

    lignes seulement est elle est assez transparente.

    4.5 Petite note : theoreme de Slutsky

    Pour deriver la convergence de lestimateur et pour deriver sa distribution en grand

    echantillon, nous allons devoir faire appel au theoreme de Slutsky.

    Lenonce du theoreme se trouve dans le manuel a la page 685. Il est utile, sinon tres utile, sinon

    archi utile. Il dit essentiellement que si une variable aleatoire converge en probabilite a quelque

    chose, une fonction continue de la variable aleatoire converge a la meme fonction de ce a quoi

    converge la variable aleatoire.

    Un enonce un peu plus general du theoreme se trouve a Wikipedia ( Slutskys Theorem ).

    Autrement dit, si

    Xnp X,

    28

  • 7/29/2019 Reg Multiple

    29/106

    alors

    h (Xn)p h(X).

    Les conditions qui doivent tenir pour que le theoreme tienne sont explicitees dans larticle chez

    Wikipedia.

    Pourquoi est-ce que ce theoreme est si utile ? Si on veut analyser le comportement en grand

    echantillon dun estimateur, on peut analyser le comportement de ses composantes, sachant que

    (sous certaines conditions), si les composantes convergent en probabilite a quelque chose, et si

    lestimateur est une fonction des composantes, lestimateur converge en probabilite a cette fonc-

    tion. De facon informelle, si

    Zn = f(Xn, Yn) ,

    et si Xnp X et Yn p Y, alors

    Znp f(X, Y).

    Voir lequation (17.9) pour un enonce un peu plus general. Si anp a ou a est une constante et

    si Snd S, alors

    an + Snd

    a + S,

    anSnd aS,

    et si a = 0,Snan

    d Sa

    .

    Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite

    grandement la vie. Notez que la manipulation algebrique des limites de probabilite est beaucoup

    plus simple que la manipulation algebrique des esperances. Nous savons quen general,

    E (XY) = E(X)E(Y),

    29

  • 7/29/2019 Reg Multiple

    30/106

    sauf dans le cas de variables aleatoires independantes, et nous savons quen general,

    Ef(X) = f(E(X)) ,

    sauf dans le cas ou fest une fonction lineaire (le cas du fameux encadre 2.3 qui nous dit entre autres

    que lesperance dune fonction lineaire de variables aleatoires est egale a la fonction lineaire des

    esperances des variables aleatoires).

    4.6 Proprietes statistiques : convergence

    = (XX)1XY

    = (XX)1X(X+ U)

    = + (XX)1XU

    =

    (XX)

    n

    1

    (XU)

    n

    Nous avons divise et multiplie par le scalaire n afin de pouvoir parler de convergence en probabilite.(XX)

    nest une matrice dont lelement i, j est donne par

    XiXjn

    =1

    n

    nl=1

    Xi1,lXj1,l.

    Du cote gauche on utilise la notation matricielle standard. Du cote droit, on utilise la notation

    du manuel pour le modele de regression multiple. Notez encore une fois linversion des indices

    inferieurs entre la notation matricielle standard et la notation du modele de regression multiple

    utilise dans le livre. Dans lieme colonne de la matrice, on retrouve les observations sur la variable

    explicative i 1. Par une des hypotheses du modele de regression multiple, nous avons

    limn

    XiXjn

    = E (XiXj) .

    30

  • 7/29/2019 Reg Multiple

    31/106

    Ceci veut dire quil y a convergence en probabilite vers lesperance de XiXj . Donc,

    (XX)n

    con-

    verge en probabilite a Qx, qui est definie comme

    Qx EXX

    n .Cest donc une matrice des deuxiemes moments des variables explicatives. Notez que ce nest pas

    une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les

    moyennes. 7 Une des hypotheses du modele est que la matrice (XX) est inversible (absence de

    multicollinearite complete). Si cest le cas, XX satisfait les conditions du theoreme de Slutsky,

    et donc la limite de probabilite de linverse de la matrice est linverse de la limite de probabilite.

    Donc, le premier terme converge en probabilite a

    (Qx)1

    Le deuxieme terme converge en probabilite a zero. Je ne vais pas faire la preuve formelle de cet

    enonce. Par contre, nous avons deja vu que son esperance est nulle :

    E(XU)n

    = E(XE (U|X))n

    = 0.Sa variance est donnee par

    Var

    (XU)

    n

    =

    1

    n

    2Var (XU) .

    Il sagit de la variance dun vecteur de dimensions (k + 1) 1. Si on considere lieme colonne de7. Nous pouvons en general faire une distinction entre lenieme moment brut dune variable aleatoire Ydonne par

    E (Yn) et lenieme moment centre donne par E ((Y E(Y))n). Revoir le chapitre sur la theorie des probabilites pourun rappel. La covariance entre deux variables aleatoires X et Y, E ((Y E(Y)) (X E(X))), est donc un momentcentre, et notre Qx est un moment brut.

    31

  • 7/29/2019 Reg Multiple

    32/106

    la matrice X, nous avons

    Var

    1

    nXi

    U

    = 1n2

    Var (Xi

    U)

    =

    1

    n

    2Var

    nl=1

    Xi1,lUl

    =

    1

    n

    2 nl=1

    Var (Xi1,lUl) .

    Definissons Xi1,lUl Vi,l. Nous avons

    Var 1n

    XiU

    =

    1

    n

    2 nl=1

    Var (Vi,l)

    =

    1

    n

    2nVar (Vi)

    = 1nVar (Vi) .Nous avons fait des hypotheses de quatrieme moments finis et dobservations i.i.d., et donc la

    variance Var (Vi) est finie et constante. Nous avons

    limn

    1

    nVar (Vi)

    = 0.

    Avec une esperance de zero et une variance qui tend vers zero, on a (presque) la preuve de la

    convergence :

    (XU)

    n

    p 0.

    Les hypotheses du theoreme de Slutsky sont satisfaites, donc la limite de probabilite du produit

    32

  • 7/29/2019 Reg Multiple

    33/106

    est le produit des limites de probabilite. Donc, nous avons :

    p 0.

    4.7 Petite note sur les covariances en notation matricielle

    En guise de preparation pour la sous-section suivante, on va se pencher dans cette sous-section

    sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables

    aleatoires Y de dimensions k 1. Nous pouvons ecrire les esperances de toutes les variablesaleatoires en notation matricielle tout simplement comme :

    E(Y).

    Considerons maintenant la matrice suivante :

    (Y E(Y)) (Y E(Y)) .

    Cette matrice est de dimensionsk k

    . Lelement dans li-ieme rangee et la j-ieme colonne de cette

    matrice est :

    (Yi E (Yi)) (Yj E (Yj)) .

    Par definition,

    E ((Yi E (Yi)) (Yj E (Yj)))

    nous donne la covariance entre les variables aleatoires Yi et Yj . Dans le cas ou i = j, nous avons

    par definition la variance de Yi.

    Donc, la matrice suivante :

    E

    (Y E(Y)) (Y E(Y)) ,

    33

  • 7/29/2019 Reg Multiple

    34/106

    est une matrice qui contient toutes les variances des variables aleatoires dans Y (le long de la

    diagonale) et toutes les covariances possibles entre les variables aleatoires dans Y. En fait, puisque

    Cov (Yi, Yj) = Cov (Yj, Yi) ,

    la matrice est symetrique, avec lelement i, j egal a lelement j, i. Donc, nous pouvons ecrire de

    facon succincte toutes les variances et covariances possibles entre les variables aleatoires regroupes

    dans un vecteur Y.

    4.8 Proprietes statistiques : distribution en grand echantillon

    Cette section est un peu ardue. Son but est de developper une expression pour la matrice

    variance-covariance de lestimateur , et de contraster la variance robuste (lorsque on ne fait

    pas dhypothese particuliere concernant lhomoscedasticite) avec la variance en presence dho-

    moscedasticite. Dans votre travail pratique de tous les jours deconometres, vos logiciels (comme

    R, STATA ou GRETL) vont faire les calculs developpes dans cette sous-section automatiquement.

    Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel ou la matrice

    variance-covariance robuste nest pas calculee automatiquement, vous allez pouvoir programmer

    son calcul vous-memes.

    Nous voulons travailler avec une expression dont la variance ne diminue pas vers zero lorsque

    n . Donc, au lieu de travailler avec

    , qui converge vers une constante (convergence

    en probabilite), nous avons :

    n

    = (XX)n

    1(XU)n .

    Le dernier terme, au lieu de converger a une constante, a maintenant une variance qui ne decrot

    pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque chose

    qui va converger en probabilite vers un vecteur de constantes.

    34

  • 7/29/2019 Reg Multiple

    35/106

    Nous avons deja vu dans la sous-section sur labsence de biais que

    E

    = 0.

    Donc, une expression qui nous donne la matrice de variance-covariance de

    n

    est donneepar :

    E

    n

    Notez bien la multiplication de

    par

    n. Dans le modele de regression simple, nous avons

    vu que la variance de lestimateur 1 decrot au rythme 1/n et donc tend vers zero lorsque n tend

    vers linfini. Nous voulons travailler avec une variable aleatoire (plutot un vecteur de variablesaleatoires) qui reste une variable aleatoire meme lorsque la taille de lechantillon tend vers linfini.

    Pour cette raison, nous multiplions par

    n, ce qui nous laissera avec une variance qui ne tend pas

    vers zero et, dautre part, reste finie lorsque n tend vers linfini.

    Pour evaluer la matrice variance-covariance de

    n

    , nous devons examiner le com-

    portement en grand echantillon de

    (XX)n

    1(XU)n(XX)

    n1(XU)

    n

    =

    (XX)

    n

    1

    (XU)n

    (XU)

    n

    (XX)

    n

    1

    .

    Nous avons deja vu que(XX)

    n

    1

    converge en probabilite a (Qx)1

    . Donc, nous devons nous

    pencher sur le comportement de

    (XU)n

    (XU)n

    .

    (XU) est un vecteur de dimensions (k + 1) 1, puisque X est de dimensions n (k + 1) et U

    35

  • 7/29/2019 Reg Multiple

    36/106

    est de dimensions n 1. Nous avons :

    (XU) =n

    i=1

    ui

    X1iui

    X2iui...

    Xkiui

    ni=1

    Vi.

    Par hypothese, selon le Key Concept 18.1 , les Vi sont i.i.d. Cela veut dire que

    1

    n

    n

    i=1 Viconverge en probabilite a un vecteur de zeros, et que (par une version du theoreme de la limite

    centrale),

    1n

    ni=1

    Vi

    converge en distribution a un vecteur de variables normales dont la moyenne est zero (on sait cela

    puisque nous avons montre labsence de biais) et dont la variance est donnee par :

    E (ViVi) V.

    Donc, nous pouvons encore une fois invoquer le theoreme de Slutsky pour dire que

    n

    d N0k+1 , Qx1VQx1 ,ou nous utilisons 0k+1 pour denoter un vecteur de zeros de dimensions (k + 1) 1.

    36

  • 7/29/2019 Reg Multiple

    37/106

    4.8.1 Cas homoscedastique

    Dans le cas homoscedastique, la variance de ui est constante et independante des Xi. Formelle-

    ment, nous pouvons ecrire :

    E (U U) = 2uIn.

    Nous avons : (XU)

    n

    (XU)

    n

    =

    XU UX

    n

    p E

    1

    n2uX

    InX

    = E

    1

    n2uX

    X

    = 2uQx.

    Donc, lexpression pour la variance de

    n

    se simplifie beaucoup. Nous avons :

    n

    d N0k+1 , 2uQx1QxQx1 = N0k+1 , 2uQx1 .

    5 Variance echantillonnale de

    Comme dhabitude, notre derivation de la distribution en grand echantillon de n depend de quantites que nous ne connaissons pas, par exemple de

    Qx E

    XX

    n

    .

    Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes, vari-

    ances, moments bruts voir la note de bas de page a la page 15) de nos variables aleatoires.

    Que faire alors si nous voulons developper une expression pour la variance de notre estimateur

    , basee sur des quantites que nous pouvons mesurer ? Nous suivons la strategie habituelle, que

    nous avons deja utilisee a maintes reprises, de remplacer les moments non connus de la population

    37

  • 7/29/2019 Reg Multiple

    38/106

    par des estimateurs convergents. Donc, nous remplacons Qx par :

    Qx (XX)

    n.

    Nous remplacons V par :

    V 1n k 1

    ni=1

    XiXi (ui)

    2 ,

    ou Xi est lieme rangee de la matrice X.8 Comme dhabitude, nous divisons par (n k 1)

    ici et non par n afin dobtenir un estime non biaise. Nous nallons pas montrer explicitement que

    cette expression est un estimateur convergent de V, mais nous aurions pu le faire. Nous pouvons

    finalement ecrire :

    N

    ,1

    n

    Qx1

    v

    Qx1

    N

    ,

    .

    Jutilise ici la notation pour capter lidee que suit une distribution qui est approxima-tivement normale. Notez que cest encore le theoreme de Slutsky qui nous permet de dire que si

    nous avons un produit de trois estimateurs convergents, la limite en probabilite (ou dans ce cas-ci

    la limite en distribution) du produit est le produit de la limite en probabilit e des trois termes.

    Tout bon logiciel de regression, comme R, STATA ou GRETL, calcule la matrice variance-

    covariance de automatiquement. Mais attention ! Il sagit de la matrice variance-covariance ro-

    buste (ou la variance du terme derreur ui nest pas forcement constante et independante des Xi). Il

    faut en general verifier dans la documentation du logiciel sil calcule par defaut la matrice robuste

    ou la matrice qui impose une hypothese dhomoscedasticite (sous-section suivante). Si loption

    par defaut est la matrice variance-covariance sous lhypothese dhomoscedasticite, il faut specifier

    dans le code de son programme le calcul de la matrice robuste.

    Habituellement, loutput du logiciel de regression ne donne pas la matrice variance-covariance

    8. Jutilise la notation matricielle standard ici. Stock et Watson a la page 699 du manuel definissentXi comme un

    vecteur colonne, ce qui nest pas conforme a la notation matricielle standard. Pourquoi introduire encore une autre

    incoherence entre la notation standard et la leur ?

    38

  • 7/29/2019 Reg Multiple

    39/106

    au complet, mais se limite plutot a donner lecart type robuste associe a chaque coefficient in-

    dividuel. Lecart type de i est la racine carree de li-ieme element diagonal de . Par contre,

    le logiciel a besoin de la matrice variance-covariance au complet lorsquil sagit deffectuer un

    test dhypotheses jointes. Nous nous pencherons sur cette question dans la derni ere section de ces

    notes.

    5.1 Cas homoscedastique

    Encore une fois, nous suivons la strategie general de remplacer les moments inconnus par des

    estimateurs convergents. Un estimateur convergent de 2u est donne par :

    s2u 1

    n k 1n

    i=1

    u2i .

    Nous avons deja rencontre lestimateur convergent de Qx :

    Qx (XX)

    n.

    Donc, nous avons le resultat suivant :

    N

    ,1

    ns2u

    Qx1

    N

    ,

    ,

    ou jutilise pour denoter la matrice variance-covariance dans le cas special de lho-

    moscedasticite.

    Cet estimateur de la matrice variance-covariance est tres facile a programmer si vous devez le

    faire. En notation MATLAB, si X est la matrice contenant les observations sur les variables

    explicatives et si Uhat est le vecteur de residus de la regression, nous avons :

    Sigmahat = (Uhat) Uhat inv(XX)/(n k 1); .

    39

  • 7/29/2019 Reg Multiple

    40/106

    5.2 Homoscedasticite versus Heteroscedasticite

    Suivant la philosophie du livre de Stock et Watson, nous avons mis laccent sur le cal-

    cul decarts types pour nos coefficients estimes qui sont robustes a la presence derreurs

    heteroscedastiques. Jaccepte completement largument de Stock et Watson que les donnees que

    nous utilisons la plupart du temps pour estimer nos modeles econometriques nont pas les erreurs

    homoscedastiques.

    Par contre, on peut se poser la question suivante : y a-t-il des facons de detecter la presence de

    lheteroscedasticite ? La reponse est Oui , mais le livre de Stock et Watson est totalement muet

    a cet egard. Commencons par une methode informelle ou graphique.

    Il sagit de regarder un graphique avec les residus de lequation estimee sur laxe vertical et une

    des variables explicatives du modele sur laxe horizontal. Si la grandeur absolue des residus varie

    systematiquement avec la variable explicative, cest un signe de la presence de lheteroscedasticite.

    On peut aussi regarder un graphique ou on mesure les residus au carre sur laxe vertical. Si les

    points on une pente non nulle evidente (positive ou negative), cest un signe de la presence de

    lheteroscedasticite. Si cest le cas, il est fortement conseille deffecteur un ou plusieurs tests

    formels.

    1. Larticle Wikipedia qui sintitule Heteroscedasticity est une bonne introduction au sujet.

    2. Le test Goldfeld-Quandt.

    3. Le test Breusch-Pagan. On regresse les residus au carre sur les variables explicatives du

    modele. Il y a un bon article sur Wikipedia qui explique le test.

    4. Le test de White. Cest peut-etre le test le plus frequemment utilise. Leconometre qui la

    developpe a aussi propose la version robuste de la matrice variance-covariance que lon

    presente dans le manuel. Pour effectuer le test, on utilise les residus au carre comme la vari-

    able dependante dans une regression multiple (quon appelle une regression auxiliaire ),

    ou les variables explicatives sont les variables explicatives du modele original, tous les co-

    produits possibles des variables explicatives, et les variables explicatives au carre. White a

    40

  • 7/29/2019 Reg Multiple

    41/106

    montre que la statistique R2 de cette regression suit (en grand echantillon) une distribution

    2 avec un nombre de degres de liberte egal au nombre de variables explicatives dans la

    regression auxiliaire moins un. Il y a un article sur ce test chez Wikipedia, mais il est moins

    complet que larticle sur le test Breusch-Pagan.

    5. Le test de Glesjer.

    Voir larticle Heteroscedasticity chez Wikipedia pour plus de details sur les tests differents

    et pour des renvois.

    Bon nombre de logiciels econometriques modernes effectuent le test de White, ou un ou

    plusieurs des autres tests lors de lestimation dun modele de regression multiple, soit automa-

    tiquement soit en specifiant une option simple.

    En presence dheteroscedasticite, si sa forme est connue (si on connat comment depend la

    variance de lerreur en fonction des variables explicatives du modele), il y a des estimateurs plus

    efficients des coefficients du modele. Il sagit de lestimateur moindres carres generalises ( Gen-

    eralized Least Squares en anglais). Nous navons pas le temps detudier cet estimateur dans ce

    cours. Il fait partie des sujets etudies dans le cours ECO5272.

    6 Efficience de lestimateur MCO sous lhomoscedasticite

    Sous les hypotheses de base du modele de regression multiple, et dans le cas de lho-

    moscedasticite, on peut montrer que lestimateur MCO a une variance au moins aussi petite que

    nimporte quel autre estimateur lineaire (en Y) et non biaise. Cest le theoreme Gauss-Markov.

    Dans le cas dun vecteur de parametres, il faut comprendre variance au moins aussi petite

    que dans le sens suivant. Si est nimporte quel estimateur lineaire et non biaise de , il faut

    que

    Var

    c

    Var

    c

    pour toute combinaison lineaire c. Ici, c est un vecteur de constantes de dimensions (k + 1) 1et donc cest un scalaire. Il y a une preuve du theoreme dans lannexe 18.5 du manuel.

    41

  • 7/29/2019 Reg Multiple

    42/106

    Le theoreme Gauss-Markov explique limportance de lestimateur MCO dans lhistoire de

    leconometrie et de la statistique.

    Tel quindique a la fin de la section precedente, il est possible, si on connat la forme de

    lheteroscedasticite (comment elle est reliee aux variables explicatives du modele), lestimateur

    MCG (moindres carres generalises) sera typiquement plus efficient que lestimateur MCO.

    6.1 Preuve du theoreme Gauss-Markov

    Je reprends ici une preuve relativement simple tiree de larticle Wikipedia sur le Theoreme

    Gauss-Markov. Il est tres important de noter que pour les fins de cette preuve, les variables ex-

    plicatives X sont considerees comme etant fixes ou non stochastiques.

    Soit = CY un autre estimateur lineaire de . 9 On suppose que C peut etre ecrite comme

    (XX)1X + D, ou D est une matrice non nulle de dimensions (k + 1) n. Notre but est demontrer que sa variance doit etre au moins aussi elevee que celle de , lestimateur MCO.

    Lesperance de est donnee par

    E (CY) = E (XX)1X + D (X+ U)

    =

    (XX)1X + D

    X+ E

    (XX)1X + D

    U

    = + DX+ E

    (XX)1X + D

    E (U|X)= + DX,

    ou nous avons utilise la loi des projections iterees. Nous voulons prouver que a la plus petite

    variance parmi tous les estimateurs lineaires non biaises. Pour que notre estimateur soit non biaise,

    il faut que

    DX = 0.

    Calculons maintenant sa variance. Il sagit de la variance conditionnelle (etant donne les valeurs

    9. Il faut aussi prendre les elements de Ccomme etant fixes ou non stochastiques.

    42

  • 7/29/2019 Reg Multiple

    43/106

    de D et de X). Nous avons

    Var (CY|X, D) = CVar(Y|X, D)C

    = CVar(U|X)C

    = 2

    CC

    = 2

    (XX)1X + D

    (XX)1X + D

    = 2

    (XX)1XX(XX)1 + (XX)1XD + DX(XX)1 + DD

    = 2 (XX)1 + DD

    = 2(XX)1 + 2

    DD

    puisquil faut que DX = 0 si notre estimateur est non biaise.

    La matrice DD est une matrice positive semi-definie. Nous avons

    Var Var = 2DD

    Var

    c

    Var

    c

    = 2cDDc 0,

    la derniere inegalite etant la definition meme dune matrice positive semi-definie. Ce qui fut a

    demontrer.

    43

  • 7/29/2019 Reg Multiple

    44/106

    7 Biais du a des variables omises (bis)

    Montrer le biais qui provient de variables omises est beaucoup plus facile en notation ma-

    tricielle quavec des sommations. Supposons que le vrai modele peut etre ecrit comme :

    Y =

    X1X2

    12

    + U X11 + U .

    Ici, X1 et X2 ont linterpretation de sous-matrices et 1 et 2 ont linterpetation de sous-vecteurs.

    Donc, la derniere equation indique nous avons, de facon erronee, regroupe des variables ex-

    plicatives du modele avec le terme derreur.

    Si nous estimons le modele errone, nous avons :

    1 = (X

    1X1)1(X1Y) = (X

    1X1)1(X1(X+ U))

    = (X1X1)1X1 X1 X2

    1

    2 + U= (X1X1)

    1X1X11 + (X

    1X1)1X1X22 + (X

    1X1)1X1U

    = 1 + (X

    1X1)1X1X22 + (X

    1X1)1X1U

    Nous avons :

    E1 = 1 + E (X1X1)1X1X22+ E (X1X1)1X1E (U|X)= 1 + E

    (X1X1)

    1X1X22

    = 1 + E

    (X1X1)1X1X2

    2.

    44

  • 7/29/2019 Reg Multiple

    45/106

    Interpretation : le biais depend de X1X2, la matrice de comouvements bruts entre les elements de

    X1 et les elements de X2 ainsi que des vraies valeurs des coefficients 2.

    Notez que

    (X

    1X1)1

    X

    1X2

    serait tout simplement la matrice de coefficients obtenus si on regressait chaque variable dans

    X2 sur X1. Cest essentiellement la formule dun estimateur MCO, mais cest une generalisation

    puisque X2 est une matrice et non un vecteur.

    Vous devriez verifier que lexpression developpee pour le biais au debut du chapitre 6 du

    manuel est tout simplement un cas special de cette expression.

    Afin de mieux cerner le concept de biais du a des variables omises, je developpe dans lencadre

    le sujet du modele de regression partitionne qui suit.

    Regression partitionnee

    Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modele de

    regession multiple en faisant la distinction entre le sous-ensemble de variables explicatives

    X1 et le sous-ensemble X2.

    Y =

    X1X2

    12

    + U= X11 + X22 + U.

    Au lieu de regrouper les variables X2 avec le terme derreur comme nous avons fait dans la

    section precedente, nous allons regarder explicitement comment notre estime MCO de 1, soit

    1, est affecte par 2. Rappelons ce que nous avons appele les equations normales lorsque

    45

  • 7/29/2019 Reg Multiple

    46/106

    nous avons trouve la solution pour lestimateur MCO pour le modele de regression multiple :

    XX = XY.

    Nous pouvons ecrire ces equations commme deux sous-ensembles dequations :

    X1X11 + X

    1X22 = X

    1Y

    et

    X2X11 + X

    2X22 = X

    2Y.

    Du premier de ces 2 ensembles dequations, nous avons

    X1X11 = X

    1 (Y X22)

    1 = (X1X1)1 X1

    Y X22

    .

    Nous devons maintenant trouver une solution pour 2. Multiplions le premier sous-ensemble

    par X2X1 (X

    1X1)1

    pour obtenir

    X2X11 + X

    2X1 (X

    1X1)1

    X1X22 = X

    2X1 (X

    1X1)1

    X1Y.

    Maintenant, soustrayons cette equation du deuxieme sous-ensemble dequations, obtenant

    ainsi

    X

    2X22 X

    2X1 (X

    1X1)

    1

    X

    1X22 = X

    2Y X

    2X1 (X

    1X1)

    1

    X

    1Y.

    X2X2 X2X1 (X1X1)1 X1X2

    2 =

    X2 X2X1 (X1X1)1 X1

    Y.

    Definissons

    P1 X1 (X1X1)1 X1.

    46

  • 7/29/2019 Reg Multiple

    47/106

    Nous pouvons ecrire

    (X2 (I P1) X2) 2 = X2 (I P1) Y

    ou I est la matrice identite conformable a P1, et donc

    2 = (X

    2 (I P1) X2)1 X2 (I P1) Y.

    Notez que nous avons suivi une methodologie semblable a celle dans le chapitre sur le modele

    de regression simple. Nous avons trouve une solution pour 1 en fonction de 2, et ensuite

    nous avons elimine 1 dans la solution pour 2 par substitution.

    Ces solutions permettent de reinterpreter lestimateur MCO comme un estimateur en deux

    etapes. Considerons dabord la regression de la variable Y sur X1 seulement. Si on appelle les

    coefficients estimes 1, nous avons

    1 (X1X1)1 X1Y,

    Y = X11 = X1 (X

    1X1)1

    X1Y

    les valeurs predites de Y sur la base de cette regression, et

    U Y X1 (X1X1)1 X1Y =

    I X1 (X1X1)1 X1

    Y

    le vecteur de residus de cette regression. Considerons maintenant la regression des variables

    X2 sur les X1. Appelons les coefficients . Nous avons

    (X1X1)1 X1X2.

    Notez quil sagit dune matrice de coefficients estimes puisquil y a tout un vecteur de vari-

    ables dependantes au lieu dune seule. Appelons X2 les valeurs predites des variables X2. Nous

    47

  • 7/29/2019 Reg Multiple

    48/106

    avons

    X2 = X1 = X1 (X

    1X1)1

    X1X2,

    etU X2 X1 (X1X1)1 X1X2

    =

    I X1 (X1X1)1 X1

    X2

    = (I P1) X2

    la matrice de residus de ces regressions. (Il y a autant de colonnes dans U que dans X2.)

    Maintenant, considerons la regression de U sur U. Appelons le vecteur de coefficients

    estimes . Nous avons

    =

    UU1

    UU .

    Nous avons

    UU = X2

    I X1 (X1X1)1 X1

    I X1 (X1X1)1 X1

    X2

    = X2 (I P1) (I P1) X2

    = X2 (I P1) X2

    puisque

    (I P1) (I P1)

    = (I

    P1) .

    Vous pouvez verifiez cette egalite facilement. Notez quune matrice Z qui a la propriete que

    ZZ = Z est appelee une matrice idempotente. Donc, finalement nous avons

    = (X2 (I P1) X2)1 X2 (I P1) Y.

    48

  • 7/29/2019 Reg Multiple

    49/106

    Mais ceci nest rien dautre que la solution que nous avions trouv ee pour 2.

    En regressant Y sur X1 et X2 sur X1, on purge leffet des X1 sur la variable dependante

    Y et sur les autres variables explicatives X2. Avec la regression de U sur U, on estime leffet

    des X2 (purgees de linfluence des X1) sur Y (purgee aussi de linfluence des X1). Mais cest

    exactement ce que fait lestimation MCO lorsquon inclut les deux sous-ensembles de variables

    explicatives dans le modele en meme temps. Ce resultat sappelle le theoreme Frisch-Waugh-

    Lovell. Pour de plus amples renseignements, voir Lovell (2010).

    Supposons maintenant que notre modele de regression est sans constante. Nous pouvons

    toujours reecrire le modele de regression lineaire de la facon suivante :

    Y = X+ U

    Y = X+ U

    Y Y = X X + U U .Si, comme dhabitude, la premiere colonne contient une constante, elle va disparatre de ce

    systeme dequations et nous aurons

    Y = X+ U

    ou

    Y Y Y ,

    X X X

    et

    U U U

    et ou X peut etre redefinie comme une matrice n k puisque sa premiere colonne est une

    49

  • 7/29/2019 Reg Multiple

    50/106

    colonne de zeros. Autrement dit, il est toujours possible de reecrire le modele de regression

    lineaire sans une constante en exprimant toutes les variables (explicatives et dependante)

    comme des deviations par rapport a leurs moyennes echantillonnales.

    Donc, supposons que notre modele est effectivement sans constante. Quest-ce qui ar-

    rive lorsque la correlation echantillonnale entre X1 et X2 est zero ? Dans ce cas, nous avons

    X1X2 = 0, puisque les variables dans X1 et X2 sont mesurees en deviations par rapport a leurs

    moyennes echantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons dans ce

    cas particulier

    = (XX)1

    XY

    =

    X1X1 X1X2X2X1 X

    2X2

    1 X1

    X2

    Y

    =

    X1X1 00 X2X2

    1 X1

    X2

    Y

    = (X

    1X1)1 0

    0 (X2X2)1 X

    1

    X2 Y

    =

    (X1X1)1 X1Y(X2X2)

    1 X2Y

    .On aurait pu montrer le meme resultat a partir des solutions developpees ici pour 1 et 2.

    Faisons-le ici. Nous avons

    1 = (X

    1X1)1

    X1

    Y X22

    = (X1X1)1

    X1Y (X1X1)1 X1X22

    = (X1X1)1

    X1Y

    50

  • 7/29/2019 Reg Multiple

    51/106

    dans le cas de lorthogonalite. Dans le cas de 2, nous avons

    2 = (X

    2 (I

    P1) X2)

    1X2 (I

    P1) Y

    =

    X2X2 X2X1 (X1X1)1 X1X21

    X2Y X2X1 (X1X1)1 X1Y

    = (X2X2)1

    X2Y

    dans le cas de lorthogonalite. Dans le cas general (lorsque X1 et X2 ne sont pas orthogonales),

    les solutions ne sont evidemment pas aussi simples.

    Ceci veut dire que, dans le cas de lorthogonalite, on peut estimer un modele de regression(avec Y comme variable dependante) contenant seulement les variables X1, seulement les

    variables X2, ou avec toutes les variables ensemble, et on va obtenir exactement les memes

    valeurs pour les coefficients estimes. Le theoreme Frisch-Waugh-Lovell est assez remarquable.

    Nous pouvons aussi reinterpreter ces resultats a la lumiere de ce que nous avons trouve

    concernant le biais du a des variables omises. Dans le cas de lorthogonalite, X1X2 = 0 et il

    ny a pas de biais. On peut regresser Y sur seulement X1 ou sur seulement X2 et il ny a pas

    de biais. On obtient des estimateurs non biaises.

    On peut aussi reinterpreter tout ceci en termes geometriques. Voir Davidson et MacKinnon

    (1999) pour plus de details.

    Tel que note par Pollock (2007), les couts relies au biais du a des variables omises dependent

    des buts de notre modelisation. Si parmi les variables X1 il y a des variables qui seront utilisees

    comme des instruments de politique economique, il est tres important dobtenir des estimes non

    biaises de leur impact. Si ce qui nous interessent est surtout la prediction de lesperance de Y

    conditionnelle aux valeurs des X, labsence de biais est moins importante.

    51

  • 7/29/2019 Reg Multiple

    52/106

    8 Tests dhypotheses et ensembles de confiance

    Tel quindique dans lintroduction, le seul element vraiment novateur est le test dhypotheses

    jointes. Sinon, on peut effectuer des tests dhypotheses simples de la meme maniere que dans le

    cas de la regression simple.

    8.1 Tests dhypotheses simples par rapport a un seul coefficient

    Il ny a strictement aucun changement par rapport a la facon de tester une hypothese simple

    dans le cadre du modele de regression simple. La statistique t de base, pour nimporte quel test,

    peut secrire :

    t = i H0i

    si,

    ou H0i est la valeur du coefficient i sous lhypothese nulle, i est la valeur du coefficient obtenue

    lors de lestimation, et si est un estime convergent de lecart type de lestime du coefficient. Dans

    le cas de la regression multiple, cest la racine carree de li-ieme element diagonal de (cas

    heteroscedastique) ou (cas homoscedastique).

    Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativite marginaux

    sapplique. La statistique t suit approximativement une loi normale centree reduite (si, bien sur,

    lechantillon est suffisamment grand).

    Dans le cas dune hypothese alternative a deux extremites (bilaterale), une grande valeur ab-

    solue de la statistique t (peu importe son signe) constitue de levidence contre H0. Soit (|ta|)la valeur de la distribution normale cumulee pour moins la valeur absolue de la valeur calculee de

    la statistique t. Nous avons :

    (|ta|) = Pr (t |ta|)

    = Pr

    t

    i H0isi

    = Pr

    t si i H0i .

    52

  • 7/29/2019 Reg Multiple

    53/106

    Dans le cas ou i H0i > 0 ceci est egal a

    Pr

    t si

    i H0i

    = Pr

    t si H0i i

    = Pr

    i H0i t si

    ,

    qui est donc egale a la probabilite dobtenir une valeur au moins aussi petite quune valeur qui est

    inferieure a H0i par t fois son ecart type. Dans le cas ou i H0i < 0 ceci est egal a

    Prt si i H0i = Pr

    i H0i + t si

    ,

    qui est donc egale a la probabilite dobtenir une valeur au moins aussi grande quune valeur qui est

    superieure a H0i par t fois son ecart type.

    Tout cela revient a dire que la p-value du test avec hypothese alternative bilaterale est donnee

    par 2 (|ta

    |).Le cas de tests avec hypothese alternative unilaterale est semblable. Lanalyse des tests dhy-

    pothese presentee dans le chapitre sur le modele de regression simple est pertinente. Dans le cas

    ou on a

    H0 : i = H0i

    et

    H1 : i > H0i ,

    la p-value du test est donnee par

    p = Pr

    z > tact

    = 1 tact .

    53

  • 7/29/2019 Reg Multiple

    54/106

    Dans le cas ou on a

    H0 : i = H0i

    et

    H1 : i < H0i ,

    la p-value du test est donnee par

    p = Pr

    z < tact

    =

    tact

    .

    8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de

    coefficients

    Souvent, il est possible de tester une telle restriction en estimant une version transformee du

    modele. Nous illustrons lidee avec un exemple. Reprenons le modele de regression multiple de

    base en notation non matricielle :

    Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.

    Supposons que nous voulons tester la restriction suivante :

    H0 : 1 + 2 = 1,

    contre lhypothese alternative

    H1 : 1 + 2

    = 1.

    Considerons la version suivante du modele, qui est equivalente a la version originale :

    Yi = 0 + X1i(1 + 2) + (X2i X1i) 2 + . . . + Xkik + ui.

    54

  • 7/29/2019 Reg Multiple

    55/106

    Lequivalence vient du fait que nous avons tout simplement ajoute et soustrait le meme terme

    X1i2. Nous pouvons reecrire le modele de la facon suivante :

    Yi = 0 + X1i1 + Zi2 + . . . + Xkik + ui,

    ou Zi X2i X1i et 1 1 + 2. Maintenant, tester lhypothese H0 : 1 + 2 = 1 revienta tester lhypothese H0 : 1 = 1. La methodologie a suivre est identique a celle etudiee dans le

    cadre du modele de regression simple.

    Effectuer ce test utilisant un logiciel de regression comme R, STATA ou GRETL revient a creer

    la variable Z et a estimer lequation transformee par MCO. Rien nempeche bien sur dutiliser les

    ecarts types robustes pour effectuer le test.

    8.3 Pourquoi les tests sequentiels ne sont pas valides

    Supposons que nous voulons tester lhypothese jointe suivante :

    H0 : 1 = 2 = 0.

    Lhypothese nulle dit que les deux coefficients sont nuls. Lhypothese alternative naturelle dans ce

    contexte est que au moins un des deux coefficients est non nul :

    H1 : i, i = 1, 2 tel que i = 0.

    Pourquoi pas tout simplement tester les deux hypotheses de facon sequentielle, ou les statistiques

    t donnees par :

    t1 =1 H01

    s1,

    et ensuite

    t2 =2 H02

    s2.

    55

  • 7/29/2019 Reg Multiple

    56/106

    Le probleme avec cette idee est quil sagit de distributions de probabilite jointes. Supposons pour

    simplifier que les deux coefficients estimes sont independamment distribues lun par rapport a

    lautre. Dans les deux cas, on ne rejetterait pas lhypothese nulle a un niveau de significativite

    marginal de 5% si |t1| < 1.96 et |t2| < 1.96 si notre echantillon est suffisamment grand (pourque les statistiques soient distribuees approximativement selon une loi normale). Avec ce taux de

    significativite marginal et etant donnee lindependance, la probabilite dobtenir au moins un rejet

    en effectuant deux tests si les hypotheses nulles sont vraies serait egale a 1 0.952. (Pourquoi ?)Il faudrait au moins ajuster le niveau de significativite marginal pour tenir compte de ce fait. Si les

    deux coefficients estimes ne sont pas independants, cet ajustement serait encore plus complique.

    Lidee derriere les tests dhypothese jointes developpes ci-dessous est precisement de tenir compte

    du fait que les coefficients sont tires dune distribution de probabilite jointe.

    Notez que lannexe (7.1) du livre decrit une facon dajuster les niveaux de significativite

    marginaux pour tenir compte de la correlation non nulle entre les coefficients. Cette methodologie

    peut etre utile dans certains cas, notamment lorsquon lit les resultats de regressions rapportes

    dans des articles publies ou des cahiers de recherche. Dans la plupart des cas on rapporte les ecarts

    types associes aux coefficients individuels, mais on ne rapporte pas la matrice variance-covariance

    complete des coefficients estimes (ce dont on aurait besoin pour calculer les statistiques definies

    dans la sous-section suivante). En suivant cette methodologie le lecteur peut effectuer des tests

    dhypotheses jointes meme sil na pas acces a la matrice variance-covariance complete des coef-

    ficients estimes.

    8.4 Tests dhypotheses jointes

    Tel quindique dans lintroduction a ces notes, je vais mettre laccent ici sur lapproche ma-

    tricielle, qui est beaucoup plus generale et, je crois, plus simple a comprendre.

    Pour commencer a saisir en quoi consiste cette methodologie, reprenons lexemple de la sous-

    56

  • 7/29/2019 Reg Multiple

    57/106

    section precedente. Lhypothese nulle a tester est :

    H0 : 1 + 2 = 1,

    Nous pouvons ecrire cette hypothese sous forme matricielle de la facon suivante :

    0 1 1 0 . . . 0

    0

    1

    2

    3.

    ..

    k

    = 1

    Ceci est de la forme :

    R = r,

    ou R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, ou il y

    a une seule restriction portant sur une combinaison lineaire de coefficients, R est en fait un vecteur

    et r est un scalaire. Mais, dans le cas general, R ainsi que r auront le meme nombre de rangees que

    le nombre de restrictions.

    Prenons un cas plus concret, un cas ou le nombre de variables explicatives (a part la constante)

    est plus grand que deux. Comment tester lhypothese nulle jointe

    H0 : 1 = 2 = 0

    contre lhypothese alternative

    i, i = 1, 2 tel que i = 0.

    57

  • 7/29/2019 Reg Multiple

    58/106

    Sous forme matricielle, nous pouvons ecrire : H0 :

    0 1 0 0 . . . 00 0 1 0 . . . 0

    0

    1

    2

    3...

    k

    =

    00

    .

    On peut montrer que la statistique suivante obeit, en grand echantillon et sous H0, a une loi

    Fq, (revisez la sous-section sur cette distribution a la page 44 du manuel ou dans les notes decours) :

    F

    R r

    RR

    1

    R r

    /q,

    ou qest le nombre de restrictions que lon veut tester, et ou est la matrice variance-covariance

    de lestime . Dans lexemple que nous venons detudier, q = 2. Autrement dit,

    Fd

    Fq,.

    Puisque la convergence est asymptotique (lorsque le nombre dobservations tend vers linfini), le

    deuxieme indice inferieur indique un nombre de degres de liberte infini.

    Largument pourquoi la statistique F converge en distribution a une loi Fq, se trouve a la page

    714 du manuel. Largument est tres succinct (pour ne pas dire tres dense). Je vous invite a le lire

    mais, bien sur, il ne faut pas le retenir pour les fins de lexamen final. Un argument plus simple,

    pour le cas de 2 restrictions, se trouve a la page 228.

    Comme dhabitude, le manuel met laccent sur le cas ou lechantillon est suffisamment grand

    pour parler de convergence approximative en probabilite et/ou en distribution. Pour que nos

    statistiques F suivent une loi F meme en petit echantillon, il faudrait pouvoir les exprimer

    comme des ratios de variables aleatoires 2 meme en petit echantillon (voir la page 44), et donc

    58

  • 7/29/2019 Reg Multiple

    59/106

    il faudrait supposer la normalite des erreurs (il faut aussi supposer lhomoscedasticite). Dans la

    mesure ou ceci est rarement plausible dans des contextes appliques, il est mieux de se tourner vers

    linference asymptotique si nous avons suffisamment dobservations.

    La loi F depend de deux parametres. Typiquement on parle dune variable aleatoire qui obeit

    a une loi Fm,n, ou le parametre m fait reference au nombre de restrictions imposees, et n fait

    reference au nombre de degres de liberte (nombre dobservations moins nombre de parametres

    estimes). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts entre les

    valeurs critiques lorsque n = 120 et lorsque n .La plupart des logiciels de regression, dont R, STATA et GRETL, offrent a lutilisateur la possi-

    bilite de specifier les equivalents de R et r afin de tester des hypotheses jointes quelconques.

    8.5 Que faire lorsque

    nest pas disponible ?

    Il y a des situations ou on na pas toute la matrice variance-covariance des parametres estimes

    a sa disposition. Par exemple, quand on lit des articles publies qui resument les resultats de les-

    timation dun modele de regression multiple, il est souvent le cas quon rapporte les ecarts types

    associes aux coefficients individuels, mais non les covariances entre les coefficients estim es.

    Il est possible de contourner ce probleme en utilisant la correction de Bonferroni , qui

    tient compte de la simultaneite lorsque on fait un test dhypotheses jointes. Notez que cette

    methodologie donne des tests qui sont moins puissants (qui ont une probabilite moins elevee de

    rejeter lhypothese nulle lorsquelle est fausse) que si on utilise la matrice pour effectuer le test.

    Ce que fait la correction est de donner la bonne p-value de tests sequentiels (la bonne probabilite

    de rejeter les hypotheses nulles jointes lorsquelles sont vraies).

    Le test de Bonferroni permet de tester des hypotheses jointes sur la base des statistiques t

    pour les hypotheses individuelles. Il faut choisir la valeur critique afin detre sur que la prob-

    abilite de rejeter lhypothese nulle jointe ne depasse pas la probabilite de la rejeter si on tient

    compte de la non-independance entre les hypotheses faisant partie de lhypothese jointe.

    59

  • 7/29/2019 Reg Multiple

    60/106

    On rejette lhypothese nulle si on rejette au moins une des hypotheses individuelles. Dans

    le cas dune hypothese jointe qui comporte deux hypotheses simples, appelons A levenement

    que nous rejetons la premiere des deux hypotheses, et B levenement que nous rejetons la

    deuxieme hypothese simple. Nous savons que

    Pr (A B) Pr (A) + Pr (B) ,

    ou le symbole indique lunion des deux evenements, autrement dit levenement que A seproduit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values iden-

    tiques pour les deux tests des hypotheses individuelles, on va choisir des p-values tel que leur

    somme soit egale a la p-value desiree du test joint. Par exemple, si on veut etre sur de ne pas

    rejeter lhypothese nulle jointe plus que 5% du temps lorsquelle est vraie, on va choisir des

    p-values de 2.5% pour chacune des tests individuels.

    Le test Bonferroni est tres consevateur. Son but est de minimiser la probabilite de rejeter les

    hypotheses jointes si elles sont vraies. En general, il fait augmenter la probabilite daccepter les

    hypotheses lorsquelles sont fausses. Ainsi, il na pas beaucoup de puissance (definie comme

    la probabilite de rejeter une hypothese lorsquelle est fausse). Il y a des techniques pour aug-

    menter la puissance du test lorsquon doit tester une hypothese jointe avec une sequence de

    tests dhypotheses simples. Voir Simes (1986).

    Pour de plus amples renseignements concernant cette methodologie, consultez lannexe 7.1

    au Chapitre 7 du manuel.

    8.6 Une seule restriction comme un cas special

    On peut montrer dans le cas dune seule restriction portant sur un coefficient (q = 1), la statis-

    tique F est le carre de la statistique t. Ceci revient a dire par contre que nous ne pouvons pas

    faire la distinction entre une statistique t qui serait grande en valeur absolue et negative et une

    60

  • 7/29/2019 Reg Multiple

    61/106

    statistique t grande en valeur absolue et positive. Cela veut dire quil ny aurait pas de difference

    entre les resultats avec une statistique F et une statistique t si lhypothese alternative est une hy-

    pothese alternative a deux extremites, mais nous ne pouvons pas vraiment tester lhypothese nulle

    contre lhypothese alternative H1 : i < i ou ce ne sont que les grandes valeurs negatives de la

    statistique t qui nous amenent a rejeter lhypothese nulle.

    Pour montrer lequivalence entre la statistique F et le carre de la statistique t dans un cas

    simple, prenons lexemple de lhypothese nulle H0 : 1 = 0. Dans ce cas, nous pouvons ecrire la

    restriction sous forme matricielle comme

    0 1 0 . . . 0

    0

    1

    2...

    k

    = 1 = 0.

    Dans ce casR

    r

    prend la forme de la statistique calculee (la valeur estimee de 1

    ) moins

    sa valeur sous lhypothese nulle, ou tout simplement le numerateur de la statistique t que lon

    utiliserait pour tester lhypothese. Nous avons dans ce cas

    F =

    1 0

    0 1 0 . . . 0

    0

    1

    0

    ...

    0

    1

    1 0

    .

    61

  • 7/29/2019 Reg Multiple

    62/106

    On peut facilement verifier que dans ce cas-ci (vous devriez le faire sur papier pour etre sur)

    0 1 0 . . . 0

    0

    1

    0

    ...

    0

    = s21

    ,

    lelement (scalaire) sur la diagonale de qui correspond a lestimateur convergent de la variance

    de 1. Donc, nous avons

    F = 1 0s1 2

    = t2.

    La statistique F est effectivement le carre de la statistique t quon utiliserait pour effectuer le test.

    On peut aussi considerer un deuxieme exemple pour montrer ce que donne la formule generale

    lorsquil ny a quune seule restriction testee. Considerons lhypothese nulle suivante :

    H0 : 1 + 2 = 1,

    qui peut etre ecrite sous forme matricelle comme

    0 1 1 0 . . . 0

    0

    1

    2

    3...

    k

    = 1 + 2 = 1.

    Encore une fois, R r prend la forme de la statistique calculee (1 + 2) moins sa valeur sous

    62

  • 7/29/2019 Reg Multiple

    63/106

    lhypothese nulle. Nous avons dans ce cas

    F =

    1 + 2 1

    0 1 1 0 . . . 0

    0

    11

    0

    ...

    0

    1

    1 + 2 1

    .

    On peut verifier (encore u