plan de la séance

Université de Franche-Comté 1

Cours d’économétrie appliquée – M1

Bunel M.

Thème 3

Références bibliographiques : V. Mignon (2008) Econométrie : théorie et application, chap. 4D. Gujarati (2004), Econométrie, chap. 9 et 15 R. Rakotomalala (2008), Pratique de la Régression Linéaire Multiple : Diagnostic et sélection de variablesW. Greene (2000), Econometric analysis, chap. 19 et 20

Analyse de la qualité d’une régression sous Stata et étude des changements de

structure, des variables indicatrices et des variables explicatives discrètes



Bunel M.

1. Qualité de régression :R2 et F de Fisher et test de Student

Analyse des résidus

2. Changement de structure, variables indicatrices et variables explicatives discrètes

Test de Chow

Généralisation moindres carrés contraints

Variables indicatrices modèle ANOVA et ANCOVA

Effet d’un traitement

Plan de la séance



Bunel M.

Qualité de la régressionLes coefficients de détermination R2

Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle

Le R2 ajusté se calcule en fonction du R2 :

Il traduit à la fois la qualité de l’ajustement (liaison entre Y et les Xi) et la complexité du modèle (nombre de variables explicatives).

RR22 = SCE/SCT= SCE/SCT

)1(1

11 22 RpnnRa −

−−−

−=



Bunel M.

Le test global de FisherIl permet de répondre à la question : la liaison globale entre Yet les Xi est-elle significative ?

HypothèsesH0: β1 = β2 = ... = βp = 0 = 0

Y ne dépend pas des variables Xi .

H1: Au moins un coefficient est non nulY dépend d’au moins une variable Xi .

Statistique

SC : Fisher à p et n-p-1 degrés de liberté

1SCR

SCE

MSRMSEF

−−

==

pn

p



Bunel M.

R2 et test de Fisher

F bon, R² mauvais F bon, R² bon



Bunel M.

Attention, il ne faut pas sur-interpréter le R2.

Il ne s’agit pas d’un critère suffisant pour déterminer la qualité d’un modèle

R2 =0,6 R2 =0,4



Bunel M.

Le test de Student sur un coefficient de régressionIl permet de répondre à la question suivante :l’apport marginal d’une variable Xj est-il significatif ?Hypothèses

H0 : βj = 0 (j≠0)On peut supprimer la variable Xj

H1 : βj ≠ 0 Il faut conserver la variable Xj

Statistique

SC : loi de Student à n-p-1 degrés de liberté

ii

i i

i

ss

t βββ

β

ˆdeestimétype-écart:,ˆ

ˆˆ

=



Bunel M.

Stata effectue systématiquement l’ensemble de ces calculs et de ces tests lorsque l’on utilise la commande « regress »



Bunel M.

Analyse des résidusPropriétés du terme d’erreur pour les MCO - distribution symétrique suivant une loi normale ;- variance est constante (homoscedasticité)- les erreurs sont indépendantes (abscence d’auto-corrélation)

reg y var1 var2predict residu, rscatter residu y, ytitle() xtitle()scatter residu y if residu>-2

1) Analyse graphique

-4-2

02

”rés

idu

carré

”

3 3.5 4 4.5”endogène estimée”



Bunel M.

Points atypiques, aberrants et points influents (cf page précédente)

Asymétrie des résidus (idem)

Non-linéarité (A)

Rupture de structure (B)

Hétéroscédasticité (C)

Autocorrélation des résidus (D)

(A)

(B) (C)(D)



Bunel M.

Détection des valeurs atypiques (voir thème 2)Levier, residus studentises, DFITS, DFBETAS, COVARATIO

Test Normalité (voir thème 2)QQ plotTests de normalité (Tests Jarque-Bera ; Agostino)

AutocorrélationTest de Durbin-WatsonTest de Breush-Godfrey

HomoscédasticitéTest de White (1980)

2) Test sur les résidus



Bunel M.

Homoscédasticité : Test de White (1)Valable pour les séries temporelles et les coupes transversales

Lorsque les erreurs sont hétéroscédastiques, les estimateurs de a et b par les MCO restent sans biais mais deviennent inefficients

En conséquence, l’inférence statistique est biaisée : les tests ne sont plus fondés.

Tests d’hétéroscédasticitéGoldfeld et Quandt (1972)White (1980)



Bunel M.

1. absence2. Hétéroscédasticité

3. Hétéroscédasticitélinéaire

4. Hétéroscédasticiténon-linéaire positive



Bunel M.

Homoscédasticité : Test de White (2)Test

Mise en œuvre : régression auxiliaireOn estime la régression

On récupère les résidus estimés

20

21

: ( ) ,

: ( )t

t t

H V t

H V

ε σ

ε σ

= ∀

=

2

K

t k tk tk

y a b x ε=

= + +∑

2

ˆˆ ˆK

t t k tkk

y a b xε=

= − −∑



Bunel M.

Homoscédasticité : Test de White (3)Mise en œuvre (suite)

On estime la régression auxiliaire par les MCO :Résidus au carré comme variable expliquéeToutes les variables explicatives, leurs carrés et leurs produits croisés comme variables expliquées

Soit le R² de cette régression auxiliaire

On calcule la statistique de White

Le nombre de degrés de liberté correspond au nombre de restrictions à tester dans la régression auxiliaire pour qu’il y ait homoscédasticité

2auxR

2 22auxW TR χ= →



Bunel M.

Homoscédasticité : Test de White (4)

Règle de décisionSi on rejette H0, il y a un problème d’hétéroscédasticitéSi on ne rejette pas H0, il n’y a pas de problème d’hétéroscédasticité

Source de l’hétéroscédasticitéElle peut provenir d’une mauvaise spécification du modèle

Variables omisesForme fonctionnelle…



Bunel M.

Application sous Statareg y var1 ln_ag hommepredict yhatpredict residu, rgen e2=residu^2scatter e2 yhat, ytitle(”résidu carré”) xtitle(”endogène estimée”)

gen var1_2=var1*var1gen ln_ag=ln_ag*ln_ag2gen ln_ag_var1=ln_ag*var1reg e2 var1 var1_2 ln_ag ln_ag_2 ln_ag_var1 homme

display chiprob(6 , 96.76)

SW=3902*0.0248 Ddl=6Hypothèse homoscedasticité est rejetée

05

1015

20”r

ésid

u ca

rré”

3 3.5 4 4.5”endogène estimée”



Bunel M.

Attention : ce test d’autocorrélation ne s’applique qu’aux séries temporelles

Ce test vise à tester l’autocorrélation d’ordre 1 : l’erreur en t dépend de la valeur de l’erreur en t – 1

Mêmes conséquences que l’hétéroscédasticité: S’il y a autocorrélation, les estimateurs des MCO restent sans biaismais sont inefficients

21

1,...

(0, )

On suppose 1

t t t

t t t t u

y a bx t T

u u iid

ε

ε ρε σ

ρ−

= + + =

= + →<

Autocorrélation : Test de Durbin-Watson (1)



Bunel M.

Figure 1. Lorsque ρ < 0, les erreurs passent d’une valeur positive à une valeur négativeFigure 2. Lorsque ρ > 0, les erreurs autocorrélées se caractérisent par une certaine persistance d’erreurs de même signe (inertie)Figure 3. Lorsque ρ = 0, la distribution des erreurs estimées est erratique.




Bunel M.

Le test de Durbin-WatsonLe test

Statistique du testOn estime la régression par les MCOOn récupère les résidus estimés

On forme la statistique de DW :

0

1

: 0: 0

HH

ρρ=

≠

t t ty a bx ε= + +ˆˆ ˆt t ty a bxε = − −

( )21

2

2

1

ˆ ˆ

ˆ

T

t tt

T

tt

dε ε

ε

−=

=

−=∑

∑




Bunel M.


On démontre que : Ainsi :

autocorrélation positive : pas d’autocorrélation : autocorrélation négative :

La distribution exacte de la statistique d n’est pas connue mais dépend de l’échantillon et du nombre de variables explicatives dans le modèle.

2 valeurs critiques dL et dU

2(1 )d ρ−

1 0dρ → ⇒ →0 2dρ = ⇒ =

1 4dρ → − ⇒ →

dL dU 4 - dU 4 – dL 4

On rejette H0et ρ >0

Le test ne permet pas de conclure

On ne rejette pas H0 Le test ne permet pas de conclure

On rejette H0et ρ <0



Bunel M.

Remarques :

Ce test exige la présence d’une constante

Quand d est proche de 2, il n’y a pas d’autocorrélation à l’ordre 1, mais il peut y avoir de l’autocorrélation supérieure à l’ordre 1 (exemple, autocorrélation saisonnière)

Quand d est proche de 0, le test indique une forme d’autocorrélation positive. Il peut également s’agir d’un signal de mauvaise spécification.




Bunel M.

Autocorrélation : Test de Breusch-Godfrey (1)

Autocorrélation d’ordre p :

Le test :

1 1 2 2

²

...

(0, )t t t p t p t

t iid υ

ε ρ ε ρ ε ρ ε υ

υ σ− − −= + + + +

→

0 1 2

1

: ... 0

: l'un au moins de ces coefficients n'est pas nulpH

H

ρ ρ ρ= = = =



Bunel M.

Mise en œuvre : régression auxiliaireOn estime la régression On récupère les résidus estimés On estime la régression auxiliaire par les MCO

Soit le R² de cette régression auxiliaireOn calcule la statistique de Breusch-Godfrey

Le nombre de degrés de liberté correspond au nombre de restrictions à tester dans l’hypothèse

t t ty a bx ε= + +ˆˆ ˆt t ty a bxε = − −

0 1 1 1 2 2ˆ ˆ ˆ ˆ...t t t t p t p txε α α β ε β ε β ε ξ− − −= + + + + + +

2auxR

2 2aux pBG TR χ= →

0 1 2: ... 0pH β β β= = = =

Autocorrélation : Test de Breusch-Godfrey (2)



Bunel M.

Application sous Stata (1)

Application E-views voir Mignon p. 165

use "...\consumption.dta", cleartsset col1regress yd cedwstatbgodfreybgodfrey, lags(1 2 3)

predict residu, rgen r2=residu^2gen lagr= residu[_n-1]gen dif_r2=(residu-lagr)^2tabstat dif_r2 r2, stat(sum) savetabstatmat stattotmatrix DW=stattot[1,1]/stattot[1,2]mat list DW



Bunel M.

Application sous Stata (2)



Bunel M.

Section 2 : Changement de structure, variables

indicatrices et variables explicatives discrètes



Bunel M.

Test de Chow (Test CUMsum données chronologiques)

Généralisation moindres carrés contraints

Variables indicatrice modèle ANOVA et ANCOVA

Effet d’un traitement et modèle de sélection

Variable expliquée discrète



Bunel M.

A. Test de Chow

Exemple : - périodes de temps différentes- hommes / femmes- urbains / ruraux

HypothèsesStatistique

Décision

A1. Principe



Bunel M.

A2. Application sous Stata

reg ln_w ln_expe ln_agscalar scr=e(rss)scalar n=e(N)

reg ln_w ln_expe ln_ag if homme==1scalar scr1=e(rss) reg ln_w ln_expe ln_ag if homme==0scalar scr2=e(rss)

/*Statistique du test*/scalar stat_chow=(scr-(scr1+scr2)/(scr1+scr2))*((n-2*3)/3)

/*Probabilité du test*/display stat_chowdisplay 1-F(3,n-2*3, stat_chow)

Si < 0.1 on rejette H0 les coefficients sont sensiblement différents

Si > 0.1 on ne rejette pas H0 (on peut choisir un seuil différent)



Bunel M.

B. Moindres carrés contraints et test

Hypothèses

Statistique

q : nb de contraintes introduites

T : nb observations

K : nombre de paramètres

Seuil

H0 : Rβ =r

H1: Rβ ≠ r

B1. Principe



Bunel M.

B2. Application sous Stata

gen enf6_18_=enf6_18>0gen enf6_=enf6>0gen enf=(enf6_18_==1)|(enf6_==1)

reg ln_w ln_expe ln_ag enf6_ enf6_18_scalar n=e(N)scalar scr_nc=e(rss)reg ln_w ln_expe ln_ag enfscalar scr_c=e(rss)/*Statistique du test*/scalar stat_F=((scr_c-scr_nc)/scr_nc)*(n-4-1/1)

display stat_Fdisplay 1-F(1,n-5, stat_F)

Si < 0.1 on rejette H0 les contraintes sont trop fortes




Bunel M.

C. Les variables indicatrices et variables explicatives discrètes

Variables qualitatives non ordonnées (appartenance à un groupe)

Variables discrètes bivariées (sexe)

Variables discrètes multivariées non ordonnées (localisation géographique)

Variables discrètes mutivariées ordonnées (degré de satisfaction)

Variable muette ou indicatrice (dummy variable) : prend les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique (sexe, localisation géographique, …) ou périodicité (trimestre, mois,…).

C1. Définition



Bunel M.

Attention ne pas donner d’ordre lorsque les variables ne sont pas ordonnées

Différences entre les variables expliquées et les variables explicatives



Bunel M.

C2. Introduction d’une variable explicative binaire dans la régression

a) Modèle Anava / Anova



Bunel M.

Rq 1 : Valable uniquement si l’on suppose que la variation de y en fonction des variables explicatives est la même pour les deux sous-populations

Rq 2 : Les populations sont exogènes

Différence entre l’outcome de la population 1 sachant X et l’outcome de la population 2

b) Modèle Ancova



Bunel M.

β0

β1

D=1

D=0

La pente est la même pour les deux populations



Bunel M.

Interprétation sous forme logarithmique

Utilisation des variables muettes pour corriger les variations saisonnières ou les effets fixes

Cas particuliers



Bunel M.

Rq : Dans le test de Chow, on teste l’hypthèse qu’au moins un des coefficients de la régression pour une sous-population diffère significativement du coefficient obtenu pour une autre sous-population

1. une modification de niveau, la constante n'est pas la même dans les 2 sous-populations (ou sous-périodes) ;

2. une modification de pente, la relation entre l'endogène et une ou plusieurs exogènes a été modifiée.

Or, il est possible d’aller un peu plus loin et de caractériser cette rupture

(1) (2)

c) Généralisation



Bunel M.

Tester la stabilité de la constante

Modèle non contraint

Modèle contraint

Statistique

q = 1



Bunel M.

Application sous Stata

gen femme=1-hommereg ln_w ln_expe ln_ag homme femme, noconstantscalar scr_nc=e(rss)scalar n=e(N)

reg ln_w ln_expe ln_agscalar scr_c=e(rss)

/*Statistique du test*/scalar stat_F=((scr_c-scr_nc)/scr_nc)*((n-4)/1)

/*Probabilité du test*/display 1-F(1,n-4, stat_F)

Si < 0.1 on rejette H0 les constantes varient selon le sexe




Bunel M.

Tester la pente en relâchant la contrainte sur la constante

Modèle non contraint

Modèle contraint



Bunel M.

Application sous Statagen femme=1-hommegen ln_expe_h=ln_expe*homme gen ln_expe_f=ln_expe*femme

reg ln_w ln_expe_h ln_expe_f ln_ag homme femme, noconstantscalar scr_nc=e(rss)scalar n=e(N)

reg ln_w ln_expe ln_ag homme femme, noconstantscalar scr_c=e(rss)

/*Statistique du test*/scalar stat_F=((scr_c-scr_nc)/scr_nc)*((n-4)/1)

/*Probabilité du test*/display stat_Fdisplay 1-F(1,n-4, stat_F)

Si = 0 on rejette H0 les coefficients varient selon le sexeSi -> 1 on ne rejette pas H0 les coefficients sont similaires



Bunel M.

Exemple sous STATA (1) reg ln_w ln_expe ln_ag hommereg ln_w ln_expe ln_ag if homme==1reg ln_w ln_expe ln_ag if homme==0



Bunel M.

Conclusion : Les différences détectées entre les régressions en fonction du sexe ne sont pas imputablesà une modification de la pente associée à la variable log de l’expérience

Exemple sous STATA (2)



Bunel M.

C3. Introduction de plusieurs variables binaires dans la régression

Cas 1 :

généralisation



Bunel M.

Cas 2 :



Bunel M.

Cas 2 bis :



Bunel M.

C4. Régression spline : régression linéaire fragmentée

Un noeud

Plusieurs noeuds



Bunel M.

C5. Interactions entre variables dummy

On veut prendre en compte qu’une variable muette (par exemple le sexe) puisse influencer la façon dont une autre variable muette (par exemple avoir des enfants) affecte la variable endogène étudiée

Proche de l’analyse de l’impact de la variable muette sur la pente

Exemple :

Un homme de moins de 35 ans gagnent « toutes choses égales par ailleurs » 3,3 euros de plus que les autres

Avoir moins de 35 ans affecte négativement la rémunération mais dans une moindre mesure pour les hommes



Bunel M.

Effet d’un traitement

Le plus souvent certains déterminants inobservables affectent simultanément la variable dummy et la variable endogène étudiée

⇒ Rejet de l’hypothèse d’exogénéité

⇒ MCO donnent des résultats biaisés

⇒ Voir le thème sur les variables instrumentales

⇒ Présentation de la méthode de sélection



Bunel M.

Modèle de sélection endogène



Bunel M.

Élément de la démonstration

Syntaxe sous STATA

global y var1global D=var2treatreg $y, treat($D)



Bunel M.

Exemple STATA

Effet de sélection

La taille de l’entreprise n’est pas exogène

global eq1 ln_w ln_ag ln_expeglobal treat ln_expe ln_ag cspp_2 cspp_3 cspp_4 cspp_5 cspp_6 cspp_7 cspp_8 cspp_9keep if hh_>0keep $eq1 $treat dtaille

treatreg $eq1, treat(dtaille =$treat)

predict a1, yctrtpredict a2, ycntrt

tabstat a1 a2, stat(mean sum)reg $eq1 dtaille

display (exp(3.934589 -4.107641)-1)*100display (exp(-.1913071 )-1)*100



Bunel M.

Endogénéité de la variable muette conduit à surestimer l’effet de la taille de l’entreprise de 1,5 points de pourcentage



Bunel M.

Variable endogène discrètePrincipe :

Expliquer un état en fonction de variables exogènes

pe: être actif/inactif ; participer à un programme ; être coté en bourse ;

Les problèmes, on a

- suit une loi de Bernouilli => pb mineur : th Central limite

- est hétéroscédastique (la variance fc de la moyenne)

-> pb mineur transformation du modèle

- Non satisfaction de la contrainte

- Hypothèse de linéarité de l’impact de x sur P (pe. Achat maison en fonction du revenu).



Bunel M.

La solution recourir au maximum de vraisemblance (voir séance suivante)

On introduit une fonction de distribution cumulative respectant les deux dernières propriétés

X

1

0

P



Bunel M.

Les fonctions les plus utilisées

Modèle logit

L’estimation de ces modèles nécessite de recourir à la technique du maximum de vraisemblance (voir thème suivant)

Modèle probit

logit y var1

probit y var1



Bunel M.

Variable endogène discrète ordonné

Modèle logit multivarié et ordonné

Variable de dénombrement : modèle de Poisson

plan de la séance

Documents