(statdes regression biv_ensta_21oct2010)
Post on 14-Jun-2015
58 Views
Preview:
TRANSCRIPT
ENSTA,
Cours D7-1 / Chapitre 5
Modèle de régression linéairebivarié
Laurent Ferrara
Jean-Paul Renne
Octobre 2010
Soit 2 variables continues X et Y. On observe les unitésexpérimentales : (xi , yi), pour i = 1, …, n.
1. Existe-t-il un lien entre X et Y?
2. Comment le mesurer ?
3. Comment modéliser ce lien? 3. Comment modéliser ce lien?
4. Comment estimer les paramètres de ce modèle?
5. Comment valider ce modèle ?
6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?
Exemple : données USA 1992 sur 50 états (state.x77)
Existe-t-il un lien entre :les revenus d’un état et le nombre de ses « high-school graduates »?
6065
Inc
Gra
3000 3500 4000 4500 5000 5500 6000
4045
5055
Causalité? Existe-t-il un lien entre :Le nombre de meurtres et l ’espérance de vie?
7273
Murder
Life
Exp
2 4 6 8 10 12 14
6869
7071
Quel type de lien?
• Mise en évidence un lien linéaire entre les 2 variables.
– Y est considérée comme la variable à expliquer , ou dépendante, ou endogène.
– X est considérée comme la variable explicative, ou indépendante, ou – X est considérée comme la variable explicative, ou indépendante, ou exogène.
• Relation statistique entre les 2 variables (non-déterministe) :
la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur
prédite
x
y
-1 0 1
-10
1
x
y2
-1 0 1
01
23
x
y3
-1 0 1
-4-2
02
46
x
yexp
-1 0 1
01
23
45
6
Comment mesurer un lien linéaire?
• Outil principal : Coefficient de corrélation linéaire
)()(
),(),(
YVXV
YXCovYXc =
Estimateur empirique :
∑∑
∑
==
=
−−
−−=
n
ii
n
ii
n
iii
YyXx
YyXxYX
1
2
1
2
1
)()(
))((),(ρ
Comment mesurer un lien linéaire?
• Signification :
baXYqtbaYXc +=∃⇔= :..,1),(
?1),( <YXc
• Test de Student
– H0 :
– H1 :
0),( =YXρ
0),( ≠YXρ
Comment mesurer un lien linéaire?
• Sous l’hypothèse nulle H0 :
suit une loi de Student à (n-2) dl2)),(1(
),(2 −− nYX
YX
ρρ
Donc, si
est tq : t* > on rejette H0 au seuil de risque α2/2
α−nt
2)),(1(
),(*
2 −−=
nYX
YXt
ρρ
Attention au piège : dépendance non linéaire
le coeff de corrélation ne mesure que la dépendance linéaire.
> cor(x, y)[1] 0.99> cor(x, y2)[1] 0.246> cor(x, y3)[1] 0.854> cor(x, yexp)
• Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance.
• Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire.
> cor(x, yexp)[1] 0.898
Attention au piège : Corrélation fallacieuse
Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie.
2 cas :2 cas :
– résultat purement aléatoire
– existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps)
Exemple de Krugman :
lien désindustrialisation–délocalisation aux USA (application à la France)
empindus
4500,0
4600,0
4700,0
Évolution de l’emploi industriel France (Trimestriel 1991-2003)
4000,0
4100,0
4200,0
4300,0
4400,0
mars
-91
juil-9
1no
v-91
mars
-92
juil-9
2nov
-92
mar
s-93
juil-9
3nov
-93
mar
s-94
juil-9
4nov
-94
mars
-95
juil-9
5nov
-95
mars
-96
juil-9
6nov
-96
mars
-97
juil-9
7no
v-97
mars
-98
juil-9
8no
v-98
mars
-99
juil-9
9no
v-99
mars
-00
juil-0
0nov
-00
mar
s-01
juil-0
1nov
-01
mars
-02
juil-0
2no
v-02
mars
-03
Imports
1,70
1,90
2,10
Évolution des importations de biens en volume France 1991-2003
0,70
0,90
1,10
1,30
1,50
mar
s-91
juil-9
1nov
-91
mars
-92
juil-9
2nov
-92
mars
-93
juil-9
3nov
-93
mar
s-94
juil-9
4nov
-94
mars
-95
juil-9
5nov
-95
mars
-96
juil-9
6nov
-96
mar
s-97
juil-9
7nov
-97
mar
s-98
juil-9
8no
v-98
mars
-99
juil-9
9nov
-99
mar
s-00
juil-0
0nov
-00
mar
s-01
juil-0
1no
v-01
mars
-02
juil-0
2nov
-02
mar
s-03
Corrélation = - 0,50, t de Student = 3,99
→ Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables
→ Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française
Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services
On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de :
– 0,75 pour l’emploi industriel
0,94 pour les imports
Exercice : Proposer des exemples de corrélation fallacieuse
Attention au piège :
Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien)
En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle
Exemple : lien linéaire entre les variances de X et Y
(cas des processus ARCH en séries chronologiques)
Autres outils de mesure de dépendance:
– Concordance
– Corrélation de rang (Tau de Kendall, coefficient de Spearman)
– Corrélation conditionnelle
– …
– L’expression générale de la dépendance ne peut se faire que par la loi jointe.
→ Si celle-ci n’est pas calculable: concept de copules
Comment modéliser un lien linéaire?
• Quel est le « meilleur » ajustement linéaire?
• Exemple : relation poids / taille
74706662
210
200
190
180
170
160
150
140
130
120
110
height
wei
ght w = -266.5 + 6.1 h
w = -331.2 + 7.1 h
Notation
iy est la ième observation de la variable exogène
ix est la ième observation de la variable endogènei
iy est la valeur ajustée (estimée) de la ième observation
équation de la meilleure droite d’ajustement: ii xbby 10ˆ +=
210
200
190
180
170
160
150
140
wei
ght
w = -266.5 + 6.1 h
1 64 121 126.3
ix iy iyi
74706662
130
120
height
1 64 121 126.32 73 181 181.53 71 156 169.24 69 162 157.05 66 142 138.56 69 157 157.07 75 208 193.88 71 169 169.29 63 127 120.110 72 165 175.4
Erreur de prévision
(ou erreur résiduelle)
En utilisantiy pour prédire ,
iyon fait une erreur de prévision:
yye ˆ−= iii yye ˆ−=
La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.
Critère des “Moindres Carrés”
Objectif : Choisir les valeurs b0 et b1 qui minimise la
Equation de la droite : ii xbby 10ˆ +=
Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs.
i.e. : minimiser: ( )2
1
ˆ∑=
−=n
iii yyQ
La droite de régression
Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1):
( )( )2
110∑
=
+−=n
iii xbbyQ
1=i
et obtenir les estimateurs des moindres carrés
ordinaires (MCO) de b0 et b1:
( )( )( )∑
∑
=
=
−
−−=
n
ii
n
iii
xx
yyxxb
1
2
11 xbyb 10
ˆˆ −=
170
180
190
200
210ht
weight = -266.534 + 6.13758 height
S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %
Regression Plot
Résultat:
65 70 75
120
130
140
150
160
170
height
wei
gh
Remarques
En termes géométriques
• la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite.
• la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.
Formalisation
Hypothèses du modèle linéaire :
• H1 : E(Yi) fonction linéaire des xi (déterministes)
y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n
• H2 : Les erreurs, εεεεi, sont indépendantes entre elles
• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)
• H4 : E(εεεε2i) = σ2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d’homoscédasticité)
• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X
• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.
Estimation des paramètres
Quels paramètres ? → b0 , b1 , σ2 →
estimés par MCO
210 ˆ,ˆ,ˆ σbb
10ˆ,ˆ bb
estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)
2σ
La MSE est définie par :
( )2
ˆ
ˆ 1
2
2
−
−==∑
=
n
YYMSE
n
iii
σ
On pondère par le nombre de degrés de liberté du modèle défini par :
degrés de liberté = nbre d’observations - nbre de paramètres
Loi asymptotique des paramètres
Les estimateurs MCO sont sans biais et convergents
• On montre que :00)ˆ( bbE = 11)ˆ( bbE =
• On montre que :
Donc
∑=
−= n
ii Xx
bV
1
2
2
1
)(
ˆ)ˆ(
σ
∞→→ nsibV 0)ˆ( 1
Loi asymptotique des paramètres
• De même,
−+=∑
=
n
ii Xx
X
nbV
1
2
22
0
)(
1ˆ)ˆ( σ
=i 1
∞→→ nsibV 0)ˆ( 0
Remarques
• Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV
• La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire)
• La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression.
– C ’est une mesure de la précision du modèle
– C ’est une mesure du risque associé au modèle
100
90
80tS = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %
fahrenheit = 34.1233 + 1.61538 celsius
Regression Plot
Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que …..
40302010 0
80
70
60
50
40
30
Celsius
Fah
renh
eit
… celle de celui-ci?
100
eit
S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %
fahrenheit = 17.0709 + 2.30583 celsius
Regression Plot
40302010 0
50
0
Celsius
Fah
renh
e
Remarques
• Quel est le but du jeu de toute tentative de modélisation d’une variable Y ?
→→→→ Minimiser la variance résiduelle
Y = partie déterministe + partie aléatoire
Y = f(X) + ε
Par indépendance, V(Y) = V(f(X)) + V(εεεε)
Validation du modèle
On valide le modèle à l’aide des tests statistiques.
2 types de tests d’hypothèses sont développés :
1) Tests sur les paramètres du modèle
2) Tests sur les résidus du modèle
(1-αααα) IC pour la pente
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
1b
Formule en notations :
( ) ( )
−×±
∑−− 22,211
ˆˆ
Xxtb
i
n
σα
Test sur la pente
Null hypothesis H0: β1 = β (en général =0)
Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)
( )11*
bbt
ββ −=
−=Test statistic
1b
( )( )1
2
*bse
xx
MSE
t
i
=
−
=
∑
Test statistic
P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
0b(1-αααα) IC pour la constante
Formule en notations:
( ) ( )∑ −+×±
−− 2
2
2,210
1ˆˆ
Xx
x
ntb
in
σα
Null hypothesis H0: β0 = β (en général = 0)
Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)
00*bb
tββ −=−=
Test statistic
Test sur la constante 0b
P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté.
( )( )0
0
2
2
0
1*
bseb
xx
xn
MSE
bt
i
ββ −=
−+
−=
∑
Test statistic
Test sur le terme d’erreur
Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus.
– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)
– Test graphiques (QQ-Plot)
Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).
> w.fit <- lm(weight ~ 1 + height)
> summary(w.fit)
Call: lm(formula = weight ~ 1 + height)Residuals:
Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2
Exemple : Poids / Taille
Coefficients:Value Std. Error t value Pr(>|t|)
(Intercept) -266.534 51.032 -5.223 0.001height 6.138 0.735 8.347 0.000
Residual standard error: 8.64 on 8 degrees of freedomMultiple R-Squared: 0.897
> resid(w.fit)1 2 3 4 5 6 7 8 9 10
-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4
180
200
Graphique : Poids observé vs. poids estimé
Fitted : 1 + height
wei
ght
120 140 160 180
120
140
160
Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance
On montre les 2 relations suivantes :
• la somme des résidus est nulle, i.e. : ∑=
=n
iie
1
0
• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :
∑=i 1
∑ ∑= =
=n
i
n
iii yy
1 1
ˆ
∑∑∑ +−=−i
ii
ii
i eyyyy 222)ˆˆ()(
On en déduit l’équation de l’analyse de la variance:
Variance totale = Variance expliquée + Variance résiduelle
Objectif : Maximiser la variance expliquée
• R2 : mesure de la variance expliquée
• Le R2 est à valeur entre 0 et 1
∑=
−−= n
ii YY
R
1
2
22
)(
ˆ1
σ
• Le R2 est à valeur entre 0 et 1
• Critères d’information : Akaike (1971)
Prévision
Que veut-on prévoir?
• La réponse «moyenne» de la population = E(Yh) pour une valeur xh
– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?
(Plus précis que le poids moyen de l’échantillon)
• La réponse Yh(new) à une nouvelle valeur donnée xh
– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?
est le meilleur estimateur dans chaque cas.hh xbbY 10ˆ +=
En fait les 2 prévisions sont égales :
Seuls les intervalles de confiance autour des réponses vont varier.
22
18
e te
st s
core ( ) xxYEY 10 ββµ +==
54321
14
10
6
High school gpa
Co
llege
ent
ranc
e
( ) ii xY εββ ++= 10
Intervalle de confiance pour la réponse moyenne de la population
E(Y )E(Yh)
Formule “avec des mots” :
Sample estimate ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse moyenne E(Yh)
Formule en notation:
( )( )
( )
−−+××±
∑−− 2
22
2,21
1ˆˆ
Xx
Xx
nty
i
hnh σα
Implications sur la précision
• Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit,
donc l’estimation de E(Yh) est plus précise.h
• Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand,
donc l’estimation de E(Yh) est moins précise.
Remarques
• xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon
• L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale
• Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale
> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)$fit:
1 2 102 224
$se.fit:1 2
7.36 8.33
Exemple : Estimation du poids moyen pour 2 tailles données(60, proche de la moyenne, et 80, plus élevée que la moyenne)
$residual.scale:[1] 8.64
$df:[1] 8
$ci.fit:lower upper
1 84.7 1192 205.3 244attr(, "conf.level"):[1] 0.95
Intervalle de Prévision pour la réponse Yh(new) à une nouvelle
valeur xvaleur xh(new)
Prévision de Yh(new)
si la moyenne E(Y) est connue,i.e. : si les paramètres sont fixés
Hypothèse 252 =σ 5=σcàd
0.07
0.08
Prévision de Yh(new)
si la moyenne E(Y) est connue
47 52 57 62 67 72 77
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Number of hours
Nor
mal
cur
ve
0.997
Prévision de Yh(new) si la moyenne E(Y) n’est pas connue
i.e. si les paramètres sont estimés
→ on rajoute une incertitude sur la moyenne de Y
La prévision est non biaisée
hh xbbY 10ˆˆˆ +=
hhh YYe −= ˆ
Propriété:
hh
hhh
hhh
xbbbb
xbbxbb
YYe
ε
ε
+−+−=
+−++=
−=
)ˆ()ˆ(
)ˆˆ(
1100
1010
0)( =⇒ heE
Variance de la prévision
Elle dépend de 2 composantes :
1. Variance due à l’estimation de E(Yh) par
2. Variance de Y inhérente à sa distribution
hy
( )( )
( )( )
−
−++=
−
−++∑∑
==
n
ii
hn
ii
h
xx
xx
nxx
xx
n
1
2
22
1
2
222 1
1ˆ1
ˆˆ σσσEstimation:
2. Variance de Y inhérente à sa distribution
Sample prediction ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse Yh
( )( )
( )
−−++×±
∑−− 2
22
2,21
11ˆˆ
xx
xx
nty
i
hnh σα
250
alityS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %
Mortality = 389.189 - 5.97764 Latitude
Regression Plot
504030
150
50
Latitude
Mo
rta
95% PI
95% CI
Regression
top related