(statdes regression biv_ensta_21oct2010)

ENSTA,

Cours D7-1 / Chapitre 5

Modèle de régression linéairebivarié

Laurent Ferrara

Jean-Paul Renne

Octobre 2010

Soit 2 variables continues X et Y. On observe les unitésexpérimentales : (xi , yi), pour i = 1, …, n.

1. Existe-t-il un lien entre X et Y?

2. Comment le mesurer ?

3. Comment modéliser ce lien? 3. Comment modéliser ce lien?

4. Comment estimer les paramètres de ce modèle?

5. Comment valider ce modèle ?

6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :les revenus d’un état et le nombre de ses « high-school graduates »?

3000 3500 4000 4500 5000 5500 6000

Causalité? Existe-t-il un lien entre :Le nombre de meurtres et l ’espérance de vie?

Murder

2 4 6 8 10 12 14

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer , ou dépendante, ou endogène.

– X est considérée comme la variable explicative, ou indépendante, ou – X est considérée comme la variable explicative, ou indépendante, ou exogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur

prédite

-1 0 1

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

),(),(

YXCovYXc =

Estimateur empirique :

∑∑

−−

−−=

YyXxYX

))((),(ρ

• Signification :

baXYqtbaYXc +=∃⇔= :..,1),(

?1),( <YXc

• Test de Student

– H0 :

– H1 :

0),( =YXρ

0),( ≠YXρ

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl2)),(1(

),(2 −− nYX

Donc, si

est tq : t* > on rejette H0 au seuil de risque α2/2

α−nt

2)),(1(

2 −−=

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

> cor(x, y)[1] 0.99> cor(x, y2)[1] 0.246> cor(x, y3)[1] 0.854> cor(x, yexp)

• Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire.

> cor(x, yexp)[1] 0.898

Attention au piège : Corrélation fallacieuse

Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie.

2 cas :2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation–délocalisation aux USA (application à la France)

empindus

4500,0

4600,0

4700,0

Évolution de l’emploi industriel France (Trimestriel 1991-2003)

4000,0

4100,0

4200,0

4300,0

4400,0

juil-9

juil-0

Imports

Évolution des importations de biens en volume France 1991-2003

juil-9

juil-0

Corrélation = - 0,50, t de Student = 3,99

→ Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables

→ Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française

Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services

On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de :

– 0,75 pour l’emploi industriel

0,94 pour les imports

Exercice : Proposer des exemples de corrélation fallacieuse

Attention au piège :

Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la loi jointe.

→ Si celle-ci n’est pas calculable: concept de copules

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire?

• Exemple : relation poids / taille

74706662

height

ght w = -266.5 + 6.1 h

w = -331.2 + 7.1 h

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogènei

iy est la valeur ajustée (estimée) de la ième observation

équation de la meilleure droite d’ajustement: ii xbby 10ˆ +=

w = -266.5 + 6.1 h

1 64 121 126.3

ix iy iyi

74706662

height

1 64 121 126.32 73 181 181.53 71 156 169.24 69 162 157.05 66 142 138.56 69 157 157.07 75 208 193.88 71 169 169.29 63 127 120.110 72 165 175.4

Erreur de prévision

(ou erreur résiduelle)

En utilisantiy pour prédire ,

iyon fait une erreur de prévision:

yye ˆ−= iii yye ˆ−=

La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.

Critère des “Moindres Carrés”

Objectif : Choisir les valeurs b0 et b1 qui minimise la

Equation de la droite : ii xbby 10ˆ +=

Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs.

i.e. : minimiser: ( )2

ˆ∑=

iii yyQ

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1):

( )( )2

110∑

+−=n

iii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

( )( )( )∑

−−=

11 xbyb 10

ˆˆ −=

weight = -266.534 + 6.13758 height

S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %

Regression Plot

Résultat:

65 70 75

height

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite.

• la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n

• H2 : Les erreurs, εεεεi, sont indépendantes entre elles

• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)

• H4 : E(εεεε2i) = σ2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d’homoscédasticité)

• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X

• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.

Estimation des paramètres

Quels paramètres ? → b0 , b1 , σ2 →

estimés par MCO

210 ˆ,ˆ,ˆ σbb

10ˆ,ˆ bb

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

La MSE est définie par :

−==∑

On pondère par le nombre de degrés de liberté du modèle défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :00)ˆ( bbE = 11)ˆ( bbE =

• On montre que :

−= n

ˆ)ˆ(

∞→→ nsibV 0)ˆ( 1

Loi asymptotique des paramètres

• De même,

−+=∑

1ˆ)ˆ( σ

∞→→ nsibV 0)ˆ( 0

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

80tS = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %

fahrenheit = 34.1233 + 1.61538 celsius

Regression Plot

Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que …..

40302010 0

Celsius

… celle de celui-ci?

S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %

fahrenheit = 17.0709 + 2.30583 celsius

Regression Plot

40302010 0

Celsius

Remarques

• Quel est le but du jeu de toute tentative de modélisation d’une variable Y ?

→→→→ Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) + ε

Par indépendance, V(Y) = V(f(X)) + V(εεεε)

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

(1-αααα) IC pour la pente

Formule “avec des mots” :

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations :

( ) ( )

−×±

∑−− 22,211

Test sur la pente

Null hypothesis H0: β1 = β (en général =0)

Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)

( )11*

ββ −=

−=Test statistic

( )( )1

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

Paramètre estimé ± (t-multiplier × standard error)

0b(1-αααα) IC pour la constante

Formule en notations:

( ) ( )∑ −+×±

−− 2

Null hypothesis H0: β0 = β (en général = 0)

Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)

tββ −=−=

Test statistic

Test sur la constante 0b

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

( )( )0

ββ −=

Test statistic

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).

> w.fit <- lm(weight ~ 1 + height)

> summary(w.fit)

Call: lm(formula = weight ~ 1 + height)Residuals:

Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2

Exemple : Poids / Taille

Coefficients:Value Std. Error t value Pr(>|t|)

(Intercept) -266.534 51.032 -5.223 0.001height 6.138 0.735 8.347 0.000

Residual standard error: 8.64 on 8 degrees of freedomMultiple R-Squared: 0.897

> resid(w.fit)1 2 3 4 5 6 7 8 9 10

-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4

Graphique : Poids observé vs. poids estimé

Fitted : 1 + height

120 140 160 180

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. : ∑=

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

∑=i 1

∑ ∑= =

iii yy

∑∑∑ +−=−i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance:

Variance totale = Variance expliquée + Variance résiduelle

Objectif : Maximiser la variance expliquée

• R2 : mesure de la variance expliquée

• Le R2 est à valeur entre 0 et 1

−−= n

• Le R2 est à valeur entre 0 et 1

• Critères d’information : Akaike (1971)

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

est le meilleur estimateur dans chaque cas.hh xbbY 10ˆ +=

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier.

core ( ) xxYEY 10 ββµ +==

High school gpa

( ) ii xY εββ ++= 10

Intervalle de confiance pour la réponse moyenne de la population

E(Y )E(Yh)

Sample estimate ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse moyenne E(Yh)

Formule en notation:

( )( )

−−+××±

∑−− 2

hnh σα

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.h

• Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

Remarques

• xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale

> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)$fit:

1 2 102 224

$se.fit:1 2

7.36 8.33

Exemple : Estimation du poids moyen pour 2 tailles données(60, proche de la moyenne, et 80, plus élevée que la moyenne)

$residual.scale:[1] 8.64

$df:[1] 8

$ci.fit:lower upper

1 84.7 1192 205.3 244attr(, "conf.level"):[1] 0.95

Intervalle de Prévision pour la réponse Yh(new) à une nouvelle

valeur xvaleur xh(new)

Prévision de Yh(new)

si la moyenne E(Y) est connue,i.e. : si les paramètres sont fixés

Hypothèse 252 =σ 5=σcàd

Prévision de Yh(new)

si la moyenne E(Y) est connue

47 52 57 62 67 72 77

Number of hours

Prévision de Yh(new) si la moyenne E(Y) n’est pas connue

i.e. si les paramètres sont estimés

→ on rajoute une incertitude sur la moyenne de Y

La prévision est non biaisée

hh xbbY 10ˆˆˆ +=

hhh YYe −= ˆ

Propriété:

xbbxbb

+−+−=

+−++=

)ˆ()ˆ(

)ˆˆ(

0)( =⇒ heE

Variance de la prévision

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

( )( )

−++=

−++∑∑

ˆˆ σσσEstimation:

2. Variance de Y inhérente à sa distribution

Sample prediction ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse Yh

( )( )

−−++×±

∑−− 2

11ˆˆ

hnh σα

alityS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

Regression Plot

504030

Latitude

95% PI

95% CI

Regression

(statdes regression biv_ensta_21oct2010)

Economy & Finance

arf regression lin´ eaire´ regression logistique´...

par claudia champagne stéphane chrétien equity premium...

colinÉaritÉ et rÉgression...

corrélation et régression linéaire...

régression robuste -...

laffly regression multiple

cours regression que

econometrie - dphu.org · econometrie (*) hélène...

pratique de la regression logistique -...

Évaluation des politiques publiques · anne-laure samson...

non-regression testing in web app development

classification: logistic...

la regression multiple

structured additive quantile regression with applications...

defect prediction: accomplishments and future...

exemple :regression logistique simple etude d’une...

mth8302 - analyse de régression et analyse de …€¦ ·...

séance 3: régression logistique et réseaux de...

regression simple

universit du qubec - bienvenue | département de … and...