Éléments de statistique régression 2/2 · remarque sur la moyenne et la m ediane th eoriques :...
Post on 23-Jul-2020
1 Views
Preview:
TRANSCRIPT
1/81
Elements de statistiqueRegression 2/2
Nathalie Akakpo
Septembre 2018
Master 2 Probabilites et Finance
2/81
Regression 2/2 Bilan et ouvertures
1 Introduction
2 Regression non-parametrique
3 Regression robuste
4 Selection de modeleExemples introductifsCadre mathematiqueCoefficients de determinationMinimisation de criteres penalises
5 Ridge, LASSO, Elastic-netCadre et motivationRegression RidgeRegression LASSO
6 Regression logistique
3/81
Introduction
4/81
Limites du modele lineaire gaussien homoscedastiqueregulier
1 Que faire si la regression n’est pas lineaire ?
2 Que faire si les erreurs sont heteroscedastiques ?
3 Que faire si les erreurs ne sont pas independantes ?
4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)
5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)
6 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?
7 ....
5/81
Limites du modele lineaire gaussien homoscedastiqueregulier
1 Que faire si la regression n’est pas lineaire ? → transformations desdonnees ; techniques non parametriques (splines, ondelettes, noyaux,CART, reseaux de neurones ...) → voir chapitre 2.2
2 Que faire si les erreurs sont heteroscedastiques ? → regression ponderee
3 Que faire si les erreurs ne sont pas independantes ? → outils de seriestemporelles
4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)
5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)
6 Que faire si la variable a expliquer est discrete ou quantitative ?
7 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?
8 ....
6/81
Regression non-parametrique (bilan Semaine 2)
Yi = s(Xi ) + εi , i = 1, . . . , n
(εi ) i.i.d. centrees, independantes des (Xi ), Xi a valeurs dans [0, 1]d ,s : [0, 1]d → R a estimer
7/81
Regression a noyau (Nadaraya-Watson)
d = 1 :
sNW ,h(x) =
∑ni=1 YiK
(Xi−x
h
)∑n
i=1 K(
Xi−xh
) =n∑
i=1
wi (x)Yi
ou
wi (x) =K(
Xi−xh
)∑n
j=1 K(
Xj−x
h
)Choix de la fenetre h par validation croisee :
hCV = argminh>0
n∑i=1
(Yi − s(−i)NW ,h(xi ))2
ou
s(−i)NW ,h(xi ) =
n∑j=1
wj,−i (x)Yj
avec wj,−i (x) = 0 si j = i et
wj,−i (x) =wj(x)∑k 6=i wk(x)
, si j 6= i
8/81
Regression a noyau (Nadaraya-Watson)
Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :
d = 1 : n−2α/(1+2α)
Extension a d ≥ 2 : n−2(α/d)/(1+2(α/d)) → fleau de la dimension
9/81
Selection de modeles : regressogrammes
Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors
sm = argmint∈Sm
1
n
n∑i=1
(Yi − t(Xi ))2
=∑I∈m
YI
µX (I )1II
ou
YI =1
n
n∑i=1
Yi1II (Xi ) et µX (I ) =1
n
n∑i=1
1II (Xi ).
Exemples de familles de partitions :
partitions regulieres de [0, 1];
partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;
(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART
10/81
Selection de modeles : regressogrammes
Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors
sm = argmint∈Sm
1
n
n∑i=1
(Yi − t(Xi ))2
=∑I∈m
YI
µX (I )1II
ou
YI =1
n
n∑i=1
Yi1II (Xi ) et µX (I ) =1
n
n∑i=1
1II (Xi ).
Exemples de familles de partitions :
partitions regulieres de [0, 1]d (en D hypercubes, D = 1, . . . , n) ;
partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;
(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART
11/81
Reduction de la dimension
Selection du meilleur modele (meilleure partition) m ∈M par penalisation(voir semaine 2)Remarque : Pour CART, etape d’elagage
Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :
partitions regulieres de [0, 1]d : n−2(α/d)/(1+2(α/d)) pour des fonctions deregularite homogene
partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n; n−2α/(1+2α) pour des fonctions de regularite homogeneou non-homogene (� pics et bosses �)
partitions dyadiques issues de l’arbre maximal CART ? ? ? (pas de resultatd’approximation : famille de partitions construite a partir des donnees)
12/81
Reduction de la dimension
Pour reduire la dimension, selectionner parmi des modeles avec contrainte destructure.
Exemples :
regression lineaire : g(x) = β>x, β ∈ Rp a estimer ;
regression single-index : g(x) = h(β>x), h : R→ R et β ∈ Rp a estimer ;
regression additive :g(x) = h1(x (1)) + . . . hp−1(x (p−1)), hj : R→ R, j = 1 . . . p − 1, a estimer ;
reseaux de neurones a une couche cachee([Barron, 1994, Hastie et al., 2009]) : g(x) =
∑Dj=1 βjψ(w>j x + bj), ψ
fonction d’activation donnee, D nombre de neurones, wj ∈ Rp−1 poids duje neurone, bj ∈ R biais du du je neurone.
13/81
Que faire si les erreurs ne sont pas gaussienneset en particulier
erreurs sous-exponentielles ? de variance infinie ? aqueue lourde ?
14/81
Petit detour par l’EMV dans le modele d’echantillonnage
Maximisation de la vraisemblance dans le modele d’echantillonnage :
Yi = β + εi , i = 1, . . . , n
ou ε1, . . . , εn i.i.d.
Cas ou εi ∼ N (0, σ2) (σ connu)
β = argmaxc∈R
L(c; Y) = argminc∈R
‖Y − c1In‖2 = Yn (moyenne empirique)
Cas ou εi ∼ Lap(0, b) (b connu), loi de Laplace centree de variance 2b2, i.e. dedensite
fε(x) =1
2bexp
(−|x |
b
)β = argmax
c∈RL(c; Y) = argmin
c∈R‖Y − c1In‖`1
15/81
Petit detour par l’EMV dans le modele d’echantillonnage
Remarque sur la moyenne et la mediane theoriques : pour Z v.a. reelle
E(Z) = argmint∈R
E[(Z − t)2
]Med(Z) = argmin
t∈RE [|Z − t|]
16/81
Decroissance des queues : exemples
Principaux types de queue de repartition
decroissance des queues sous-gaussienne (exemple : normale N (0, 1))
decroissance des queues sous-exponentielle (exemple : Lap(0, 1/√
2) ouLaplace centree de variance 1)
decroissance des queues polynomiale/queues lourdes (exemple :Cauchy(0, 1) ou Cauchy standard de mediane nulle)
17/81
Decroissance des queues : exemples
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
Densite
-4 -2 0 2 40.0
0.2
0.4
0.6
0.8
1.0
t
Sur
vie
P(e
psilo
n>t)
N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)
Figure 1 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)
des lois N (0, 1),Lap(0, 1/√
2), Cauchy(0, 1)
18/81
Decroissance des queues : exemples
2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.00
0.01
0.02
0.03
0.04
0.05
x
Densite
N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)
2.0 2.5 3.0 3.5 4.0 4.5 5.00.00
0.05
0.10
0.15
0.20
t
Sur
vie
P(e
psilo
n>t)
N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)
Figure 2 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)
des lois N (0, 1),Lap(0, 1/√
2), Cauchy(0, 1) : zoom
19/81
Regression robuste
Cadre :
Y = Xβ + ε
ou
Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe
X =(
1In | X(1) | . . . | X(p−1))
matrice n × p deterministe connue
β = (β0 β1 . . . βp−1)> vecteur colonne de p × 1 a estimer
ε = (ε1 . . . εn)> vecteur aleatoire n × 1 non observe
Hypotheses supplementaires
1 ε1, . . . , εn i.i.d. de mediane Medβ(εi ) = 0
2 X de rang plein (identifiabilite)
Remarques : En notant Medβ(Y) = (Medβ(Y1) . . .Medβ(Yn))>
Medβ(Y) = Xβ
Medβ(Y) = Xβ ⇔ β = (X>X )−1X>Medβ(Y)
20/81
Regression robuste
Regression par rapport a la mediane ou regression L1 (Median regression, LeastAbsolute Deviation regression)
βLAD = argminc∈Rp
n∑i=1
|Yi − (Xc)i |
= argminc∈Rp
n∑i=1
|Yi − c0 − c1xi1 − . . .− cp−1xip−1|
Problemes :
existence ? calcul ?
loi de βLAD , ... ?
21/81
Regression L1 : existence et calcul de βLAD
βLAD = argminc∈Rp
n∑i=1
ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)
ou ρ : x ∈ R 7→ |x | est convexe, mais pas strictement convexe
→ βLAD existe mais n’est pas necessairement unique→ βLAD solution d’un probleme de programmation lineaire avec contraintes
lineaires
22/81
Regression L1 : loi des estimateurs
Pas de resultat general sur la loi exacte de βLAD
Resultats asymptotiques difficiles
Intervalles de confiance ? Tests ? → bootstrap
23/81
D’autres types de regression robuste
De maniere generale,
βρ = argminc∈Rp
n∑i=1
ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)
ou ρ : R→ R+ fonction de perte au moins convexe et telle que ρ(0) = 0
Exemples :
regression quantile d’ordre τ ∈]0, 1[ :
ρQ,τ (t) = t(τ − 1It≤0) =
{t(τ − 1) si t ≤ 0tτ sinon.
(seulement convexe sur R ; minimisation par programmation lineaire)
regression de Huber : pour γ > 0,
ρH,γ(t) =
{12t2 si |t| ≤ γγ|t| − 1
2γ2 sinon.
(strictement convexe et C 1 sur R ; minimisation par programmationconique)
24/81
D’autres types de regression robuste
-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15
0.000
0.002
0.004
0.006
0.008
0.010
t
ρ γ(t)
Huber loss function with cutpoint γ = 0.05
t2 2Huber loss
25/81
Regression robuste : etude de cas
Packages R :
quantreg, pour la regression quantile (τ = 0.5 : mediane)
fonction rlm du package MASS, pour la regression de Huber
Donnees : Engel (1857)Depenses en alimentation (y) et revenus du foyer (x) pour n = 235 foyerseuropeens de la classe ouvriere
26/81
Regression robuste : etude de cas
Figure 3 – Analyse des residus (studentises) de la regression par moindres carres
Histogram of rstudent(OLSreg)
rstudent(OLSreg)
Density
-10 -5 0 5
0.00
0.05
0.10
0.15
0.20
0.25
-3 -2 -1 0 1 2 3
-8-6
-4-2
02
4
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
0 50 100 150 200-8
-6-4
-20
24
Residus studentises
Index
Res
idus
stu
dent
ises
27/81
Regression robuste : etude de cas
Figure 4 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber
1000 2000 3000 4000 5000
500
1000
1500
2000
Revenus du foyer
Dep
ense
s en
alim
enta
tion
Reg L1Reg L2Reg Huber
28/81
Regression robuste : etude de cas
Remarque : on peut aussi essayer la regression lineire sur donnees transfromees(ici regression de log(y) en log(x))
Figure 5 – Analyse des residus (studentises) de la regression par moindres carres surles donnees log-transformees
Histogram of rstudent(OLSregLog)
rstudent(OLSregLog)
Density
-4 -3 -2 -1 0 1 2
0.0
0.1
0.2
0.3
0.4
-3 -2 -1 0 1 2 3
-4-3
-2-1
01
2
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
0 50 100 150 200
-4-3
-2-1
01
2
Residus studentises
Index
Res
idus
stu
dent
ises
29/81
Regression robuste : etude de cas
Autre methode : transformation des donnees, ici regression de log(y) en log(x)
Figure 6 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber surles donnees log-transformees
500 1000 2000 5000
500
1000
1500
2000
log(Revenus du foyer)
log(
Dep
ense
s en
alim
enta
tion)
Reg L1Reg L2Reg Huber
30/81
Selection de modele
31/81
Exemples introductifs
Exemple 1 : Regression polynomiale
Donnees :yi ≈ f (xi ), i = 1, . . . , n,
ou (xi ) connus et f inconnue.
Modelisation : f (bien approchee par un) polynome
Modele de regression lineaire polynomiale d’ordre p :
yi = β0 + β1xi + β2x2i + . . .+ βp−1x
p−1i + εi , i = 1, . . . , n
ou (εi ) i.i.d. N (0, σ2).
Question : Comment choisir le degre p − 1 ?
32/81
Exemples introductifs : regression polynomiale
Donnees simulees (cf. [Sakamoto et al., 1986])
Yi = f (xi ) + εi , i = 0, . . . , 20,
ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (εi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1
Illustration pour une realisation de Y = (Y0, . . . ,Y20)T :
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 7 – Nuage de points (xi , yi )0≤i≤20 ; En rouge : courbe de f (a estimer) ; Enbleu : ajustement par moindres carres de degre p − 1 = 1
33/81
Exemples introductifs : regression polynomiale
10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 8 – Degre p− 1 = 1 : les 10 droites d’ajustement par moindres carres
34/81
Exemples introductifs : regression polynomiale
10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 9 – Degre p− 1 = 2 : les 10 courbes d’ajustement par moindres carres
35/81
Exemples introductifs : regression polynomiale
10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 10 – Degre p− 1 = 3 : les 10 courbes d’ajustement par moindres carres
36/81
Exemples introductifs : regression polynomiale
10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 11 – p− 1 = 4 : les 10 courbes d’ajustement par moindres carres
37/81
Exemples introductifs : regression polynomiale
10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
-0.2
0.00.2
0.40.6
0.81.0
x
y
Figure 12 – p− 1 = 5 : les 10 courbes d’ajustement par moindres carres
38/81
Exemples introductifs
Exemple 2 : Jeu de donnees CreditEx (source [James et al., 2013])
n = 400 individusVariable a expliquer : Balance, dette moyenne sur la carte de creditVariables explicatives :
Income, revenus en milliers de dollars
Limit, limite de credit
Rating, score de credit
Age, age
Cards, nombre de cartes de credit
Education, nombre d’annees d’etudes
Gender, sexe
Student, etudiant ou non
Married, marie ou non
Question :Parmi les variables explicatives, lesquelles sont vraiment pertinentespour expliquer Balance ?
39/81
Cadre mathematique pour la selection de variables
Y = µ + ε
ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn
Modele complet : µ ∈ V ? = Vect{1In,X(1), . . . ,X(p−1)}, i.e.
Y = Xβ + ε
Famille de sous-modeles : Mexh ensemble des m ⊂ {0, 1, . . . , p − 1} tels0 ∈ m, modele complet m? = {0, 1, . . . , p − 1}
Estimation dans un sous-modele m : si µ ∈ V (m) = Vect{X(j), j ∈ m}, ouX(0) = 1In, alors
Y = X (m)β(m) + ε
ou
|m| : nombre d’elements de m (dimension du modele)
X (m) concatenation des colonnes X(j), j ∈ m, matrice n × |m|, avecX(0) = 1In
β(m) = (βj)j∈m vecteur colonne |m| × 1
40/81
Cadre mathematique pour la selection de variables
Estimation par moindres carres dans le sous-modele m :On a V (m) = Im(X (m)), on note H(m) = X (m)(X (m)>X (m))−1X (m)>
(matrice de projection orthogonale sur V (m))
Estimateur des moindres carres de β(m)
β(m) = argminu∈R|m|
‖Y − Xu‖2 = (X (m)>X (m))−1X (m)>Y
Valeur ajustee (ou valeur predite) de Y :
Y (m) = argminv∈V (m)
‖Y − v‖2 = H(m)Y = X (m)β(m)
Residus :ε(m) = (In − H(m))Y = (In − H(m))ε
Carre moyen residuel :
σ2(m) =‖ε(m)‖2
n − |m| .
41/81
Cadre mathematique pour la selection de variables
Proposition (Estimation par moindres carres dans le sous-modele m)
On suppose X (m?) reguliere et ε ∼ Nn
(0, σ2In
)(i.e. erreurs gaussiennes
centrees, independantes, homoscedastiques), alors pour tout m ∈Mexh, siµ ∈ m,
(i) β(m) ∼ N|m|(β(m), σ2(X (m)>X (m))−1
);
(ii) Y (m) ∼ Nn
(µ, σ2H(m)
), alors que Y ∼ Nn
(µ, σ2In
);
(iii) ε(m) ∼ Nn
(0, σ2(In − H(m))
), alors que ε ∼ Nn
(0, σ2In
);
(iv) Y (m) et ε(m) sont independants ;
(v) (n − |m|)σ2(m)/σ2 ∼ χ2(n − |m|).
42/81
Cadre mathematique pour la selection de variables
Cas particulier de la regression polynomiale
Y = µ + ε
ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn
Soit p ordre maximal, Mord ensemble des mq = {0, . . . , q − 1}, q = 1, . . . , pNotation : Vq = Vect{1In,X(1), . . . ,X(q−1)} (dimVq = |mq| = q)
Sous-modele m1 : µ ∈ V1 i.e.
µi = β0 + εi , i = 1, . . . , n
Sous-modele m2 : µ ∈ V2 i.e.
µi = β0 + β1xi + εi , i = 1, . . . , n
Sous-modele mq : µ ∈ Vq i.e.
µi = β0 + β1xi + β2x2i + . . .+ βq−1x
q−1i + εi , i = 1, . . . , n
Modele complet mp : µ ∈ Vp i.e.
µi = β0 + β1xi + β2x2i + . . .+ βp−1x
p−1i + εi , i = 1, . . . , n
43/81
Comment choisir le meilleur modele ?
44/81
Coefficients de determination
Decomposition de la somme des carres
Somme des carres totale, SCT : ‖Y − Y 1In‖2
Somme des carres expliquee par le modele m, SCE (m) : ‖Y (m)− Y 1In‖2
Somme des carres residuelle, SCR (m) : ‖Y − Y (m)‖2
Equation d’analyse de la variance :
‖Y − Y 1In‖2 = ‖Y (m)− Y 1In‖2 + ‖Y − Y (m)‖2
Definition (Coefficient de determination dans le modele m)
R2(m) =SCE(m)
SCT= 1− SCR(m)
SCT
45/81
Coefficients de determination
Cas particulier de la regression lineaire simple
Yi = β0 + β1xi + εi , i = 1, . . . , n
β0 = Y − β1x
β1 =covn(x ,Y )
varn(x)
R2 =cov2
n(x ,Y )
varn(x)varn(Y )
46/81
Coefficients de determination
Retour a l’exemple 1
Donnees simulees (cf. [Sakamoto et al., 1986])
Yi = f (xi ) + ηi , i = 0, . . . , 20,
ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (ηi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1
Ajustement polynomial d’ordre q (modele mq)) :
Yi = β0 + β1xi + β2x2i + . . .+ βq−1x
q−1i + εi , i = 1, . . . , n
ou (εi ) i.i.d. N (0, σ2).
Table 1 – Valeur moyenne des coefficients de determination sur 100 simulations
Ordre q 1 2 3 4 5
R2(mq) moyen 0.481 0.798 0.815 0.823 0.833
47/81
Coefficients de determination
Et de maniere generale ?
48/81
Coefficients de determination
Definition (Coefficient de determination ajuste dans le modele m)
R2aj(m) = 1− SCR(m)/(n − |m|)
SCT/(n − 1)
Exemple 1 (suite)
Ordre q 1 2 3 4 5
R2(mq) moyen 0.481 0.798 0.815 0.823 0.833
R2aj(mq) moyen 0.454 0.776 0.782 0.778 0.776
Table 2 – Valeur moyenne des coefficients de determination sur 100 simulations
49/81
Test de Fisher (d’un sous-modele)
Cas particulier ou m0 = {0} et m1 = m? := {0, . . . , p − 1} (test designificativite globale du modele)
Y = µ + ε,µ = E(Y ) ∈ Rn
Hypotheses de test :
H0 : µ ∈ Vect{1In} contre H1 : µ ∈ V ? := Vect{1In,X(1), . . . ,X(p−1)}
Statistique de test :
T ? =‖Y (m?)− Y (0)‖2/(p − 1)
‖Y − Y (m?)‖2/(n − p)
Propriete (Test de Fisher global et coefficient de determination)
T ? =p − 1
n − p
R2(m?)
1− R2(m?)
50/81
Selection de variables par penalisation
Y = µ + ε, µ ∈ Rn, ε ∼ Nn(0, σ2In)
Justification heuristique de la selection de modele : pour m ∈Mexh, l’erreurd’estimation dans le modele m se decompose en
E[‖µ− Y (m)‖2
]= ‖µ− PV (m)(µ)‖2 + E
[‖PV (m)(µ)− PV (m)(Y )‖2
]= inf
v∈V (m)‖µ− v‖2 + σ2|m|
ou PV (m) projection orthogonale de Rn sur V (m)
Decomposition similaire pour l’erreur d’ajustement :
E[‖Y − Y (m)‖2
]
51/81
Criteres penalises classiques
Meilleur modele dans M au vu des donnees :
m = argminm∈M
{ Crit(m) + pen(m)}
ou Crit(m) decroıt avec |m| et pen(m) croıt avec |m|
CP de Mallows ([Mallows, 1973]) :
CP(m) =SCR(m)
σ2?
− n + 2|m|
AIC (Akaike Information Criterion [Akaike, 1973]) :
AIC(m) = −2 ln L(Y , β(m), s2(m)) + 2|m| = n ln(2π) +n ln
(SCR(m)
n
)+ 2|m|
BIC (Bayes Information Criterion [Schwarz, 1978]) :
BIC(m) = −2 ln L(Y , β(m), s2(m))+ln(n)|m| = n ln(2π)+n ln
(SCR(m)
n
)+ln(n)|m|
52/81
Criteres penalises classiques
Notation : Mexh,q ensemble des sous-modeles contenant la constante et qcovariables
Algorithme exhaustif
1 Ajuster le modele m0 = {0} sans covariable.2 Pour q = 1, . . . , p − 1,
a) ajuster chaque modele contenant q covariables (et la constante) ;b) en deduire le meilleur modele mq avec q covariables, i.e.
mq = argminm∈Mexh,q
Crit(m).
3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.
m = mq,
ouq = argmin
q=0,...,p−1{Crit(mq) + pen(q + 1)}.
Cout de calcul ?
53/81
Reduction de la complexite algorithmique : recherche pas apas
Idee : A partir du modele m0 = {0}, rajouter une seule variable a la fois.
Algorithme stepwise forward
1 Ajuster le modele m0 = {0} sans covariable.2 Pour k = 0, . . . , p − 2, partant du modele mk a k covariables
a) ajuster chacun des p − 1− k modeles obtenus en rajoutant une seulecovariables a mk ;
b) choisir le meilleur modele mk+1 parmi ces p − 1− k modeles, i.e. celui quiminimise Crit(m).
3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.
m = mq,
ouq = argmin
q=0,...,p−1{Crit(mq) + pen(q + 1)}.
Cout de calcul ?
54/81
Reduction de la complexite algorithmique
Idee : A partir du modele complet mp−1 = {0, 1, . . . , p − 1}, enlever une seulevariable a la fois.
Algorithme stepwise backward
1 Ajuster le modele complet mp−1 = {0, 1, . . . , p − 1} (avec toutes lescovariables et la constante).
2 Pour k = p − 1, . . . , 1, partant du modele mk a k covariablesa) ajuster chacun des k modeles en enlevant une seule covariable a mk ;b) choisir le meilleur modele mk−1 parmi ces k modeles, i.e. celui qui minimise
Crit(m).
3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.
m = mq,
ouq = argmin
q=0,...,p−1{Crit(mq) + pen(q + 1)}.
Cout de calcul ?
55/81
Reduction de la complexite algorithmique
Idee : Combiner les approches forward et backward
Algorithme stepwise hybride
1 Ajuster le modele m0 = {0} sans covariable.
2 Ajouter la covariable la plus pertinente au modele.
3 Enlever les covariables inutiles.
4 . . .
56/81
Complexite des algorithmes de selection
Nombre de covariables : p − 1
Nombre de sous-modeles :
recherche exhaustive : 2p−1
recherche forward (ou backward) : 1 + p(p − 1)/2
Table 3 – Nombre de sous-modeles a explorer
p − 1 5 10 20 50 100
2p−1 32 1024 1.05× 106 1.13× 1015 1.27× 1030
1 + p(p − 1)/2 16 56 211 1276 5051
57/81
Quel critere de selection ? Quelle famille de modeles ?
L’approche Birge-Massart [Massart, 2008](minimisation approchee du risquequadratique)
Etant donnee une famille de modeles M fixee a priori, choisir
pen(m) ≈ L(|m|)|m|
ou L(|m|) ≥ 0 tels que ∑m∈M
exp(−|m|L(|m|)) ≤ 1.
Par exemple, pour tout D ∈ N?, et m ∈MD
L(|m|) = ln(2) +ln(|MD |)
D
ou MD = {m ∈M | |m| = D}.
Selection exhaustive : L(|m|) = ln(2) + ln(ep/|m|) (p dimension du plus grandmodele, p ≤ n)Selection ordonnee : L(|m|) = ln(2) pour tout m
58/81
Quel critere de selection ? Quelle famille de modeles ?
Remarques :
en regression lineaire gaussienne, CP et AIC ont des comportementssimilaires
choix du critere en selection forward, backward, stepwise ? ? ? (la structurede la famille de modeles a explorer n’est pas connue a priori)
references complementaires :[Azaıs and Bardet, 2012, Burnham and Anderson, 2002,Burnham and Anderson, 2004, Cornillon and Matzner-Løber, 2010,Lebarbier and Mary-Huard, 2006, McQuarrie and Tsai, 1998]
59/81
Ridge, LASSO, Elastic-net
60/81
Cadre et motivation
Modele avec la constante (intercept) et p − 1 covariables
Yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n
i.e.Y = Xβ + ε
Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe (variable a expliquer)
X =(
1In | X(1) | . . . | X(p−1))
matrice n × p deterministe connue, ou
X(j) = (x1j . . . xnj)> vecteur n × 1 (je predicteur/covariable/variable
explicative)
β := (β0 β1 . . . βp−1)> vecteur colonne p × 1 a estimer (coefficients)
ε = (ε1 . . . εn)> ∼ Nn(0, σ2In) vecteur aleatoire n × 1 non observe (bruit)
61/81
Cadre et motivation
MAIS X n’est plus necessairement reguliere
p ≤ n mais les colonnes de X sont correlees
p > n, voire p >> n, donc les colonnes de X sont correlees
62/81
Regression Ridge [Hoerl and Kennard, 1970a,Hoerl and Kennard, 1970b]
Idee : Meme si X>X n’est pas inversible, X>X + λIp, ou λ > 0, l’est toujours.
Propriete
Soit λ > 0, si X>X a pour valeurs propres α1 ≥ . . . ≥ αp ≥ 0 et pour vecteurspropres associes v1, . . . , vp, alors X>X + λIp a pour valeurs propresα1 + λ ≥ . . . ≥ αp + λ ≥ λ et pour vecteurs propres associes v1, . . . , vp.
Definition
L’estimateur Ridge associe a la constante λ > 0 est
βR(λ) = (X>X + λIp)−1X>Y .
Remarques :
si λ→ 0 et X reguliere, alors βR(λ)→ βR(0) = βMCO
si λ→ +∞, alors βR(λ)→ 0
si X est orthogonale, alors βR(λ) = βMCO/(1 + λ).
63/81
Biais et variance et risque de l’estimateur Ridge
Propriete (biais et matrice de covariance de βR(λ) )
E[βR(λ)
]− β = −λ(X>X + λIp)−1β
Var(βRλ)
)= σ2(X>X + λIp)−1X>X (X>X + λIp)−1
Propriete (comparaison avec βMCO)
Si X est reguliere,
Var(βMCO
)−Var
(βR(λ)
)= σ2(X>X+λIp)−1
(2λIp + λ2(X>X )−1
)(X>X+λIp)−1
Si X est orthogonale,
E[‖βMCO − β‖2
]= σ2p
E[‖βR(λ)− β‖2
]=
λ2
(1 + λ)2||β||2 +
σ2p
(1 + λ)2
donc il existe λ > 0 tel que E[‖βR(λ)− β‖2
]< E
[‖βMCO − β‖2
].
64/81
Definitions equivalentes de l’estimateur Ridge
βR1(λ1) = argminβ∈Rp
n∑
i=1
(yi − β0 −
p−1∑j=1
βjxij
)2
+ λ1
p−1∑j=1
β2j
βR2(λ2) = argminβ∈Rp
n∑
i=1
(yi − β0 −
p−1∑j=1
βjxij
)2
sous la contraintep−1∑j=1
β2j ≤ λ2
Propriete
Il existe λ, λ1, λ2 > 0 tels que βR(λ) = βR1(λ1) = βR2(λ2).
65/81
Questions pratiques sur l’estimateur Ridge
Centrage et reduction des donneesLe Ridge est sensible aux changements d’echelle.Travail preliminaire :
centrage et reduction de chaque covariable
xij ←xij − xj√
1n
∑ni=1(xij − xj)2
, i = 1, . . . , j = 1, . . . , p − 1
centrage, eventuellement reduction, de la variable a expliquer
yi ←yi − y
σy, i = 1, . . . n
regression Ridge de Y sur X → βR(κ)
retour a l’estimation ou a la prevision dans le modele de depart
yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n
par transformations affines :
Y (κ) = Y 1In + σy X βR(κ) = X βR(κ).
66/81
Questions pratiques sur l’estimateur Ridge
Differents packages
fonction lm.ridge du package MASS
fonction glmnet avec l’option alpha=0 du package glmnet
Verifier dans la documentation si les covariables et/ou la variable a expliquersont recentrees et/ou normalisees.Dans glmnet, par defaut, les variables explicatives et a expliquer sont toutesrecentrees et renormalisees, mais les coefficients en sortie sont bien dansl’echelle d’origine.
67/81
Questions pratiques sur l’estimateur Ridge
Choix du λ ?Crucial ! βR(λ) et ses performances dependent fortement du λSelection du λ par reechantillonnage (validation croisee ou bootstrap) pourminimiser une estimation de l’erreur de prediction
Autres methodes : voir par exemple [Cornillon and Matzner-Løber, 2010]
68/81
LASSO
Idee generale : chercher β(λ) ∈ Rp qui minimise
n∑i=1
(yi − β0 −
p−1∑j=1
βjxij
)2
+ λ
p−1∑j=1
|βj |q
i.e. qui minimise∑n
i=1
(yi − β0 −
∑p−1j=1 βjxij
)2
sous la contrainte
p−1∑j=1
|βj |q ≤ λ1
q = 2 : Ridge [Hoerl and Kennard, 1970a, Hoerl and Kennard, 1970b]
q = 1 : LASSO (Least Absolute Shrinkage and SelectionOperator) [Tibshirani, 1996]
q = 0 : ||β||`0 =∑p−1
j=1 1I|βj |6=0
Remarque : ||β||q`q est
convexe ssi q ≥ 1
differentiable ssi q > 1
deux fois differentiable ssi q ≥ 2
69/81
LASSO : proprietes de selection
Cas particulier : X = In (n = p) et pas d’intercept
Minimisation de∑n
i=1(yj − βj)2 : βMCj = yj
Minimisation de∑n
i=1(yj − βj)2 + λ∑p
j=1 β2j : βR
j (λ) = yj/(1 + λ)
Minimisation de∑n
i=1(yj − βj)2 + λ∑p
j=1 |βj | :
βL(λ) =
yj − λ/2 si yj > λ/2yj + λ/2 si yj < −λ/20 si |yj | ≥ λ/2
En particulier, contrairement au Ridge, le LASSO met certains coefficients a 0 :selection de modeles !
70/81
LASSO
Remarques
LASSO efficace notamment dans un cadre de grande dimension ”sparse” :p >> n mais beaucoup de βj sont proches de 0
LASSO sensible a la correlation entre covariables ; intermediaire entre leRidge et le LASSO : βelastic net(λ1, λ2) [Zou and Hastie, 2005] minimise
n∑i=1
(yi − β0 −
p−1∑j=1
βjxij
)2
+ λ1
p−1∑j=1
|βj |+ λ2
p−1∑j=1
β2j
pas de formule matricielle explicite pour le LASSO ou l’elastic-net ...
... MAIS problemes d’optimisation convexe (algorithmes d’approximationperformants)
Choix des λ ? par validation croisee par exemple
Ridge, LASSO, .... : pas de theorie sur les tests et les intervalles deconfiance (choix du λ aleatoire)
71/81
Regression logistique
72/81
Regression logistique : motivation
En regression lineaire, si la variable a expliquer est continue, on modelise sonesperance comme une fonction lineaire des variables explicatives :
Yi = β0 + β1x1i + . . .+ βp−1x
(p−1)i + εi
ou E(εi ) = 0. Si l’on considere que x est la realisation d’une variable aleatoireX independante de ε, ceci se traduit par
E(Y |X = x) = β0 + β1x1i + . . .+ βp−1x
(p−1)i .
Si la variable Y a predire est une variable categorielle a deux modalites 0 et 1(Bernoulli), alors
E(Y |X = x) = P(Y = 1|X = x) =: π(X = x)
(probabilite a posteriori d’appartenance a la classe 1).
→ π(X = x) ∈ [0, 1] : ne peut etre modelisee comme une fonction lineaire descovariables !
73/81
Regression logistique binomiale
Transformation logit : La fonction
p ∈]0, 1[7→ logit(p) = lnp
1− p∈ R
est bijective, d’inverse
x ∈ R 7→ exp(x)
1 + exp(x)∈]0, 1[
(fonction sigmoıdale, i.e. en forme de S)
Rapport de cotes (odds ratio) :
π(x)
1− π(x)=
P(Y = 1|X = x)
P(Y = 0|X = x)
Regression logistique (binomiale) : on modelise le log-rapport de cotes parune fonction lineaire :
logit (π(x)) = β0 + β1x1i + . . .+ βp−1x
(p−1)i
ce qui implique
π (x) =exp
(β0 + β1x
1i + . . .+ βp−1x
(p−1)i
)1 + exp
(β0 + β1x1
i + . . .+ βp−1x(p−1)i
) .
74/81
Variables explicatives
Comme pour la regression multiple, il est possible d’integrer des variablesexplicatives de differentes natures dans le modele :
1 variables quantitatives (continues) ;
2 variables categorielles ou facteurs a l’aide de variables ”dummy” (C − 1indicatrices pour un facteur a C niveaux) ;
3 variables d’interaction entre variables categorielles et quantitatives(variables produits xkx`).
75/81
Estimation du modele de regression logistique binomiale
La variable Y possede deux modalites 0 et 1. On a θ = β1 = β etπ0(θ, x) = 1− π1(θ, x). La log vraisemblance verifie
log vrais(β) =n∑
i=1
yiβ>xi − log
[1 + exp
(β>xi
)]On resout le systeme de p + 1 equations
d log vrais(β)
dβj=
n∑i=1
x ji
[yi −
exp(β>xi
)1 + exp (β>xi )
]= 0
a l’aide d’un algorithme de Newton-Raphson.
76/81
Selection d’un meilleur modele predictif en regressionlogistique
Comme en regression multiple, il s’agit de determiner un bon sous-ensemble depredicteurs dans une famille de variables disponibles.
Le critere AIC d’un modele m a pour expression
AIC(m) = −2 log (vrais(m)) + 2|m|= Λ(m) + 2|m|
ou vrais(m) est la vraisemblance du modele m, et |m| le nombre de parametresde ce modele.
Critere BIC :
BIC(m) = Λ(m) + ln(n)|m|
Pour faire de la selection de variables en grande dimension (glmnet)
LASSO (p ≥≥ n mais peu de variables vraiment significatives)
Elastic-Net (p ≥≥ n, peu de variables vraiment significatives, covariableseventuellement correlees)
77/81
Tests et intervalles de confiance en regression logistique
Deuxieme point de vue sur la regression logistique : modele de regressionlineaire generalisee (GLM [McCullagh and Nelder, 1989])→ voir cours
Consequence : resultats generaux sur l’estimation par maximum devraisemblance→ construction d’intervalles de confiance asymptotiques et de tests designificativite (tests de Wald) pour un parametre, qui remplacent les tests etintervalles de confiance de Student du cas gaussien.
78/81
Bibliographie I
Akaike, H. (1973).Information theory and an extension of the maximum likelihood principle.pages 267–281.
Azaıs, J.-M. and Bardet, J.-M. (2012).Le modele lineaire par l’exemple : regression, analyse de la variance etplans d’experiences illustres avec R et SAS.Dunod.
Barron, A. R. (1994).Approximation and estimation bounds for artificial neural networks.Machine learning, 14(1) :115–133.
Burnham, K. P. and Anderson, D. R. (2002).Model selection and multimodel inference.Springer-Verlag, New York, second edition.A practical information-theoretic approach.
Burnham, K. P. and Anderson, D. R. (2004).Multimodel inference : understanding AIC and BIC in model selection.Sociol. Methods Res., 33(2) :261–304.
79/81
Bibliographie II
Cornillon, P.-A. and Matzner-Løber, E. (2010).Regression avec R.Springer.
Hastie, T., Tibshirani, R., and Friedman, J. (2009).The elements of statistical learning.Springer Series in Statistics. Springer, New York, second edition.Data mining, inference, and prediction.
Hoerl, A. E. and Kennard, R. W. (1970a).Ridge regression : applications to nonorthogonal problems.Technometrics, 12(1) :69–82.
Hoerl, A. E. and Kennard, R. W. (1970b).Ridge regression : Biased estimation for nonorthogonal problems.Technometrics, 12(1) :55–67.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013).An introduction to statistical learning, volume 103 of Springer Texts inStatistics.Springer, New York.With applications in R.
80/81
Bibliographie III
Lebarbier, E. and Mary-Huard, T. (2006).Une introduction au critere BIC : fondements theoriques et interpretation.J. Soc. Fr. Stat., 147(1) :39–57.
Mallows, C. L. (1973).Some comments on c p.Technometrics, 15(4) :661–675.
Massart, P. (2008).Selection de modele : de la theorie a la pratique.J. Soc. Fr. Stat. & Rev. Stat. Appl., 149(4) :5–27.
McCullagh, P. and Nelder, J. A. (1989).Generalized linear models.Monographs on Statistics and Applied Probability. Chapman & Hall,London.Second edition [of MR0727836].
McQuarrie, A. D. R. and Tsai, C.-L. (1998).Regression and time series model selection.World Scientific Publishing Co., Inc., River Edge, NJ.
81/81
Bibliographie IV
Sakamoto, Y., Ishiguro, M., and Kitagawa, G. (1986).Akaike information criterion statistics, volume 1 of Mathematics and itsApplications (Japanese Series).D. Reidel Publishing Co., Dordrecht ; SCIPRESS, Tokyo.With a preface by Tosio Kitagawa, Translated from the Japanese.
Schwarz, G. (1978).Estimating the dimension of a model.Ann. Statist., 6(2) :461–464.
Tibshirani, R. (1996).Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society. Series B (Methodological), pages267–288.
Zou, H. and Hastie, T. (2005).Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society : Series B (StatisticalMethodology), 67(2) :301–320.
top related