Éléments de statistique régression 2/2 · remarque sur la moyenne et la m ediane th eoriques :...

Elements de statistiqueRegression 2/2

Nathalie Akakpo

Septembre 2018

Master 2 Probabilites et Finance

Regression 2/2 Bilan et ouvertures

1 Introduction

2 Regression non-parametrique

3 Regression robuste

4 Selection de modeleExemples introductifsCadre mathematiqueCoefficients de determinationMinimisation de criteres penalises

5 Ridge, LASSO, Elastic-netCadre et motivationRegression RidgeRegression LASSO

6 Regression logistique

Introduction

Limites du modele lineaire gaussien homoscedastiqueregulier

1 Que faire si la regression n’est pas lineaire ?

2 Que faire si les erreurs sont heteroscedastiques ?

3 Que faire si les erreurs ne sont pas independantes ?

4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)

5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)

6 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?

7 ....

Limites du modele lineaire gaussien homoscedastiqueregulier

1 Que faire si la regression n’est pas lineaire ? → transformations desdonnees ; techniques non parametriques (splines, ondelettes, noyaux,CART, reseaux de neurones ...) → voir chapitre 2.2

2 Que faire si les erreurs sont heteroscedastiques ? → regression ponderee

3 Que faire si les erreurs ne sont pas independantes ? → outils de seriestemporelles

4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)

5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)

6 Que faire si la variable a expliquer est discrete ou quantitative ?

7 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?

8 ....

Regression non-parametrique (bilan Semaine 2)

Yi = s(Xi ) + εi , i = 1, . . . , n

(εi ) i.i.d. centrees, independantes des (Xi ), Xi a valeurs dans [0, 1]d ,s : [0, 1]d → R a estimer

Regression a noyau (Nadaraya-Watson)

d = 1 :

sNW ,h(x) =

∑ni=1 YiK

(Xi−x

i=1 K(

Xi−xh

) =n∑

wi (x)Yi

wi (x) =K(

Xi−xh

j=1 K(

Xj−x

)Choix de la fenetre h par validation croisee :

hCV = argminh>0

n∑i=1

(Yi − s(−i)NW ,h(xi ))2

s(−i)NW ,h(xi ) =

n∑j=1

wj,−i (x)Yj

avec wj,−i (x) = 0 si j = i et

wj,−i (x) =wj(x)∑k 6=i wk(x)

, si j 6= i

Regression a noyau (Nadaraya-Watson)

Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :

d = 1 : n−2α/(1+2α)

Extension a d ≥ 2 : n−2(α/d)/(1+2(α/d)) → fleau de la dimension

Selection de modeles : regressogrammes

Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors

sm = argmint∈Sm

n∑i=1

(Yi − t(Xi ))2

=∑I∈m

µX (I )1II

n∑i=1

Yi1II (Xi ) et µX (I ) =1

n∑i=1

1II (Xi ).

Exemples de familles de partitions :

partitions regulieres de [0, 1];

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;

(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART

Selection de modeles : regressogrammes

Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors

sm = argmint∈Sm

n∑i=1

(Yi − t(Xi ))2

=∑I∈m

µX (I )1II

n∑i=1

Yi1II (Xi ) et µX (I ) =1

n∑i=1

1II (Xi ).

Exemples de familles de partitions :

partitions regulieres de [0, 1]d (en D hypercubes, D = 1, . . . , n) ;

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;

(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART

Reduction de la dimension

Selection du meilleur modele (meilleure partition) m ∈M par penalisation(voir semaine 2)Remarque : Pour CART, etape d’elagage

Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :

partitions regulieres de [0, 1]d : n−2(α/d)/(1+2(α/d)) pour des fonctions deregularite homogene

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n; n−2α/(1+2α) pour des fonctions de regularite homogeneou non-homogene (� pics et bosses �)

partitions dyadiques issues de l’arbre maximal CART ? ? ? (pas de resultatd’approximation : famille de partitions construite a partir des donnees)

Reduction de la dimension

Pour reduire la dimension, selectionner parmi des modeles avec contrainte destructure.

Exemples :

regression lineaire : g(x) = β>x, β ∈ Rp a estimer ;

regression single-index : g(x) = h(β>x), h : R→ R et β ∈ Rp a estimer ;

regression additive :g(x) = h1(x (1)) + . . . hp−1(x (p−1)), hj : R→ R, j = 1 . . . p − 1, a estimer ;

reseaux de neurones a une couche cachee([Barron, 1994, Hastie et al., 2009]) : g(x) =

∑Dj=1 βjψ(w>j x + bj), ψ

fonction d’activation donnee, D nombre de neurones, wj ∈ Rp−1 poids duje neurone, bj ∈ R biais du du je neurone.

Que faire si les erreurs ne sont pas gaussienneset en particulier

erreurs sous-exponentielles ? de variance infinie ? aqueue lourde ?

Petit detour par l’EMV dans le modele d’echantillonnage

Maximisation de la vraisemblance dans le modele d’echantillonnage :

Yi = β + εi , i = 1, . . . , n

ou ε1, . . . , εn i.i.d.

Cas ou εi ∼ N (0, σ2) (σ connu)

β = argmaxc∈R

L(c; Y) = argminc∈R

‖Y − c1In‖2 = Yn (moyenne empirique)

Cas ou εi ∼ Lap(0, b) (b connu), loi de Laplace centree de variance 2b2, i.e. dedensite

fε(x) =1

(−|x |

)β = argmax

c∈RL(c; Y) = argmin

c∈R‖Y − c1In‖`1

Petit detour par l’EMV dans le modele d’echantillonnage

Remarque sur la moyenne et la mediane theoriques : pour Z v.a. reelle

E(Z) = argmint∈R

E[(Z − t)2

]Med(Z) = argmin

t∈RE [|Z − t|]

Decroissance des queues : exemples

Principaux types de queue de repartition

decroissance des queues sous-gaussienne (exemple : normale N (0, 1))

decroissance des queues sous-exponentielle (exemple : Lap(0, 1/√

2) ouLaplace centree de variance 1)

decroissance des queues polynomiale/queues lourdes (exemple :Cauchy(0, 1) ou Cauchy standard de mediane nulle)

-4 -2 0 2 4

Densite

-4 -2 0 2 40.0

N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)

Figure 1 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)

des lois N (0, 1),Lap(0, 1/√

2), Cauchy(0, 1)

2.0 2.5 3.0 3.5 4.0 4.5 5.0

Densite

2.0 2.5 3.0 3.5 4.0 4.5 5.00.00

Figure 2 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)

des lois N (0, 1),Lap(0, 1/√

2), Cauchy(0, 1) : zoom

Regression robuste

Cadre :

Y = Xβ + ε

Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe

1In | X(1) | . . . | X(p−1))

matrice n × p deterministe connue

β = (β0 β1 . . . βp−1)> vecteur colonne de p × 1 a estimer

ε = (ε1 . . . εn)> vecteur aleatoire n × 1 non observe

Hypotheses supplementaires

1 ε1, . . . , εn i.i.d. de mediane Medβ(εi ) = 0

2 X de rang plein (identifiabilite)

Remarques : En notant Medβ(Y) = (Medβ(Y1) . . .Medβ(Yn))>

Medβ(Y) = Xβ

Medβ(Y) = Xβ ⇔ β = (X>X )−1X>Medβ(Y)

Regression robuste

Regression par rapport a la mediane ou regression L1 (Median regression, LeastAbsolute Deviation regression)

βLAD = argminc∈Rp

n∑i=1

|Yi − (Xc)i |

= argminc∈Rp

n∑i=1

|Yi − c0 − c1xi1 − . . .− cp−1xip−1|

Problemes :

existence ? calcul ?

loi de βLAD , ... ?

Regression L1 : existence et calcul de βLAD

βLAD = argminc∈Rp

n∑i=1

ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)

ou ρ : x ∈ R 7→ |x | est convexe, mais pas strictement convexe

→ βLAD existe mais n’est pas necessairement unique→ βLAD solution d’un probleme de programmation lineaire avec contraintes

lineaires

Regression L1 : loi des estimateurs

Pas de resultat general sur la loi exacte de βLAD

Resultats asymptotiques difficiles

Intervalles de confiance ? Tests ? → bootstrap

D’autres types de regression robuste

De maniere generale,

βρ = argminc∈Rp

n∑i=1

ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)

ou ρ : R→ R+ fonction de perte au moins convexe et telle que ρ(0) = 0

Exemples :

regression quantile d’ordre τ ∈]0, 1[ :

ρQ,τ (t) = t(τ − 1It≤0) =

{t(τ − 1) si t ≤ 0tτ sinon.

(seulement convexe sur R ; minimisation par programmation lineaire)

regression de Huber : pour γ > 0,

ρH,γ(t) =

{12t2 si |t| ≤ γγ|t| − 1

2γ2 sinon.

(strictement convexe et C 1 sur R ; minimisation par programmationconique)

D’autres types de regression robuste

-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15

ρ γ(t)

Huber loss function with cutpoint γ = 0.05

t2 2Huber loss

Regression robuste : etude de cas

Packages R :

quantreg, pour la regression quantile (τ = 0.5 : mediane)

fonction rlm du package MASS, pour la regression de Huber

Donnees : Engel (1857)Depenses en alimentation (y) et revenus du foyer (x) pour n = 235 foyerseuropeens de la classe ouvriere

Figure 3 – Analyse des residus (studentises) de la regression par moindres carres

Histogram of rstudent(OLSreg)

rstudent(OLSreg)

Density

-10 -5 0 5

-3 -2 -1 0 1 2 3

Normal Q-Q Plot

Theoretical Quantiles

0 50 100 150 200-8

Residus studentises

Figure 4 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber

1000 2000 3000 4000 5000

Revenus du foyer

Reg L1Reg L2Reg Huber

Remarque : on peut aussi essayer la regression lineire sur donnees transfromees(ici regression de log(y) en log(x))

Figure 5 – Analyse des residus (studentises) de la regression par moindres carres surles donnees log-transformees

Histogram of rstudent(OLSregLog)

rstudent(OLSregLog)

Density

-4 -3 -2 -1 0 1 2

-3 -2 -1 0 1 2 3

Normal Q-Q Plot

Theoretical Quantiles

0 50 100 150 200

Residus studentises

Autre methode : transformation des donnees, ici regression de log(y) en log(x)

Figure 6 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber surles donnees log-transformees

500 1000 2000 5000

log(Revenus du foyer)

Reg L1Reg L2Reg Huber

Selection de modele

Exemples introductifs

Exemple 1 : Regression polynomiale

Donnees :yi ≈ f (xi ), i = 1, . . . , n,

ou (xi ) connus et f inconnue.

Modelisation : f (bien approchee par un) polynome

Modele de regression lineaire polynomiale d’ordre p :

yi = β0 + β1xi + β2x2i + . . .+ βp−1x

p−1i + εi , i = 1, . . . , n

ou (εi ) i.i.d. N (0, σ2).

Question : Comment choisir le degre p − 1 ?

Exemples introductifs : regression polynomiale

Donnees simulees (cf. [Sakamoto et al., 1986])

Yi = f (xi ) + εi , i = 0, . . . , 20,

ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (εi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1

Illustration pour une realisation de Y = (Y0, . . . ,Y20)T :

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 7 – Nuage de points (xi , yi )0≤i≤20 ; En rouge : courbe de f (a estimer) ; Enbleu : ajustement par moindres carres de degre p − 1 = 1

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 8 – Degre p− 1 = 1 : les 10 droites d’ajustement par moindres carres

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 9 – Degre p− 1 = 2 : les 10 courbes d’ajustement par moindres carres

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 10 – Degre p− 1 = 3 : les 10 courbes d’ajustement par moindres carres

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 11 – p− 1 = 4 : les 10 courbes d’ajustement par moindres carres

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Figure 12 – p− 1 = 5 : les 10 courbes d’ajustement par moindres carres

Exemples introductifs

Exemple 2 : Jeu de donnees CreditEx (source [James et al., 2013])

n = 400 individusVariable a expliquer : Balance, dette moyenne sur la carte de creditVariables explicatives :

Income, revenus en milliers de dollars

Limit, limite de credit

Rating, score de credit

Age, age

Cards, nombre de cartes de credit

Education, nombre d’annees d’etudes

Gender, sexe

Student, etudiant ou non

Married, marie ou non

Question :Parmi les variables explicatives, lesquelles sont vraiment pertinentespour expliquer Balance ?

Cadre mathematique pour la selection de variables

Y = µ + ε

ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn

Modele complet : µ ∈ V ? = Vect{1In,X(1), . . . ,X(p−1)}, i.e.

Y = Xβ + ε

Famille de sous-modeles : Mexh ensemble des m ⊂ {0, 1, . . . , p − 1} tels0 ∈ m, modele complet m? = {0, 1, . . . , p − 1}

Estimation dans un sous-modele m : si µ ∈ V (m) = Vect{X(j), j ∈ m}, ouX(0) = 1In, alors

Y = X (m)β(m) + ε

|m| : nombre d’elements de m (dimension du modele)

X (m) concatenation des colonnes X(j), j ∈ m, matrice n × |m|, avecX(0) = 1In

β(m) = (βj)j∈m vecteur colonne |m| × 1

Estimation par moindres carres dans le sous-modele m :On a V (m) = Im(X (m)), on note H(m) = X (m)(X (m)>X (m))−1X (m)>

(matrice de projection orthogonale sur V (m))

Estimateur des moindres carres de β(m)

β(m) = argminu∈R|m|

‖Y − Xu‖2 = (X (m)>X (m))−1X (m)>Y

Valeur ajustee (ou valeur predite) de Y :

Y (m) = argminv∈V (m)

‖Y − v‖2 = H(m)Y = X (m)β(m)

Residus :ε(m) = (In − H(m))Y = (In − H(m))ε

Carre moyen residuel :

σ2(m) =‖ε(m)‖2

n − |m| .

Proposition (Estimation par moindres carres dans le sous-modele m)

On suppose X (m?) reguliere et ε ∼ Nn

(0, σ2In

)(i.e. erreurs gaussiennes

centrees, independantes, homoscedastiques), alors pour tout m ∈Mexh, siµ ∈ m,

(i) β(m) ∼ N|m|(β(m), σ2(X (m)>X (m))−1

(ii) Y (m) ∼ Nn

(µ, σ2H(m)

), alors que Y ∼ Nn

(µ, σ2In

(iii) ε(m) ∼ Nn

(0, σ2(In − H(m))

), alors que ε ∼ Nn

(0, σ2In

(iv) Y (m) et ε(m) sont independants ;

(v) (n − |m|)σ2(m)/σ2 ∼ χ2(n − |m|).

Cas particulier de la regression polynomiale

Y = µ + ε

ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn

Soit p ordre maximal, Mord ensemble des mq = {0, . . . , q − 1}, q = 1, . . . , pNotation : Vq = Vect{1In,X(1), . . . ,X(q−1)} (dimVq = |mq| = q)

Sous-modele m1 : µ ∈ V1 i.e.

µi = β0 + εi , i = 1, . . . , n

Sous-modele m2 : µ ∈ V2 i.e.

µi = β0 + β1xi + εi , i = 1, . . . , n

Sous-modele mq : µ ∈ Vq i.e.

µi = β0 + β1xi + β2x2i + . . .+ βq−1x

q−1i + εi , i = 1, . . . , n

Modele complet mp : µ ∈ Vp i.e.

µi = β0 + β1xi + β2x2i + . . .+ βp−1x

p−1i + εi , i = 1, . . . , n

Comment choisir le meilleur modele ?

Coefficients de determination

Decomposition de la somme des carres

Somme des carres totale, SCT : ‖Y − Y 1In‖2

Somme des carres expliquee par le modele m, SCE (m) : ‖Y (m)− Y 1In‖2

Somme des carres residuelle, SCR (m) : ‖Y − Y (m)‖2

Equation d’analyse de la variance :

‖Y − Y 1In‖2 = ‖Y (m)− Y 1In‖2 + ‖Y − Y (m)‖2

Definition (Coefficient de determination dans le modele m)

R2(m) =SCE(m)

SCT= 1− SCR(m)

Cas particulier de la regression lineaire simple

Yi = β0 + β1xi + εi , i = 1, . . . , n

β0 = Y − β1x

β1 =covn(x ,Y )

varn(x)

R2 =cov2

n(x ,Y )

varn(x)varn(Y )

Retour a l’exemple 1

Donnees simulees (cf. [Sakamoto et al., 1986])

Yi = f (xi ) + ηi , i = 0, . . . , 20,

ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (ηi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1

Ajustement polynomial d’ordre q (modele mq)) :

Yi = β0 + β1xi + β2x2i + . . .+ βq−1x

q−1i + εi , i = 1, . . . , n

ou (εi ) i.i.d. N (0, σ2).

Table 1 – Valeur moyenne des coefficients de determination sur 100 simulations

Ordre q 1 2 3 4 5

R2(mq) moyen 0.481 0.798 0.815 0.823 0.833

Et de maniere generale ?

Definition (Coefficient de determination ajuste dans le modele m)

R2aj(m) = 1− SCR(m)/(n − |m|)

SCT/(n − 1)

Exemple 1 (suite)

Ordre q 1 2 3 4 5

R2(mq) moyen 0.481 0.798 0.815 0.823 0.833

R2aj(mq) moyen 0.454 0.776 0.782 0.778 0.776

Table 2 – Valeur moyenne des coefficients de determination sur 100 simulations

Test de Fisher (d’un sous-modele)

Cas particulier ou m0 = {0} et m1 = m? := {0, . . . , p − 1} (test designificativite globale du modele)

Y = µ + ε,µ = E(Y ) ∈ Rn

Hypotheses de test :

H0 : µ ∈ Vect{1In} contre H1 : µ ∈ V ? := Vect{1In,X(1), . . . ,X(p−1)}

Statistique de test :

T ? =‖Y (m?)− Y (0)‖2/(p − 1)

‖Y − Y (m?)‖2/(n − p)

Propriete (Test de Fisher global et coefficient de determination)

T ? =p − 1

n − p

R2(m?)

1− R2(m?)

Selection de variables par penalisation

Y = µ + ε, µ ∈ Rn, ε ∼ Nn(0, σ2In)

Justification heuristique de la selection de modele : pour m ∈Mexh, l’erreurd’estimation dans le modele m se decompose en

E[‖µ− Y (m)‖2

]= ‖µ− PV (m)(µ)‖2 + E

[‖PV (m)(µ)− PV (m)(Y )‖2

]= inf

v∈V (m)‖µ− v‖2 + σ2|m|

ou PV (m) projection orthogonale de Rn sur V (m)

Decomposition similaire pour l’erreur d’ajustement :

E[‖Y − Y (m)‖2

Criteres penalises classiques

Meilleur modele dans M au vu des donnees :

m = argminm∈M

{ Crit(m) + pen(m)}

ou Crit(m) decroıt avec |m| et pen(m) croıt avec |m|

CP de Mallows ([Mallows, 1973]) :

CP(m) =SCR(m)

− n + 2|m|

AIC (Akaike Information Criterion [Akaike, 1973]) :

AIC(m) = −2 ln L(Y , β(m), s2(m)) + 2|m| = n ln(2π) +n ln

(SCR(m)

)+ 2|m|

BIC (Bayes Information Criterion [Schwarz, 1978]) :

BIC(m) = −2 ln L(Y , β(m), s2(m))+ln(n)|m| = n ln(2π)+n ln

(SCR(m)

)+ln(n)|m|

Criteres penalises classiques

Notation : Mexh,q ensemble des sous-modeles contenant la constante et qcovariables

Algorithme exhaustif

1 Ajuster le modele m0 = {0} sans covariable.2 Pour q = 1, . . . , p − 1,

a) ajuster chaque modele contenant q covariables (et la constante) ;b) en deduire le meilleur modele mq avec q covariables, i.e.

mq = argminm∈Mexh,q

Crit(m).

3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Reduction de la complexite algorithmique : recherche pas apas

Idee : A partir du modele m0 = {0}, rajouter une seule variable a la fois.

Algorithme stepwise forward

1 Ajuster le modele m0 = {0} sans covariable.2 Pour k = 0, . . . , p − 2, partant du modele mk a k covariables

a) ajuster chacun des p − 1− k modeles obtenus en rajoutant une seulecovariables a mk ;

b) choisir le meilleur modele mk+1 parmi ces p − 1− k modeles, i.e. celui quiminimise Crit(m).

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Reduction de la complexite algorithmique

Idee : A partir du modele complet mp−1 = {0, 1, . . . , p − 1}, enlever une seulevariable a la fois.

Algorithme stepwise backward

1 Ajuster le modele complet mp−1 = {0, 1, . . . , p − 1} (avec toutes lescovariables et la constante).

2 Pour k = p − 1, . . . , 1, partant du modele mk a k covariablesa) ajuster chacun des k modeles en enlevant une seule covariable a mk ;b) choisir le meilleur modele mk−1 parmi ces k modeles, i.e. celui qui minimise

Crit(m).

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Reduction de la complexite algorithmique

Idee : Combiner les approches forward et backward

Algorithme stepwise hybride

1 Ajuster le modele m0 = {0} sans covariable.

2 Ajouter la covariable la plus pertinente au modele.

3 Enlever les covariables inutiles.

4 . . .

Complexite des algorithmes de selection

Nombre de covariables : p − 1

Nombre de sous-modeles :

recherche exhaustive : 2p−1

recherche forward (ou backward) : 1 + p(p − 1)/2

Table 3 – Nombre de sous-modeles a explorer

p − 1 5 10 20 50 100

2p−1 32 1024 1.05× 106 1.13× 1015 1.27× 1030

1 + p(p − 1)/2 16 56 211 1276 5051

Quel critere de selection ? Quelle famille de modeles ?

L’approche Birge-Massart [Massart, 2008](minimisation approchee du risquequadratique)

Etant donnee une famille de modeles M fixee a priori, choisir

pen(m) ≈ L(|m|)|m|

ou L(|m|) ≥ 0 tels que ∑m∈M

exp(−|m|L(|m|)) ≤ 1.

Par exemple, pour tout D ∈ N?, et m ∈MD

L(|m|) = ln(2) +ln(|MD |)

ou MD = {m ∈M | |m| = D}.

Selection exhaustive : L(|m|) = ln(2) + ln(ep/|m|) (p dimension du plus grandmodele, p ≤ n)Selection ordonnee : L(|m|) = ln(2) pour tout m

Quel critere de selection ? Quelle famille de modeles ?

Remarques :

en regression lineaire gaussienne, CP et AIC ont des comportementssimilaires

choix du critere en selection forward, backward, stepwise ? ? ? (la structurede la famille de modeles a explorer n’est pas connue a priori)

references complementaires :[Azaıs and Bardet, 2012, Burnham and Anderson, 2002,Burnham and Anderson, 2004, Cornillon and Matzner-Løber, 2010,Lebarbier and Mary-Huard, 2006, McQuarrie and Tsai, 1998]

Ridge, LASSO, Elastic-net

Cadre et motivation

Modele avec la constante (intercept) et p − 1 covariables

Yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n

i.e.Y = Xβ + ε

Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe (variable a expliquer)

1In | X(1) | . . . | X(p−1))

matrice n × p deterministe connue, ou

X(j) = (x1j . . . xnj)> vecteur n × 1 (je predicteur/covariable/variable

explicative)

β := (β0 β1 . . . βp−1)> vecteur colonne p × 1 a estimer (coefficients)

ε = (ε1 . . . εn)> ∼ Nn(0, σ2In) vecteur aleatoire n × 1 non observe (bruit)

Cadre et motivation

MAIS X n’est plus necessairement reguliere

p ≤ n mais les colonnes de X sont correlees

p > n, voire p >> n, donc les colonnes de X sont correlees

Regression Ridge [Hoerl and Kennard, 1970a,Hoerl and Kennard, 1970b]

Idee : Meme si X>X n’est pas inversible, X>X + λIp, ou λ > 0, l’est toujours.

Propriete

Soit λ > 0, si X>X a pour valeurs propres α1 ≥ . . . ≥ αp ≥ 0 et pour vecteurspropres associes v1, . . . , vp, alors X>X + λIp a pour valeurs propresα1 + λ ≥ . . . ≥ αp + λ ≥ λ et pour vecteurs propres associes v1, . . . , vp.

Definition

L’estimateur Ridge associe a la constante λ > 0 est

βR(λ) = (X>X + λIp)−1X>Y .

Remarques :

si λ→ 0 et X reguliere, alors βR(λ)→ βR(0) = βMCO

si λ→ +∞, alors βR(λ)→ 0

si X est orthogonale, alors βR(λ) = βMCO/(1 + λ).

Biais et variance et risque de l’estimateur Ridge

Propriete (biais et matrice de covariance de βR(λ) )

E[βR(λ)

]− β = −λ(X>X + λIp)−1β

Var(βRλ)

)= σ2(X>X + λIp)−1X>X (X>X + λIp)−1

Propriete (comparaison avec βMCO)

Si X est reguliere,

Var(βMCO

)−Var

(βR(λ)

)= σ2(X>X+λIp)−1

(2λIp + λ2(X>X )−1

)(X>X+λIp)−1

Si X est orthogonale,

E[‖βMCO − β‖2

]= σ2p

E[‖βR(λ)− β‖2

(1 + λ)2||β||2 +

(1 + λ)2

donc il existe λ > 0 tel que E[‖βR(λ)− β‖2

[‖βMCO − β‖2

Definitions equivalentes de l’estimateur Ridge

βR1(λ1) = argminβ∈Rp

(yi − β0 −

p−1∑j=1

βjxij

p−1∑j=1

βR2(λ2) = argminβ∈Rp

(yi − β0 −

p−1∑j=1

βjxij

sous la contraintep−1∑j=1

β2j ≤ λ2

Propriete

Il existe λ, λ1, λ2 > 0 tels que βR(λ) = βR1(λ1) = βR2(λ2).

Questions pratiques sur l’estimateur Ridge

Centrage et reduction des donneesLe Ridge est sensible aux changements d’echelle.Travail preliminaire :

centrage et reduction de chaque covariable

xij ←xij − xj√

∑ni=1(xij − xj)2

, i = 1, . . . , j = 1, . . . , p − 1

centrage, eventuellement reduction, de la variable a expliquer

yi ←yi − y

σy, i = 1, . . . n

regression Ridge de Y sur X → βR(κ)

retour a l’estimation ou a la prevision dans le modele de depart

yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n

par transformations affines :

Y (κ) = Y 1In + σy X βR(κ) = X βR(κ).

Differents packages

fonction lm.ridge du package MASS

fonction glmnet avec l’option alpha=0 du package glmnet

Verifier dans la documentation si les covariables et/ou la variable a expliquersont recentrees et/ou normalisees.Dans glmnet, par defaut, les variables explicatives et a expliquer sont toutesrecentrees et renormalisees, mais les coefficients en sortie sont bien dansl’echelle d’origine.

Choix du λ ?Crucial ! βR(λ) et ses performances dependent fortement du λSelection du λ par reechantillonnage (validation croisee ou bootstrap) pourminimiser une estimation de l’erreur de prediction

Autres methodes : voir par exemple [Cornillon and Matzner-Løber, 2010]

Idee generale : chercher β(λ) ∈ Rp qui minimise

n∑i=1

(yi − β0 −

p−1∑j=1

βjxij

p−1∑j=1

|βj |q

i.e. qui minimise∑n

(yi − β0 −

∑p−1j=1 βjxij

sous la contrainte

p−1∑j=1

|βj |q ≤ λ1

q = 2 : Ridge [Hoerl and Kennard, 1970a, Hoerl and Kennard, 1970b]

q = 1 : LASSO (Least Absolute Shrinkage and SelectionOperator) [Tibshirani, 1996]

q = 0 : ||β||`0 =∑p−1

j=1 1I|βj |6=0

Remarque : ||β||q`q est

convexe ssi q ≥ 1

differentiable ssi q > 1

deux fois differentiable ssi q ≥ 2

LASSO : proprietes de selection

Cas particulier : X = In (n = p) et pas d’intercept

Minimisation de∑n

i=1(yj − βj)2 : βMCj = yj

Minimisation de∑n

i=1(yj − βj)2 + λ∑p

j=1 β2j : βR

j (λ) = yj/(1 + λ)

Minimisation de∑n

i=1(yj − βj)2 + λ∑p

j=1 |βj | :

βL(λ) =

yj − λ/2 si yj > λ/2yj + λ/2 si yj < −λ/20 si |yj | ≥ λ/2

En particulier, contrairement au Ridge, le LASSO met certains coefficients a 0 :selection de modeles !

Remarques

LASSO efficace notamment dans un cadre de grande dimension ”sparse” :p >> n mais beaucoup de βj sont proches de 0

LASSO sensible a la correlation entre covariables ; intermediaire entre leRidge et le LASSO : βelastic net(λ1, λ2) [Zou and Hastie, 2005] minimise

n∑i=1

(yi − β0 −

p−1∑j=1

βjxij

p−1∑j=1

|βj |+ λ2

p−1∑j=1

pas de formule matricielle explicite pour le LASSO ou l’elastic-net ...

... MAIS problemes d’optimisation convexe (algorithmes d’approximationperformants)

Choix des λ ? par validation croisee par exemple

Ridge, LASSO, .... : pas de theorie sur les tests et les intervalles deconfiance (choix du λ aleatoire)

Regression logistique

Regression logistique : motivation

En regression lineaire, si la variable a expliquer est continue, on modelise sonesperance comme une fonction lineaire des variables explicatives :

Yi = β0 + β1x1i + . . .+ βp−1x

(p−1)i + εi

ou E(εi ) = 0. Si l’on considere que x est la realisation d’une variable aleatoireX independante de ε, ceci se traduit par

E(Y |X = x) = β0 + β1x1i + . . .+ βp−1x

(p−1)i .

Si la variable Y a predire est une variable categorielle a deux modalites 0 et 1(Bernoulli), alors

E(Y |X = x) = P(Y = 1|X = x) =: π(X = x)

(probabilite a posteriori d’appartenance a la classe 1).

→ π(X = x) ∈ [0, 1] : ne peut etre modelisee comme une fonction lineaire descovariables !

Regression logistique binomiale

Transformation logit : La fonction

p ∈]0, 1[7→ logit(p) = lnp

1− p∈ R

est bijective, d’inverse

x ∈ R 7→ exp(x)

1 + exp(x)∈]0, 1[

(fonction sigmoıdale, i.e. en forme de S)

Rapport de cotes (odds ratio) :

1− π(x)=

P(Y = 1|X = x)

P(Y = 0|X = x)

Regression logistique (binomiale) : on modelise le log-rapport de cotes parune fonction lineaire :

logit (π(x)) = β0 + β1x1i + . . .+ βp−1x

(p−1)i

ce qui implique

π (x) =exp

(β0 + β1x

1i + . . .+ βp−1x

(p−1)i

)1 + exp

(β0 + β1x1

i + . . .+ βp−1x(p−1)i

Variables explicatives

Comme pour la regression multiple, il est possible d’integrer des variablesexplicatives de differentes natures dans le modele :

1 variables quantitatives (continues) ;

2 variables categorielles ou facteurs a l’aide de variables ”dummy” (C − 1indicatrices pour un facteur a C niveaux) ;

3 variables d’interaction entre variables categorielles et quantitatives(variables produits xkx`).

Estimation du modele de regression logistique binomiale

La variable Y possede deux modalites 0 et 1. On a θ = β1 = β etπ0(θ, x) = 1− π1(θ, x). La log vraisemblance verifie

log vrais(β) =n∑

yiβ>xi − log

[1 + exp

(β>xi

)]On resout le systeme de p + 1 equations

d log vrais(β)

n∑i=1

[yi −

exp(β>xi

)1 + exp (β>xi )

a l’aide d’un algorithme de Newton-Raphson.

Selection d’un meilleur modele predictif en regressionlogistique

Comme en regression multiple, il s’agit de determiner un bon sous-ensemble depredicteurs dans une famille de variables disponibles.

Le critere AIC d’un modele m a pour expression

AIC(m) = −2 log (vrais(m)) + 2|m|= Λ(m) + 2|m|

ou vrais(m) est la vraisemblance du modele m, et |m| le nombre de parametresde ce modele.

Critere BIC :

BIC(m) = Λ(m) + ln(n)|m|

Pour faire de la selection de variables en grande dimension (glmnet)

LASSO (p ≥≥ n mais peu de variables vraiment significatives)

Elastic-Net (p ≥≥ n, peu de variables vraiment significatives, covariableseventuellement correlees)

Tests et intervalles de confiance en regression logistique

Deuxieme point de vue sur la regression logistique : modele de regressionlineaire generalisee (GLM [McCullagh and Nelder, 1989])→ voir cours

Consequence : resultats generaux sur l’estimation par maximum devraisemblance→ construction d’intervalles de confiance asymptotiques et de tests designificativite (tests de Wald) pour un parametre, qui remplacent les tests etintervalles de confiance de Student du cas gaussien.

Bibliographie I

Akaike, H. (1973).Information theory and an extension of the maximum likelihood principle.pages 267–281.

Azaıs, J.-M. and Bardet, J.-M. (2012).Le modele lineaire par l’exemple : regression, analyse de la variance etplans d’experiences illustres avec R et SAS.Dunod.

Barron, A. R. (1994).Approximation and estimation bounds for artificial neural networks.Machine learning, 14(1) :115–133.

Burnham, K. P. and Anderson, D. R. (2002).Model selection and multimodel inference.Springer-Verlag, New York, second edition.A practical information-theoretic approach.

Burnham, K. P. and Anderson, D. R. (2004).Multimodel inference : understanding AIC and BIC in model selection.Sociol. Methods Res., 33(2) :261–304.

Bibliographie II

Cornillon, P.-A. and Matzner-Løber, E. (2010).Regression avec R.Springer.

Hastie, T., Tibshirani, R., and Friedman, J. (2009).The elements of statistical learning.Springer Series in Statistics. Springer, New York, second edition.Data mining, inference, and prediction.

Hoerl, A. E. and Kennard, R. W. (1970a).Ridge regression : applications to nonorthogonal problems.Technometrics, 12(1) :69–82.

Hoerl, A. E. and Kennard, R. W. (1970b).Ridge regression : Biased estimation for nonorthogonal problems.Technometrics, 12(1) :55–67.

James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013).An introduction to statistical learning, volume 103 of Springer Texts inStatistics.Springer, New York.With applications in R.

Bibliographie III

Lebarbier, E. and Mary-Huard, T. (2006).Une introduction au critere BIC : fondements theoriques et interpretation.J. Soc. Fr. Stat., 147(1) :39–57.

Mallows, C. L. (1973).Some comments on c p.Technometrics, 15(4) :661–675.

Massart, P. (2008).Selection de modele : de la theorie a la pratique.J. Soc. Fr. Stat. & Rev. Stat. Appl., 149(4) :5–27.

McCullagh, P. and Nelder, J. A. (1989).Generalized linear models.Monographs on Statistics and Applied Probability. Chapman & Hall,London.Second edition [of MR0727836].

McQuarrie, A. D. R. and Tsai, C.-L. (1998).Regression and time series model selection.World Scientific Publishing Co., Inc., River Edge, NJ.

Bibliographie IV

Sakamoto, Y., Ishiguro, M., and Kitagawa, G. (1986).Akaike information criterion statistics, volume 1 of Mathematics and itsApplications (Japanese Series).D. Reidel Publishing Co., Dordrecht ; SCIPRESS, Tokyo.With a preface by Tosio Kitagawa, Translated from the Japanese.

Schwarz, G. (1978).Estimating the dimension of a model.Ann. Statist., 6(2) :461–464.

Tibshirani, R. (1996).Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society. Series B (Methodological), pages267–288.

Zou, H. and Hastie, T. (2005).Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society : Series B (StatisticalMethodology), 67(2) :301–320.

Éléments de statistique régression 2/2 · remarque sur la moyenne et la m ediane th eoriques :...

Documents

Évaluation unité 6 - web viewse quita la –er y se...

iiii-- ± zzzz ± z z z zzzz ± zzzz z · zzzz zzzz z > o...

notes de cours d’analyse r eelle i olivier...

o o o o o x e o o o o o o o o o c o o o o o il a o o o e o...

l’ z ~ : z z « £ ~ » ? chapitre 1. le processus dans

exercices spécialité géométrie - page de travail de...

indicateurs de colmatage - transmission expert ·...

construction -...

a a a a - la boîte à génies · zz zèbre zz z z1 2 3 1 m...

5 €«z]¹ z»yc zËyÁ•{•Â»•{É...

z sh w ^^z - grandtigre.fr

1.0 renvois d'angle z 1.0 reenvÍos angulares z z 1.0

guide d’amÉnagement des terrains …...z z z z 7 z guide...

· 2021. 1. 4. · o o z z o z < o z m 00 00 0000 00 0000...

plus-de-details.com · too boo — o —o too o z i ill z o...

· z o cd g) < < 0000000000 00 0 0 0 z zzz z z zzz zzzz z...

pcch107 2011 chimie1 17 fev€¦ · tx¶lo d pwp dphqp j...

formats de jeu orange achard t2r mercredi 17 juin 2015 g & f...

o o o o o x e o o o o o o o o o c o o o o o il a o o o e o...

cybertesis.uni.edu.pecybertesis.uni.edu.pe/bitstream/uni/2110/1/lopez_rr.pdf ·...