ise: introduction à la statistique et à...
TRANSCRIPT
ProblematiqueAutomobile
0
25
50
75
100
125
5 10 15 20 25speed
dist
Predire la distance de freinage en fonction de la vitesse sans avoirune formule en tete !
ProblematiqueGeyser
3.600 1.800 3.333 2.283 4.533 2.883 4.700 3.600 1.950 4.350 1.8333.917 4.200 1.750 4 .700 2.167 1.750 4.800 1.600 4.250 1.800 1.750
...
Donner la distributions des durees des eruptions du geyser Oldfaithful sans en avoir de modelisation parametrique...
Regression non parametriqueModelisation
yi = f (xi ) + σεi avec f une fonction (non necessairement lineaire) etεi un bruit centre reduit (gaussien le plus souvent).
Modele non parametrique car f est une fonction !
Comment choisir une fonction f pour que
la difference avec f soit petite ?la prediction f (x) soit proche de l’observation y ?
Cas classique : proximite mesure en distance L2.
Dans ce cas, Les deux criteres precedents sont les memes : a x fixe,
E[|f (x)− y |2
]= |f (x)− f (x)|2 + σ2
Methode de type moindre carre
Regression non parametiqueCritere de qualite
Pour simplifier, Xi i.i.d.
Erreur integre :
E[|f (X )− f (X )|2
]Erreur empirique :
1
n
n∑i=1
|f (xi )− yi |2
Si f est independant des donnees,
E
[1
n
n∑i=1
|f (xi )− yi |2]
= E[|f (X )− f (X )|2
]+ σ2
Regression non parametriqueModeles pour f
Modelisation parametrique : choix de f parmi une famille specifiepar un nombre fini de parametres.
Modelisations parametriques et selection : critere AIC / validationcroisee
Modelisation non-parametrique : modele non specifie (a priori) parun nombre fini de parametres.
En fait, on devrait plutot dire que le nombre de parametresaugmente avec le nombre d’observations...
Nombreuses modelisations non-parametriques : regressions locales,regressions par morceaux, splines, projection dans des bases...
Regression non parametriqueRegression locale
Idee simple : remplacer une regression (lineaire) globale par desregressions (lineaires) localesVersion primitive : En tout point x ,
on determine l’ensemble des points des donnees a distance inferieur a hde x ,on calcul une regression locale (lineaire) en ces points
(αx , βx) = arg min(α,β)
∑xid(x,xi )≤h
|αxi + β − yi |2
on utilise pour f (x) la valeur predite en x : f (x) = αxx + βxVersion amelioree en ponderant les points par une poidK ((x − xi )/h) dependant de la distance entre x et xi :
(αx , βx) = arg min(α,β)
∑xi
K
(x − xi
h
)|αxi + β − yi |2
K est appele le noyau et h la largeur de bande.On est ramene au cas precedent par le choix K (x) = 1|x |≤1.
Regression non parametriqueErreur empirique
100
150
200
250
300
1 2 3param
V1
Erreur empirique :
1
n
n∑i=1
|f (xi )− yi |2
Meilleur choix : plus petite largeur de bande ?Surapprentisage
Regression non parametriqueValidation croisee
100
150
200
250
300
1 2 3param
V1
Principe : Donnees coupees en 2 morceaux1 utilise pour l’apprentissage1 utilise pour le calcul de l’erreur
Plus de surapprentisage
Meilleur choix : plus grande largeur de bande !
Regression non parametriqueAnalyse dans un cas simple
Regression de degre 0 :
βx = arg minβ
∑xi
K (x − xi
h)|β − yi |2
Solution explicite !
βx =
∑xiK(x−xih
)yi∑
xiK(x−xih
)Erreur en prenant f (x) = βx :
∆(x) =
∣∣∣∣∣∑
xiK(x−xih
)yi∑
xiK(x−xih
) − f (x)
∣∣∣∣∣2
=
∣∣∣∣∣∑
xiK(x−xih
)f (xi )∑
xiK(x−xih
) − f (x)
+
∑xiK(x−xih
)σεi∑
xiK(x−xih
) ∣∣∣∣∣2
Regression non parametriqueAnalyse dans un cas simple
En passant a l’esperance,
E [∆(x)] =
∣∣∣∣∣∑
xiK(x−xih
)f (xi )∑
xiK(x−xih
) − f (x)
∣∣∣∣∣2
+ σ2∑
xiK 2(x−xih
)(∑xiK(x−xih
))2Compromis biais/variance...
Regression non parametriqueAutres methodes
Polynomes par morceaux
Decomposition dans des bases...
Extension possible en dimension superieur !
Estimation non parametriqueModelisation
Xi i.i.d. de loi f (x)dλ(x)
Hypothese d’existence de densite pas trop restrictive.
But : estimer f a partir de X1, . . . ,Xn de sorte que f soit proche def .
Critere le plus classique : divergence de Kullback-Leibler
KL(f , f ) =
∫− log
f (x)
f (x)f (x)dλ(x)
Lien avec la vraisemblance : si g est independant des donnees
KL(f , g) = E
[1
n
n∑i=1
− logg(Xi )
f (Xi )
]
= E
[−1
n
n∑i=1
log g(Xi )
]+ C (f )
Estimation non parametriqueModeles pour f
Modelisation parametrique : choix de f parmi une famille specifiepar un nombre fini de parametres.
Modelisations parametriques et selection : critere AIC / validationcroisee
Modelisation non-parametrique : modele non specifie (a priori) parun nombre fini de parametres.
En fait, on devrait plutot dire que le nombre de parametresaugmente avec le nombre d’observations...
Nombreuses modelisations non-parametriques : methodes a noyaux,projection dans des bases...
Estimation non parametriqueMethode a noyau
Observation : sous des hypotheses faibles
1
n
n∑i=1
h(Xi )→∫
h(x ′)f (x ′)dλ(x ′)
On prend h(x) = K(x−x ′h
)et on obtient
1
n
n∑i=1
K
(xXi
h
)→∫
K
(x − x ′
h
)f (x ′)dλ(x ′) = Kh ? f
Proprietes : sous des hypotheses faibles
Kh ? f →h→0 fLa variance du terme de droite augmente lorsque h tend vers 0
Phenomene de compromis biais/variance
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueLargeur de bande
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
eruptions
Den
sity
Estimation non parametriqueValidation croisee
220
240
260
280
0.05 0.10 0.15 0.20param
V1
Compromis biais/variance