estimateurs splines - mexico
TRANSCRIPT
Estimateurs splines
Christine Thomas-Agnan
Octobre 2006
Plan
Les fonctions splines polynomiales : pourquoi ?
Splines polynomiales : dénition et caractérisation
Optimalité des splines d'interpolation et de lissage
Théorie variationnelle des fonctions splines
Splines de moindres carrés en régression
Splines de lissage en régression
Splines hybrides en régression
P- Splines en régression
Modèles bayésiens
Choix du paarmètre de lissage
Splines adaptatives
Variable explicative multidimensionnelle
1
−5 −4 −3 −2 −1 0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Données et données bruitées
0 0.2 0.4 0.6 0.8 1−12
−10
−8
−6
−4
−2
0
2
4x 10
−14
0 0.2 0.4 0.6 0.8 1−2
−1.5
−1
−0.5
0
0.5
1
1.5
2x 10
−3
Impact du bruitage sur l'ap-
proximation
2
Dénition
Pour un intervalle [a, b], un entier r ≥ 1, un entier k, et une suite
de k points z1, . . . , zk dans [a, b], on appelle spline polynomiale
d'ordre r ayant pour noeuds simples les points z1, . . . , zk toute
fonction f de [a, b] dans R telle que :
f est continument dérivable jusqu'à l'ordre r − 2 (si r ≥ 2)
la restriction de f aux intervalles inter-noeuds
[a, z1], . . . , [zi, zi+1], . . . , [zk, b]
coincide avec un polynôme de degré inférieur ou égal à r − 1
3
Cet ensemble de fonctions sera noté Sr(z1, . . . , zk). Il contient
l'ensemble des polynômes de degré inférieur ou égal à r − 1.
Pour r = 2, une spline d'ordre 2 est donc une fonction continue
et linéaire par morceaux.
Les splines les plus fréquemment utilisées sont les splines d'ordre
4 dites splines cubiques.
4
Théorème
Sr(z1, . . . , zk) est un sous espace vectoriel de l'espace des fonc-
tions dérivables jusquà l'ordre r−2 dont une base est donnée par
les fonctions 1, x, . . . , xr−1 et les fonctions
(x− z1)r−1+ , . . . , (x− zk)
r−1+ .
dim(Sr(z1, . . . , zk)) = r + k
Cette base n'est pas adaptée au calcul. Une base plus adaptée
est celle constituée par les B-splines en raison de leur support
compact : plus précisément, la B-spline Bi est nulle en dehors
de l'intervalle [zi, zi+r], mais leur formule est complexe.
5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−0.2
0
0.2
0.4
0.6
0.8
1
1.2Une base de B−splines cubiques
6
Exemple : f(x) = x2 pour 0 ≤ x < 1/4,
f(x) = x/2− 1/16 pour 1/4 ≤ x < 1/2,
f(x) = x2 − x/2 + 3/16 pour 1/2 ≤ x < 3/4,
et f(x) = 2x2 − 2x + 3/4 pour 3/4 ≤ x ≤ 1.
c'est une fonction spline d'ordre 3 sur l'intervalle [0,1]
Décomposition dans la base canonique du théorème
f(x) = x2 − (x− 1/4)2+ + (x− 1/2)2+ + (x− 3/4)2+.
7
Splines naturelles
On appelle spline naturelle d'ordre 2r ayant pour noeuds les
points z1, . . . , zk toute spline de
S2r(z1, . . . , zk) qui coincide avec un polynôme de degré inférieur
ou égal à r−1 en dehors de l'intervalle [z1, zk]. Par exemple, une
spline cubique naturelle est une spline cubique linéaire sur [a, z1]
et sur [zk, b].
La dimension de S2r(z1, . . . , zk) est égale à k.
8
Représentation g − γ des splines cubiques naturelles. per-met une démonstration facile des propriétés d'optimalité et unemanipulation aisée de cet outil pour la programmation.
le vecteur g des valeurs de la spline aux noeuds
g = (s(z1), · · · , s(zk)) ∈ Rk (1)
le vecteur γ des dérivées secondes aux noeuds
γ = (s”(z2), · · · , s”(zk−1)) ∈ Rk−2 (2)
Q et R, de terme général respectifs qij et rij sont déniessimplement à partir des noeuds par
hi = zi+1 − zi(3)
qj−1,j =1
hj−1, qj+1,j =
1
hj, qj,j = −
1
hj−1−
1
hj, qj,l = 0si | j − l |> 1(4)
rii =1
3(hi−1 + hi), ri,i+1 = ri+1,i =
hi
6, ri,j = 0si | j − i |> 1(5)
9
Un couple (g, γ) ∈ Rk × Rk−2 dénit une spline cubique naturelle
si et seulement si
Q′g = Rγ, (6)
Sous la condition (6), on a∫ b
a(s”(t))2dt = γ′Rγ = g′QR−1Q′g.
10
Espaces de Sobolev Une fonction f est absolument continue
s'il existe un réel a et une fonction intégrable g tels que
f(t) =∫ t
ag(s)ds.
Pour les besoins de ce cours, on dira que l'espace de Sobolev
Wm(a, b) est l'ensemble des fonctions f sur [a, b] telles que f(p)
est absolument continue et de carré intégrable pour p = 0, . . . m−1 et telles que f(m) est de carré intégrable.
Dans l'espace de Sobolev Wm(a, b), on peut
"mesurer" la régularité d'une fonction f par
J(f) =∫ b
af(m)(t)2dt
12
Splines d'interpolation Résoudre un problème d'interpolation
pour un ensemble de n points (ti, yi), c'est chercher une fonction
"régulière" f qui satisfait
f(ti) = yi, i = 1, . . . , n.
Les polynômes d'interpolation de Lagrange sont une solution
particulière à ce problème, les splines d'interpolation en sont une
autre.
13
Un exemple : la gure repré-
sente une fonction spline cu-
bique d'interpolation pour les
points ti = 0.1,0.4,0.7,0.9 et
yi = 1,3,2,6.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1
0
1
2
3
4
5
6
7
8
9
14
Existence et unicité des splines d'interpolation
Etant donnés n points (ti, yi), d'abscisses distinctes dans l'in-
tervalle (a, b) et n ≥ m, il existe une fonction et une seule f∗ del'espace de Sobolev Wm(a, b) telle que
1) f∗ satisfait les conditions d'interpolation
f∗(ti) = yi, i = 1, · · ·n
2) f∗ minimise la quantité∫ ba f(m)(t)2dt dans l'ensemble des fonc-
tions de Wm(a, b) qui satisfont les conditions d'interpolation.
De plus, cette fonction est une spline polynomiale naturelle d'ordre
2m ayant pour noeuds les points t1, . . . , tn.
15
On peut assouplir les conditions d'interpolation en les remplaçant
parn∑
i=1
(yi − f(ti))2 ≤ ε, (7)
pour un paramètre ε xé correspondant au degré d'assouplis-
sement souhaité. La théorie des variations permet de montrer
que la minimisation de J(f) sous la contrainte (7) équivant au
problème d'optimisation sans contrainte suivant
minf∈Wm(a,b)
n∑i=1
(yi − f(ti))2 + λ
∫ b
a(f(m)(t))2dt,
où ε dépend (de façon complexe) de λ.
16
Existence et unicité des splines de lissage
Etant donnés n points (ti, yi), d'abscisses distinctes dans l'inter-
valle [a, b], un entier m ≤ n, et un réel λ > 0, il existe une fonction
et une seule f∗ de l'espace de Sobolev Wm(a, b) qui minimise la
quantitén∑
i=1
(yi − f(ti))2 + λ
∫ b
a(f(m)(t))2dt,
dans l'ensemble des fonctions de Wm(a, b).
De plus, cette fonction est une spline polynomiale naturelle
d'ordre 2m ayant pour noeuds les points t1, . . . , tn.
17
Exemples de splines de lissage
λ = (1− exp(−10−p)) exp(10−p)
18
pour p = 1,2,3,4 0 0.2 0.4 0.6 0.8 10
1
2
3
4
5
6lambda=0.10517
0 0.2 0.4 0.6 0.8 10
1
2
3
4
5
6lambda=0.01005
0 0.2 0.4 0.6 0.8 10
2
4
6
8lambda=0.0010005
0 0.2 0.4 0.6 0.8 10
2
4
6
8
10lambda=0.00010001
Calcul des splines de lissage et d'interpolation
- En utilisant les noyaux reproduisants :
s(t) =n∑
i=1
µiK∗(., ti) +
m∑j=1
γjPj(t),
où Σλµ + Dγ = YD′µ = 0
(8)
avec
Σλ la matrice n×n d' éléments < K∗(., ti), K∗(., tj) >Wm +λδij,
D la matrice n× n d' éléments < Pk, K∗(., ti) >Wm,
K∗ le semi-noyau du RKHS Wm
K∗(s, t) =(−1)m
2(2m− 1)!| s− t |2m−1 .
19
- En utilisant la représentation g− γ et l'algorithme de Reinsch :
g = (I + λQR−1Q′)−1Y
ou encore
(R + λQ′Q)γ = Q′Y,
où Q et R sont des matrices bandes d'ordre 3, et R + λQ′Q est
bande d'ordre 5.
Théorie variationnelle des fonctions splines
Trois espaces de Hilbert H, A, B, deux applications linéaires bor-nées A : H −→ A et B : H −→ B et un élément a ∈ A spline d'interpolation pour les données a, l'application linéaire
A et la mesure d'énergie B
σ∗ = arg minσ∈H:Aσ=a
‖ Bσ ‖2B
spline de lissage pour les données a, l'application linéaire A, la
mesure d'énergie B et le paramètre ρ > 0
σ∗ = argminσ∈H
‖ Aσ − a ‖2A +ρ ‖ Bσ ‖2B.
20
Espaces à noyaux reproduisants
Une fonction
K : T × T −→ C(s, t) 7−→ K(s, t)
est un noyau reproduisant pour l'espace de Hilbert H si et seule-
ment si
a) ∀t ∈ T, K(., t) ∈ Hb) ∀t ∈ T, ∀ϕ ∈ H < ϕ, K(., t) >= ϕ(t).
21
Exemple : L'espace de Sobolev Wm(0,1) muni de la norme
‖u‖2 =m−1∑k=0
u(k)(0)2 +∫ 1
0u(m)(t)2dt, (9)
a pour noyau reproduisant
K(s, t) =m−1∑k=0
tksk
k!2+
∫ 1
0
(t− w)m−1+ (s− w)m−1
+
(m− 1)!2dw.
22
Splines de moindres carrés pour la régression
Données (ti, yi), i = 1, · · · , n.
Etant donné un entier k, un entier p et k noeuds z1, . . . , zk, la
spline de moindres carrés d'ordre p ayant pour noeuds z1, . . . , zkest la solution de
mins∈Sp(z1,...,zk)
n∑i=1
(yi − s(ti))2
Si S1, . . . , Sp+k désigne une base de Sp(z1, . . . , zk), alors la solution
s du problème ci dessus s'écrit s(t) =∑p+k
j=1 θjSj(t), où les θj sont
solution de
min(θ1,...,θp+k)∈Rp+k
n∑i=1
(yi −p+k∑j=1
θjSj(ti))2
23
Splines de moindres carrés pour la régression
Si N est la matrice n×(p+k) contenant les Sj(ti); i = 1, . . . , n; j =
1, . . . , p + k, l'estimateur spline de régression est linéaire et sa
matrice chapeau s'écrit
H = N(N ′N)−1N ′
Remarque : Si l'on utilise une base de B-splines, la matrice N ′Nest une matrice bande ayant 2p− 1 diagonales non nulles.
Le paramètre de lissage est constitué de p, k et z1, . . . , zk. En
général, on prends p = 4 et des noeuds équirépartis ou bien aux
quantiles empiriques de la variable T , et il ne reste ainsi que le
nombre de noeuds k comme paramètre de lissage. k est entier
et varie dans l'intervalle [0, n− p].
24
Splines de moindres carrés pour la régression
Si k = n−p, l'estimateur est une spline d'interpolation. Si k = 0,
l'estimateur coincide avec l'ajustement polynomial de degré p−1.
Si la fonction m appartient à Sp(z1, ..., zk), l'ajustement est sans
biais et sinon la biais dépends de la diérence entre m et sa
projection sur Sp(z1, ..., zk).
L'estimateur spline de régression est convergent lorsque le nombre
de noeuds k tends vers l'inni avec le nombre d'observations n.
Il atteint la vitesse de convergence optimale lorsque la régression
m varie dans l'espace de Sobolev W l(0,1) c'est à dire n− 2l
2l+1
(Agarwal et Studden, 1980).
25
Splines de lissage pour la régression
Minimiser un critère de moindres carrés dans un espace de di-
mension innie conduirait à interpoler. On est donc conduit à
rajouter une pénalisation qui contrôle les oscillations.
Etant donné un réel λ > 0, la spline de lissage d'ordre 2m associée
à λ > 0 est la solution du problème
mins∈Wm(a,b)
n∑i=1
(yi − s(ti))2 + λ
∫ b
as(m)(t)2dt
Le rôle de λ est d'ajuster le compromis entre la proximité aux
données (premier terme) et la régularité globale de la fonction
(deuxième terme).
26
Splines de lissage pour la régression
Si S1, . . . , Sn désigne une base de l'espace des splines naturelles
de S2m(t1, . . . , tn), alors la solution s du problème ci dessus s'écrit
s(t) =∑n
j=1 θjSj(t), où les θj minimisent pour
(θ1, . . . , θn) ∈ Rn
n∑i=1
(yi −n∑
j=1
θjSj(ti))2 +
∫ b
a(
n∑j=1
θjS(m)j (t))2dt
Si N est la matrice n×n contenant les Sj(ti), pour i = 1, . . . , n; j =
1, . . . , n, Ω la matrice et n × n contenant les∫ ba S
(m)i (t)S(m)
j (t)dt
et θ = (θ1, . . . , θn)′, le problème s'écrit :
minθ∈Rn
(Y −Nθ)′(Y −Nθ) + λθ′Ωθ
27
Splines de lissage pour la régression D'après la théorie des
moindres carrés,
θ = (N ′N + λΩ)−1N ′Y
D'où l'estimateur spline de lissage est linéaire et la matrice cha-
peau s'écrit
H = N(N ′N + λΩ)−1N ′
En général, on utilise des splines cubiques correspondant à m =
2. Le paramètre de lissage est donc λ ∈ [0,+∞[.
Si λ −→ 0 (à n xé), la spline de lissage converge vers la spline
naturelle d'interpolation d'ordre 2m des points (ti, yi).
28
Si λ −→ +∞ (à n xé), la spline de lissage converge vers le
polynôme d'ajustement de degré m− 1.
Au lieu de λ, on peut utiliser le paramètre p déni par p = 11+λ ⇔
λ = 1−pp , alors
λ ∈ [0,+∞[⇔ p ∈]0,1].
Splines de lissage pour la régression
Convergence : Speckman (1985) montre sous certaines condi-
tions de régularité du design qu'une version du MISE, pondérée
par la densité du design, converge vers 0 lorsque λ tends vers
0 et nλ tends vers +∞. De plus, il montre que pour une suite
bien choisie de paramètres de lissage λn, l'estimateur spline de
lissage atteint la vitesse optimale de convergence en moyenne
qudratique intégrée lorsque la régression m varie dans l'espace
de Sobolev W l(0,1) c'est à dire n− 2l
2l+1.
29
Splines hybrides
Introduites par Kelly et Rice (1998). Combinaison entre splines
de régression et splines de lissage.
mins∈Sp(z1,...,zk)
n∑i=1
(yi − s(ti))2 + λ
∫ b
as(m)(t)2dt
30
P- Splines
Généralisation des splines hybrides (Eilers et Marx (1996), Rup-
pert, Wand et Carroll (2003)
minβ∈Rp∑n
i=1(yi − β′B(ti))2 + λ2β′Dβ,
où D matrice semi dénie positive.
choix de D :
Eilers et Marx (1996) noeuds équirépartis et pénalisation sur
les diérences d'ordre q des coecients dans une base de B-
splines.
Ruppert, Wand et Carroll (2003) noeuds aux quantiles de la
répartition des ti et pénalisation correspondant à
λ2p ∫ max(ti)min(ti)
f(q+1)(t)2dt pour des splines d'ordre p + 1.31
Lien P-splines et modèles mixtes (exemple : cas linéaire et
D = I)
s(t) = β0 + β1t +∑K
k=1 uk(ti−k)+,
min 1σ2
ε‖ Y −Xβ ‖2 +λ2
σ2ε‖ u ‖2
Y = Xβ + Zu + ε avec β eet xe et u eet aléatoire.
V ar(u) = σ2uI, V ar(ε) = σ2
ε I, u ⊥ ε
35 ou 40 noeuds susent dans la plupart des applications.
λ2 = σ2ε
σ2u
→ paramètre de lissage ratio entre variance de l'eet
aléatoire et variance de l'erreur d'où une méthode "naturelle" de
choix du paramètre de lissage.
32
Modèles bayésiens
Pour splines de lissage :
Yt =∑m
k=1 θktk−1 + σ√nγZt,
où Zt processus de Wiener m-intégré de fonction d'autoco-
variance R(s, t) =∫ 10
(s−u)m−1+
(m−1)!
(t−u)m−1+
(m−1)! du et θ ∼ N (0, aI) avec
θ ⊥ ε et θ ⊥ Z. La spline de lissage est la limite quand a tends
vers l'inni de E(Yt | Y1, · · · , Yn).
pour les P-splines :
le modèle mixte est déja un modèle bayésien avec la loi de
Y | β, u, σu, σε et la loi a priori de u ∼ N (0, σ2u) ; on peut rajouter
une couche avec une loi a priori sur β, σu, σε pour obtenir un
modèle hiérarchique.
33
Choix du paramètre de lissage : Critère de Mallows
Le critère de Mallows consiste à corriger le biais de RSSn comme
estimateur du MASE
Cp =RSS
n+
2
ntr(H)σ2,
où σ2 est un estimateur de σ2. où RSS est la somme des carrés
résiduelle
et H la matrice chapeau.
34
Choix du paramètre de lissage : Validation croisée
Validation croisée simple :
CV =1
n
n∑i=1
(yi − r−i(ti))2
où r−i est l'estimateur basé sur l'échantillon privé du point (ti, yi).
On peut montrer que
E(CV ) ≈ MASE + σ2.
35
Choix du paramètre de lissage : Validation croisée Pour le
calcul, on utilise plutôt la formule :
CV =1
n
n∑i=1
(yi − r(ti)
1− hii)2
où hii sont les éléments diagonaux de la matrice chapeau H.
Validation croisée généralisée :
GCV =1
n
n∑i=1
(yi − r(ti)
1− tr(H)n
)2
36
Splines adaptatives
Un seul paramètre de lissage ne peut pas être bon dans le cas
d'une régularité localement variable.
hybrid adaptive splines : Luo et Wahba (1997)
adaptive knot selection for regression splines : Friedman et Sil-
verman (1989)
splines de lissage avec paramètre constant par morceaux : Pin-
tore, Speckman et Holmes (2005)
P-splines avec un modèle bayésien hiérarchique , Ruppert et Car-
roll (2000), Krivobokova, Crainiceanu, Kauermann (2006)
37
Variable multidimensionnelle
- splines MC : MARS Multivariate adaptive regression splines ap-
plique une méthode sélection de type "stepwise" sur l'ensemble
des fonctions d'une base de splines "produit tensoriel" d'ordre
"q" avec noeuds en toute coordonnée marginale des points ob-
servés.
f(x) = a0 +∑M
m=1 am∏Km
k=1(±1)(xXk,m− tkm)q−1
+
38
Variable multidimensionnelle
- splines de lissage : Plaques Minces
mins∈Wm(Rd)
n∑i=1
(yi − s(ti))2 + λ
∑|β|=m
m!∏βi!
‖ Dβs ‖2L2(Rd) dt
- splines de lissage : produit tensoriel et Anova fonctionnelle (Gu
et Wahba)
f(t1, . . . , td) = µ +∑α
fα(tα) +∑α,β
fα,β(tα, tβ) + . . .
39
Variable multidimensionnelle : Exemple
H = H1(0,1) ⊗ H1(0,1) muni de la norme ‖ u ‖2= u2(0) +∫ 10 u′(t)2dλ(t). H0 = span(1),H1 = u ∈ H1(0,1) : u(0) = 0H = H0
⊕H1
H est alors somme directe des quatre sous-espaces H0,0 = H0⊗H0, H1,0 = H1 ⊗H0, H0,1 = H0 ⊗H1, and H1,1 = H1 ⊗H1,
⇒
u(t, s) = µ + u1,0(t) + u0,1(s) + u1,1(t, s), (10)
avec
µ = < u, K0,0 >= u(0,0)
u1,0(s, t) = < u, K1,0 >= u(t,0)− u(0,0),
u0,1(s, t) = < u, K0,1 >= u(0, s)− u(0,0),
40