estimateurs splines - mexico

Estimateurs splines

Christine Thomas-Agnan

Octobre 2006

Plan

Les fonctions splines polynomiales : pourquoi ?

Splines polynomiales : dénition et caractérisation

Optimalité des splines d'interpolation et de lissage

Théorie variationnelle des fonctions splines

Splines de moindres carrés en régression

Splines de lissage en régression

Splines hybrides en régression

P- Splines en régression

Modèles bayésiens

Choix du paarmètre de lissage

Splines adaptatives

Variable explicative multidimensionnelle

1

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Données et données bruitées

0 0.2 0.4 0.6 0.8 1−12

−10

−8

−6

−4

−2

0

2

4x 10

−14

0 0.2 0.4 0.6 0.8 1−2

−1.5

−1

−0.5

0

0.5

1

1.5

2x 10

−3

Impact du bruitage sur l'ap-

proximation

2

Dénition

Pour un intervalle [a, b], un entier r ≥ 1, un entier k, et une suite

de k points z1, . . . , zk dans [a, b], on appelle spline polynomiale

d'ordre r ayant pour noeuds simples les points z1, . . . , zk toute

fonction f de [a, b] dans R telle que :

f est continument dérivable jusqu'à l'ordre r − 2 (si r ≥ 2)

la restriction de f aux intervalles inter-noeuds

[a, z1], . . . , [zi, zi+1], . . . , [zk, b]

coincide avec un polynôme de degré inférieur ou égal à r − 1

3

Cet ensemble de fonctions sera noté Sr(z1, . . . , zk). Il contient

l'ensemble des polynômes de degré inférieur ou égal à r − 1.

Pour r = 2, une spline d'ordre 2 est donc une fonction continue

et linéaire par morceaux.

Les splines les plus fréquemment utilisées sont les splines d'ordre

4 dites splines cubiques.

4

Théorème

Sr(z1, . . . , zk) est un sous espace vectoriel de l'espace des fonc-

tions dérivables jusquà l'ordre r−2 dont une base est donnée par

les fonctions 1, x, . . . , xr−1 et les fonctions

(x− z1)r−1+ , . . . , (x− zk)

r−1+ .

dim(Sr(z1, . . . , zk)) = r + k

Cette base n'est pas adaptée au calcul. Une base plus adaptée

est celle constituée par les B-splines en raison de leur support

compact : plus précisément, la B-spline Bi est nulle en dehors

de l'intervalle [zi, zi+r], mais leur formule est complexe.

5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−0.2

0

0.2

0.4

0.6

0.8

1

1.2Une base de B−splines cubiques

6

Exemple : f(x) = x2 pour 0 ≤ x < 1/4,

f(x) = x/2− 1/16 pour 1/4 ≤ x < 1/2,

f(x) = x2 − x/2 + 3/16 pour 1/2 ≤ x < 3/4,

et f(x) = 2x2 − 2x + 3/4 pour 3/4 ≤ x ≤ 1.

c'est une fonction spline d'ordre 3 sur l'intervalle [0,1]

Décomposition dans la base canonique du théorème

f(x) = x2 − (x− 1/4)2+ + (x− 1/2)2+ + (x− 3/4)2+.

7

Splines naturelles

On appelle spline naturelle d'ordre 2r ayant pour noeuds les

points z1, . . . , zk toute spline de

S2r(z1, . . . , zk) qui coincide avec un polynôme de degré inférieur

ou égal à r−1 en dehors de l'intervalle [z1, zk]. Par exemple, une

spline cubique naturelle est une spline cubique linéaire sur [a, z1]

et sur [zk, b].

La dimension de S2r(z1, . . . , zk) est égale à k.

8

Représentation g − γ des splines cubiques naturelles. per-met une démonstration facile des propriétés d'optimalité et unemanipulation aisée de cet outil pour la programmation.

le vecteur g des valeurs de la spline aux noeuds

g = (s(z1), · · · , s(zk)) ∈ Rk (1)

le vecteur γ des dérivées secondes aux noeuds

γ = (s”(z2), · · · , s”(zk−1)) ∈ Rk−2 (2)

Q et R, de terme général respectifs qij et rij sont déniessimplement à partir des noeuds par

hi = zi+1 − zi(3)

qj−1,j =1

hj−1, qj+1,j =

1

hj, qj,j = −

1

hj−1−

1

hj, qj,l = 0si | j − l |> 1(4)

rii =1

3(hi−1 + hi), ri,i+1 = ri+1,i =

hi

6, ri,j = 0si | j − i |> 1(5)

9

Un couple (g, γ) ∈ Rk × Rk−2 dénit une spline cubique naturelle

si et seulement si

Q′g = Rγ, (6)

Sous la condition (6), on a∫ b

a(s”(t))2dt = γ′Rγ = g′QR−1Q′g.

10

Espaces de Sobolev Une fonction f est absolument continue

s'il existe un réel a et une fonction intégrable g tels que

f(t) =∫ t

ag(s)ds.

Pour les besoins de ce cours, on dira que l'espace de Sobolev

Wm(a, b) est l'ensemble des fonctions f sur [a, b] telles que f(p)

est absolument continue et de carré intégrable pour p = 0, . . . m−1 et telles que f(m) est de carré intégrable.

Dans l'espace de Sobolev Wm(a, b), on peut

"mesurer" la régularité d'une fonction f par

J(f) =∫ b

af(m)(t)2dt

12

Splines d'interpolation Résoudre un problème d'interpolation

pour un ensemble de n points (ti, yi), c'est chercher une fonction

"régulière" f qui satisfait

f(ti) = yi, i = 1, . . . , n.

Les polynômes d'interpolation de Lagrange sont une solution

particulière à ce problème, les splines d'interpolation en sont une

autre.

13

Un exemple : la gure repré-

sente une fonction spline cu-

bique d'interpolation pour les

points ti = 0.1,0.4,0.7,0.9 et

yi = 1,3,2,6.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

0

1

2

3

4

5

6

7

8

9

14

Existence et unicité des splines d'interpolation

Etant donnés n points (ti, yi), d'abscisses distinctes dans l'in-

tervalle (a, b) et n ≥ m, il existe une fonction et une seule f∗ del'espace de Sobolev Wm(a, b) telle que

1) f∗ satisfait les conditions d'interpolation

f∗(ti) = yi, i = 1, · · ·n

2) f∗ minimise la quantité∫ ba f(m)(t)2dt dans l'ensemble des fonc-

tions de Wm(a, b) qui satisfont les conditions d'interpolation.

De plus, cette fonction est une spline polynomiale naturelle d'ordre

2m ayant pour noeuds les points t1, . . . , tn.

15

On peut assouplir les conditions d'interpolation en les remplaçant

parn∑

i=1

(yi − f(ti))2 ≤ ε, (7)

pour un paramètre ε xé correspondant au degré d'assouplis-

sement souhaité. La théorie des variations permet de montrer

que la minimisation de J(f) sous la contrainte (7) équivant au

problème d'optimisation sans contrainte suivant

minf∈Wm(a,b)

n∑i=1

(yi − f(ti))2 + λ

∫ b

a(f(m)(t))2dt,

où ε dépend (de façon complexe) de λ.

16

Existence et unicité des splines de lissage

Etant donnés n points (ti, yi), d'abscisses distinctes dans l'inter-

valle [a, b], un entier m ≤ n, et un réel λ > 0, il existe une fonction

et une seule f∗ de l'espace de Sobolev Wm(a, b) qui minimise la

quantitén∑

i=1

(yi − f(ti))2 + λ

∫ b

a(f(m)(t))2dt,

dans l'ensemble des fonctions de Wm(a, b).

De plus, cette fonction est une spline polynomiale naturelle

d'ordre 2m ayant pour noeuds les points t1, . . . , tn.

17

Exemples de splines de lissage

λ = (1− exp(−10−p)) exp(10−p)

18

pour p = 1,2,3,4 0 0.2 0.4 0.6 0.8 10

1

2

3

4

5

6lambda=0.10517

0 0.2 0.4 0.6 0.8 10

1

2

3

4

5

6lambda=0.01005

0 0.2 0.4 0.6 0.8 10

2

4

6

8lambda=0.0010005

0 0.2 0.4 0.6 0.8 10

2

4

6

8

10lambda=0.00010001

Calcul des splines de lissage et d'interpolation

- En utilisant les noyaux reproduisants :

s(t) =n∑

i=1

µiK∗(., ti) +

m∑j=1

γjPj(t),

où Σλµ + Dγ = YD′µ = 0

(8)

avec

Σλ la matrice n×n d' éléments < K∗(., ti), K∗(., tj) >Wm +λδij,

D la matrice n× n d' éléments < Pk, K∗(., ti) >Wm,

K∗ le semi-noyau du RKHS Wm

K∗(s, t) =(−1)m

2(2m− 1)!| s− t |2m−1 .

19

- En utilisant la représentation g− γ et l'algorithme de Reinsch :

g = (I + λQR−1Q′)−1Y

ou encore

(R + λQ′Q)γ = Q′Y,

où Q et R sont des matrices bandes d'ordre 3, et R + λQ′Q est

bande d'ordre 5.

Théorie variationnelle des fonctions splines

Trois espaces de Hilbert H, A, B, deux applications linéaires bor-nées A : H −→ A et B : H −→ B et un élément a ∈ A spline d'interpolation pour les données a, l'application linéaire

A et la mesure d'énergie B

σ∗ = arg minσ∈H:Aσ=a

‖ Bσ ‖2B

spline de lissage pour les données a, l'application linéaire A, la

mesure d'énergie B et le paramètre ρ > 0

σ∗ = argminσ∈H

‖ Aσ − a ‖2A +ρ ‖ Bσ ‖2B.

20

Espaces à noyaux reproduisants

Une fonction

K : T × T −→ C(s, t) 7−→ K(s, t)

est un noyau reproduisant pour l'espace de Hilbert H si et seule-

ment si

a) ∀t ∈ T, K(., t) ∈ Hb) ∀t ∈ T, ∀ϕ ∈ H < ϕ, K(., t) >= ϕ(t).

21

Exemple : L'espace de Sobolev Wm(0,1) muni de la norme

‖u‖2 =m−1∑k=0

u(k)(0)2 +∫ 1

0u(m)(t)2dt, (9)

a pour noyau reproduisant

K(s, t) =m−1∑k=0

tksk

k!2+

∫ 1

0

(t− w)m−1+ (s− w)m−1

+

(m− 1)!2dw.

22

Splines de moindres carrés pour la régression

Données (ti, yi), i = 1, · · · , n.

Etant donné un entier k, un entier p et k noeuds z1, . . . , zk, la

spline de moindres carrés d'ordre p ayant pour noeuds z1, . . . , zkest la solution de

mins∈Sp(z1,...,zk)

n∑i=1

(yi − s(ti))2

Si S1, . . . , Sp+k désigne une base de Sp(z1, . . . , zk), alors la solution

s du problème ci dessus s'écrit s(t) =∑p+k

j=1 θjSj(t), où les θj sont

solution de

min(θ1,...,θp+k)∈Rp+k

n∑i=1

(yi −p+k∑j=1

θjSj(ti))2

23


Si N est la matrice n×(p+k) contenant les Sj(ti); i = 1, . . . , n; j =

1, . . . , p + k, l'estimateur spline de régression est linéaire et sa

matrice chapeau s'écrit

H = N(N ′N)−1N ′

Remarque : Si l'on utilise une base de B-splines, la matrice N ′Nest une matrice bande ayant 2p− 1 diagonales non nulles.

Le paramètre de lissage est constitué de p, k et z1, . . . , zk. En

général, on prends p = 4 et des noeuds équirépartis ou bien aux

quantiles empiriques de la variable T , et il ne reste ainsi que le

nombre de noeuds k comme paramètre de lissage. k est entier

et varie dans l'intervalle [0, n− p].

24


Si k = n−p, l'estimateur est une spline d'interpolation. Si k = 0,

l'estimateur coincide avec l'ajustement polynomial de degré p−1.

Si la fonction m appartient à Sp(z1, ..., zk), l'ajustement est sans

biais et sinon la biais dépends de la diérence entre m et sa

projection sur Sp(z1, ..., zk).

L'estimateur spline de régression est convergent lorsque le nombre

de noeuds k tends vers l'inni avec le nombre d'observations n.

Il atteint la vitesse de convergence optimale lorsque la régression

m varie dans l'espace de Sobolev W l(0,1) c'est à dire n− 2l

2l+1

(Agarwal et Studden, 1980).

25

Splines de lissage pour la régression

Minimiser un critère de moindres carrés dans un espace de di-

mension innie conduirait à interpoler. On est donc conduit à

rajouter une pénalisation qui contrôle les oscillations.

Etant donné un réel λ > 0, la spline de lissage d'ordre 2m associée

à λ > 0 est la solution du problème

mins∈Wm(a,b)

n∑i=1

(yi − s(ti))2 + λ

∫ b

as(m)(t)2dt

Le rôle de λ est d'ajuster le compromis entre la proximité aux

données (premier terme) et la régularité globale de la fonction

(deuxième terme).

26


Si S1, . . . , Sn désigne une base de l'espace des splines naturelles

de S2m(t1, . . . , tn), alors la solution s du problème ci dessus s'écrit

s(t) =∑n

j=1 θjSj(t), où les θj minimisent pour

(θ1, . . . , θn) ∈ Rn

n∑i=1

(yi −n∑

j=1

θjSj(ti))2 +

∫ b

a(

n∑j=1

θjS(m)j (t))2dt

Si N est la matrice n×n contenant les Sj(ti), pour i = 1, . . . , n; j =

1, . . . , n, Ω la matrice et n × n contenant les∫ ba S

(m)i (t)S(m)

j (t)dt

et θ = (θ1, . . . , θn)′, le problème s'écrit :

minθ∈Rn

(Y −Nθ)′(Y −Nθ) + λθ′Ωθ

27

Splines de lissage pour la régression D'après la théorie des

moindres carrés,

θ = (N ′N + λΩ)−1N ′Y

D'où l'estimateur spline de lissage est linéaire et la matrice cha-

peau s'écrit

H = N(N ′N + λΩ)−1N ′

En général, on utilise des splines cubiques correspondant à m =

2. Le paramètre de lissage est donc λ ∈ [0,+∞[.

Si λ −→ 0 (à n xé), la spline de lissage converge vers la spline

naturelle d'interpolation d'ordre 2m des points (ti, yi).

28

Si λ −→ +∞ (à n xé), la spline de lissage converge vers le

polynôme d'ajustement de degré m− 1.

Au lieu de λ, on peut utiliser le paramètre p déni par p = 11+λ ⇔

λ = 1−pp , alors

λ ∈ [0,+∞[⇔ p ∈]0,1].


Convergence : Speckman (1985) montre sous certaines condi-

tions de régularité du design qu'une version du MISE, pondérée

par la densité du design, converge vers 0 lorsque λ tends vers

0 et nλ tends vers +∞. De plus, il montre que pour une suite

bien choisie de paramètres de lissage λn, l'estimateur spline de

lissage atteint la vitesse optimale de convergence en moyenne

qudratique intégrée lorsque la régression m varie dans l'espace

de Sobolev W l(0,1) c'est à dire n− 2l

2l+1.

29

Splines hybrides

Introduites par Kelly et Rice (1998). Combinaison entre splines

de régression et splines de lissage.

mins∈Sp(z1,...,zk)

n∑i=1

(yi − s(ti))2 + λ

∫ b

as(m)(t)2dt

30

P- Splines

Généralisation des splines hybrides (Eilers et Marx (1996), Rup-

pert, Wand et Carroll (2003)

minβ∈Rp∑n

i=1(yi − β′B(ti))2 + λ2β′Dβ,

où D matrice semi dénie positive.

choix de D :

Eilers et Marx (1996) noeuds équirépartis et pénalisation sur

les diérences d'ordre q des coecients dans une base de B-

splines.

Ruppert, Wand et Carroll (2003) noeuds aux quantiles de la

répartition des ti et pénalisation correspondant à

λ2p ∫ max(ti)min(ti)

f(q+1)(t)2dt pour des splines d'ordre p + 1.31

Lien P-splines et modèles mixtes (exemple : cas linéaire et

D = I)

s(t) = β0 + β1t +∑K

k=1 uk(ti−k)+,

min 1σ2

ε‖ Y −Xβ ‖2 +λ2

σ2ε‖ u ‖2

Y = Xβ + Zu + ε avec β eet xe et u eet aléatoire.

V ar(u) = σ2uI, V ar(ε) = σ2

ε I, u ⊥ ε

35 ou 40 noeuds susent dans la plupart des applications.

λ2 = σ2ε

σ2u

→ paramètre de lissage ratio entre variance de l'eet

aléatoire et variance de l'erreur d'où une méthode "naturelle" de

choix du paramètre de lissage.

32

Modèles bayésiens

Pour splines de lissage :

Yt =∑m

k=1 θktk−1 + σ√nγZt,

où Zt processus de Wiener m-intégré de fonction d'autoco-

variance R(s, t) =∫ 10

(s−u)m−1+

(m−1)!

(t−u)m−1+

(m−1)! du et θ ∼ N (0, aI) avec

θ ⊥ ε et θ ⊥ Z. La spline de lissage est la limite quand a tends

vers l'inni de E(Yt | Y1, · · · , Yn).

pour les P-splines :

le modèle mixte est déja un modèle bayésien avec la loi de

Y | β, u, σu, σε et la loi a priori de u ∼ N (0, σ2u) ; on peut rajouter

une couche avec une loi a priori sur β, σu, σε pour obtenir un

modèle hiérarchique.

33

Choix du paramètre de lissage : Critère de Mallows

Le critère de Mallows consiste à corriger le biais de RSSn comme

estimateur du MASE

Cp =RSS

n+

2

ntr(H)σ2,

où σ2 est un estimateur de σ2. où RSS est la somme des carrés

résiduelle

et H la matrice chapeau.

34

Choix du paramètre de lissage : Validation croisée

Validation croisée simple :

CV =1

n

n∑i=1

(yi − r−i(ti))2

où r−i est l'estimateur basé sur l'échantillon privé du point (ti, yi).

On peut montrer que

E(CV ) ≈ MASE + σ2.

35

Choix du paramètre de lissage : Validation croisée Pour le

calcul, on utilise plutôt la formule :

CV =1

n

n∑i=1

(yi − r(ti)

1− hii)2

où hii sont les éléments diagonaux de la matrice chapeau H.

Validation croisée généralisée :

GCV =1

n

n∑i=1

(yi − r(ti)

1− tr(H)n

)2

36

Splines adaptatives

Un seul paramètre de lissage ne peut pas être bon dans le cas

d'une régularité localement variable.

hybrid adaptive splines : Luo et Wahba (1997)

adaptive knot selection for regression splines : Friedman et Sil-

verman (1989)

splines de lissage avec paramètre constant par morceaux : Pin-

tore, Speckman et Holmes (2005)

P-splines avec un modèle bayésien hiérarchique , Ruppert et Car-

roll (2000), Krivobokova, Crainiceanu, Kauermann (2006)

37

Variable multidimensionnelle

- splines MC : MARS Multivariate adaptive regression splines ap-

plique une méthode sélection de type "stepwise" sur l'ensemble

des fonctions d'une base de splines "produit tensoriel" d'ordre

"q" avec noeuds en toute coordonnée marginale des points ob-

servés.

f(x) = a0 +∑M

m=1 am∏Km

k=1(±1)(xXk,m− tkm)q−1

+

38

Variable multidimensionnelle

- splines de lissage : Plaques Minces

mins∈Wm(Rd)

n∑i=1

(yi − s(ti))2 + λ

∑|β|=m

m!∏βi!

‖ Dβs ‖2L2(Rd) dt

- splines de lissage : produit tensoriel et Anova fonctionnelle (Gu

et Wahba)

f(t1, . . . , td) = µ +∑α

fα(tα) +∑α,β

fα,β(tα, tβ) + . . .

39

Variable multidimensionnelle : Exemple

H = H1(0,1) ⊗ H1(0,1) muni de la norme ‖ u ‖2= u2(0) +∫ 10 u′(t)2dλ(t). H0 = span(1),H1 = u ∈ H1(0,1) : u(0) = 0H = H0

⊕H1

H est alors somme directe des quatre sous-espaces H0,0 = H0⊗H0, H1,0 = H1 ⊗H0, H0,1 = H0 ⊗H1, and H1,1 = H1 ⊗H1,

⇒

u(t, s) = µ + u1,0(t) + u0,1(s) + u1,1(t, s), (10)

avec

µ = < u, K0,0 >= u(0,0)

u1,0(s, t) = < u, K1,0 >= u(t,0)− u(0,0),

u0,1(s, t) = < u, K0,1 >= u(0, s)− u(0,0),

40

estimateurs splines - mexico

Documents