spécialité mathématiques avancées, 2ème année parcours de

70
Master Mathématiques et Applications, Ingénierie Mathématiques Spécialité Mathématiques Avancées, 2ème année Parcours de probabilités et statistique Rapport de stage Estimation non-paramétrique dans le modèle linéaire fonctionnel : point de vue de la sélection de modèle Angelina Roche Encadrants : Elodie Brunel, André Mas Lieu du stage : Equipe de Probabilités et Statistique, Institut de Mathématiques et Modélisation - UMR CNRS 5149 Université Montpellier 2. 15 avril-30 août 2011

Upload: others

Post on 03-Oct-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Spécialité Mathématiques Avancées, 2ème année Parcours de

Master Mathématiques et Applications,Ingénierie Mathématiques

Spécialité Mathématiques Avancées, 2ème annéeParcours de probabilités et statistique

Rapport de stage

Estimation non-paramétrique dans le modèle linéairefonctionnel : point de vue de la sélection de modèle

Angelina Roche

Encadrants : Elodie Brunel, André MasLieu du stage : Equipe de Probabilités et Statistique,

Institut de Mathématiques et Modélisation - UMR CNRS 5149Université Montpellier 2.

15 avril-30 août 2011

Page 2: Spécialité Mathématiques Avancées, 2ème année Parcours de

a

Page 3: Spécialité Mathématiques Avancées, 2ème année Parcours de

Table des matières

Introduction 2

1 Point de vue de la sélection de modèle sur le problème de régression àdesign aléatoire scalaire 41.1 Modèle statistique étudié . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Approximation sur des sous-espaces . . . . . . . . . . . . . . . . . . . . . . 41.3 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.2 Sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Vitesse de convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . 18

2 Modèle de régression linéaire fonctionnel 192.1 Le modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.2 Opérateur de covariance . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Risques considérés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Travaux existants sur le modèle de régression linéaire fonctionnel . . . . . . 22

2.3.1 Régression en composantes principales (FPCR) . . . . . . . . . . . 222.3.2 Estimateur par projection . . . . . . . . . . . . . . . . . . . . . . . 222.3.3 Estimation par moindres carrés pénalisés . . . . . . . . . . . . . . . 222.3.4 Choix de l’entier Kn . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.5 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Point de vue de la sélection de modèle sur le problème de régressionlinéaire fonctionnel à données ”circulaires” 243.1 Cadre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.1 Rappel sur le modèle statistique . . . . . . . . . . . . . . . . . . . . 243.1.2 Hypothèse sur les fonctions propres de Γ . . . . . . . . . . . . . . . 243.1.3 Critère de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.1 Estimation sur Sm . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Condition d’existence et calcul de βm . . . . . . . . . . . . . . . . . 253.2.3 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.4 Définition de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 Majoration du risque de l’estimateur . . . . . . . . . . . . . . . . . . . . . 273.3.1 Hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Théorème principal . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

i

Page 4: Spécialité Mathématiques Avancées, 2ème année Parcours de

3.3.3 Vitesse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Simulations 424.1 Méthode de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1.1 Simulation d’une courbe aléatoire X . . . . . . . . . . . . . . . . . 424.1.2 Simulation de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Calcul de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2.1 Choix de l’ensembleMn . . . . . . . . . . . . . . . . . . . . . . . . 444.2.2 Etape d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2.3 Etape de sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2.4 Calibration de la constante apparaissant dans la pénalité . . . . . . 45

4.3 Résultats et commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.3.1 Estimation de β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.3.2 Estimation de β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3.3 Estimation de β3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3.4 Estimation de β4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Intégration de fonctions à valeurs dans un espace de Banach et applica-tion à l’étude des projecteurs 535.1 Rappels sur l’intégration de fonctions à valeurs dans un espace de Banach

complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.1.1 Notion d’holomorphie . . . . . . . . . . . . . . . . . . . . . . . . . . 545.1.2 Intégration de fonctions à valeurs dans E . . . . . . . . . . . . . . . 54

5.2 Application à l’étude des projecteurs . . . . . . . . . . . . . . . . . . . . . 545.2.1 Écriture de Πk et Πk sous forme intégrale . . . . . . . . . . . . . . . 555.2.2 Application au contrôle de Πk − Πk . . . . . . . . . . . . . . . . . . 57

Conclusion 65

1

Page 5: Spécialité Mathématiques Avancées, 2ème année Parcours de

Introduction

Le modèle linéaire fonctionnel suscite un intérêt croissant depuis plusieurs années,motivé par des applications variées par exemple en médecine, climatologie, biométrie ouéconométrie. Il décrit la dépendance entre une variable aléatoire Y et une fonction aléatoireX définie par :

Y =

∫ 1

0

β(s)X(s)ds+ ε,

avec ε un terme d’erreur et β une fonction inconnue à estimer.On peut par exemple modéliser de cette façon le lien existant entre la courbe de tempé-rature annuelle sur un site et les précipitations totales sur ce même site (voir Ramsay etSilverman [22] ou Ferraty et Vieu [17]).

Les approches classiques d’estimation de la fonction β sont basées sur des résul-tats asymptotiques qui assurent la convergence des estimateurs pour différents modesde convergence (en probabilité, en loi, presque sûrement) quand la taille de l’échantilloncroît vers l’infini. Nous en donnons un aperçu au chapitre 3 avec quelques élément biblio-graphiques.

Plus récemment, certains auteurs (Comte et Johannes [12]) ont adapté des procé-dures de sélection de modèle pour obtenir des résultats non asymptotiques de contrôle durisque. Leurs résultats sont les premiers, à notre connaissance, à traiter du modèle linéairefonctionnel sous cet angle mais ils sont pour l’instant obtenus sous des hypothèses assezrestrictives.

L’objectif du stage était de se familiariser avec l’approche par sélection de modèle pourdéfinir et contrôler le risque d’un nouvel estimateur de la fonction β, en se plaçant dansun premier temps sous des hypothèses très analogues à celles de Comte et Johannes puisessayer de dégager des pistes pour se placer sous des hypothèses plus générales.

La première partie du stage consistait à étudier de façon détaillée une procédured’estimation basée sur la sélection de modèle dans un cadre statistique plus classique :celui de la régression scalaire à design aléatoire traité par Baraud [2]. C’est l’objet duchapitre 1.

Dans un second temps, nous nous sommes penchés sur le modèle linéaire fonctionnelen nous plaçant sous des hypothèses très analogues à celles de Comte et Johannes.

L’estimateur proposé au chapitre 3 présente plusieurs avantages. Tout d’abord sur leplan numérique puisqu’il s’obtient facilement à partir d’un critère de type moindres carréspénalisé relativement simple à mettre en ?uvre. D’autre part, nous sommes en mesure decontrôler une version du risque intégré qui s’interprète comme une erreur de prévision trèsappréciée en pratique. Nous développons ces aspects dans le chapitre 3. L’estimateur ob-tenu a pu être implémenté et faire l’objet d’une étude numérique approfondie au chapitre

2

Page 6: Spécialité Mathématiques Avancées, 2ème année Parcours de

4.Enfin, nous essayons de dégager des pistes pour nous affranchir du cadre restrictif des

travaux de Comte et Johannes. La dernière partie du stage a donc été consacrée à dévelop-per des outils permettant de se placer dans un cadre plus général. Pour cela, un passageincontournable consiste à savoir contrôler la distance entre un opérateur de projectionet sa version empirique. La méthode proposée au chapitre 5 est issue de la théorie de laperturbation et utilise le calcul fonctionnel holomorphe. Elle doit nous permettre dans untravail futur de généraliser les premiers résultats obtenus au chapitre 3.

3

Page 7: Spécialité Mathématiques Avancées, 2ème année Parcours de

Chapitre 1

Point de vue de la sélection de modèlesur le problème de régression à designaléatoire scalaire

1.1 Modèle statistique étudiéLe modèle considéré est le modèle de régression à design aléatoire suivant :

Y = s(X) + ξ (1.1)

avec– X, le design, une variable aléatoire de loi µ à valeurs dans [0, 1] ;– s : [0, 1] → R une fonction inconnue à estimer, appelée fonction de régression,

supposée être dans L2([0, 1]) ;– ξ, le bruit, une variable aléatoire réelle centrée, indépendante de X, de variance σ2

finie, supposée connue.On notera le produit scalaire usuel de L2([0, 1]) par < ·, · > et la norme associée ‖ · ‖.

On cherche à estimer la fonction s, c’est-à-dire reconstruire s en utilisant uniquement ladonnée d’un échantillon (Xi, Yi), i = 1, ..., n i.i.d vérifiant (1.1).

Ce modèle statistique à été abondamment traité dans la littérature. Les premiers esti-mateurs proposés sont des estimateurs de type noyaux dit de ”Nadaraya-Watson”(voir [21]ou [25]). Certains auteurs (Baraud [2] et Birgé [4] par exemple) ont ensuite proposé desprocédures d’estimation par sélection de modèle. Nous reprenons ici les travaux de Barauddans un cadre plus restrictif.

1.2 Approximation sur des sous-espacesLe modèle statistique est ici non-paramétrique, c’est-à-dire que l’espace des paramètres

L2([0, 1]) est de dimension infinie. Pour pouvoir traiter le problème de l’estimation de lafonction s, nous allons nous ramener à un problème paramétrique.

Notons ϕ1 ≡ 1, et pour tout j ∈ N∗, ϕ2j(·) =√

2 cos(2πj·), ϕ2j+1(·) =√

2 sin(2πj·).La suite de fonctions (ϕj)j≥1 forme une base hilbertienne de L2([0, 1]) par le théorème deRiesz-Fisher.

4

Page 8: Spécialité Mathématiques Avancées, 2ème année Parcours de

Nous avons donc, pour tout s ∈ L2([0, 1]) :

limm→+∞

∥∥∥∥∥s−Dm∑j=1

< s, ej > ej

∥∥∥∥∥ = 0, (1.2)

avec Dm := 2m+ 1. D’où pour m assez grand :

s ≈Dm∑j=1

< s, ϕj > ϕj =: sm.

L’idée consiste donc à estimer s par un élément de l’espace Sm := Vectϕj, j = 1, ..., J.La meilleure approximation (au sens de la norme ‖ · ‖) que nous pouvons faire de s danscet espace est la fonction sm, qui est la projection de s sur Sm. Mais cette fonction dépendde s inconnue, il faut donc au préalable définir un estimateur sm dans Sm, ce qui serafait dans le paragraphe 1.3.1. Nous verrons ensuite dans le paragraphe 1.3.2 commentchoisir un estimateur de s dans la famille smm∈Mn oùMn est un ensemble fini d’entiersnaturels préalablement choisi.

1.3 Sélection de modèle

1.3.1 Estimation

On fixe ici un entier m, nous allons définir un estimateur de s sur Sm. Pour cela, nousallons utiliser une méthode classique en statistique, qui consiste à minimiser un contraste.Un contraste est une application γn : L2([0, 1])→ R, dépendant uniquement des données,telle que le minimum sur L2([0, 1]) de l’application t 7→ E[γn(t)] soit atteint au point s.L’estimation par minimisation d’un contraste consiste à définir sm comme le minimum,lorsqu’il existe, de la fonction γn.

Nous considèrerons ici le contraste des moindres carrés :

γn(t) =1

n

n∑i=1

(Yi − t(Xi))2.

Le critère γn vérifie bien la propriété précédente, en effet :

E [γn(t)] = E[(Y1 − t(X1))2]

= E[(Y1 − s(X1))2]+ E

[(s(X1)− t(X1))2]

+2E [(Y1 − s(X1)) (s(X1)− t(X1))] ;

or :E [(Y1 − s(X1)) (s(X1)− t(X1))] = E [ξ1 (s(X1)− t(X1))] = 0,

car ξ1 est centré et indépendant de X1. Nous avons donc :

E [γn(t)] = E[(Y1 − s(X1))2]+ E

[(s(X1)− t(X1))2] ,

qui atteint bien son minimum en t = s.

5

Page 9: Spécialité Mathématiques Avancées, 2ème année Parcours de

PosonsMn = 1, ..., Nn (avec Nn un entier inférieur à n2−1), pour tout m ∈Mn, no-

tons sm l’estimateur des moindres carrés de s sur Sm (c’est-à-dire l’élément de Sm minimi-sant le contraste des moindres carrés γn). Nous pouvons définir une famille sm,m ∈Mnd’estimateurs de s.

Remarquons que les Sm sont emboîtés, c’est-à-dire que si m ≤ m′, Sm ⊂ Sm′ . Enparticulier, pour tout m ∈ Mn, Sm ⊂ SNn , cet espace aura donc un rôle particulier parla suite, nous le noterons Sn.

Nous avons maintenant à choisir un estimateur dans cette famille (ou de manièreéquivalente choisir m ∈ Mn). Ce choix est extrêmement important, en effet si m esttrop petit, la distance entre s et Sm a de fortes chances d’être grande et l’on ne pourrapas estimer correctement s par un élément pris dans Sm ; si m est grand, le nombre decoefficients à estimer est grand aussi et l’erreur d’estimation sera trop importante. Nousverrons dans la section suivante une manière de faire ce choix. La figure 1.1 représenteun tracé des cinq premiers estimateurs de la fonction cos(

√2π·) généré à partir d’un

échantillon de taille n = 500, nous ne pouvons pas à priori choisir parmi ces estimateurs, ilest donc indispensable de définir un critère théorique dépendant uniquement des données.

0 0.2 0.4 0.6 0.8 1−1.5

−1

−0.5

0

0.5

1

1.5

t

Figure 1.1 – Tracé de sm avec s(x) = cos(√

2πx) pour m = 1, ..., 5. La variable aléatoireX suit une loi uniforme sur [0, 1] et ε suit une loi normale centrée de variance σ2 = 0.01,n = 500.

Remarque : Nous ne traiterons pas ici du problème de l’existence et de l’unicité desestimateurs sm. Nous pouvons montrer que pour tout m ∈ Mn, sm existe et est uniquesi et seulement si la matrice

Ψm :=

(1

n

n∑i=1

ϕj(Xi)ϕk(Xi)

)1≤j,k≤Dm

est inversible, ce que nous supposerons par la suite.

1.3.2 Sélection

Critère pénalisé

Idéalement, on souhaiterait choisir l’estimateur sm(s) avec m(s) minimisant le risqueR(sm(s), s) := E[‖sm(s) − s‖2]. Or le risque dépend de s, par conséquent sm(s) dépend

6

Page 10: Spécialité Mathématiques Avancées, 2ème année Parcours de

de s également et ne peut pas être un estimateur de s, nous l’appellerons oracle. Nousessaierons néanmoins de sélectionner un estimateur ayant un comportement similaire àcelui de l’oracle.

Une première idée consisterait à sélectionner l’estimateur sm∗ tel quem∗ ∈ minm∈Mn γn(sm).Or, comme les modèles sont emboîtés, l’application m 7→ γn(sm) est décroissante, un telcritère sélectionnerait donc le modèle le plus grand possible. Cela ne correspond pas aucomportement réel du risque. En effet, par le théorème de Pythagore, nous pouvons dé-composer le risque de la manière suivante :

R(sm, s) = ‖s− sm‖2 + E[‖sm − sm‖2] = inft∈Sm‖s− t‖2 + E[‖sm − sm‖2].

avec sm la projection orthogonale de s sur Sm. Le premier terme mesure l’erreur d’ap-proximation, c’est-à-dire l’erreur commise en projetant la fonction s sur Sm ; comme lesSm sont emboîtés, ce terme décroît quand m croît. On peut le voir également comme unterme de ”biais”. Le deuxième terme mesure l’erreur d’estimation, et peut-être vu commeun terme de ”variance”, plus m est grand, plus le nombre de termes à estimer est grand, ceterme aura donc tendance à croître avec m. Minimiser l’application m 7→ γn(sm) revientdonc à minimiser l’erreur d’approximation mais ce critère ne tient pas compte du termede ”variance”.

C’est la raison pour laquelle nous définissons un critère pénalisé, c’est à dire que l’onchoisit m minimisant :

γn(sm) + pen(m)

avec pen(m) :Mn → R+. Nous choisirons la pénalité par la suite.Dans l’article de Baraud [2], l’estimateur finalement choisi est le suivant :

s∗ =

sm si ‖sm‖ ≤ kn0 sinon;

(1.3)

avec kn = 2eln2(n).

Inégalité-oracle

Théorème principal Par un choix convenable de la pénalité, nous pouvons majorer lerisque de l’estimateur.

Théorème 1. Soit s ∈ L2([0, 1]), on suppose que la loi µ de X admet une densité parrapport à la mesure de Lebesgue minorée par une constante h0 > 0 et majorée par uneconstante h1. On suppose de plus que ξ admet un moment τp d’ordre p > 6 et l’on choisiraNn ≤

√n

2 ln3(n). Alors :

E[‖s− s∗‖2] ≤ C

[inf

m∈Mn

(inft∈Sm‖s− t‖2 + pen(m)

)+ εn(s)

], (1.4)

avec :pen(m) =

n(1 + 2δ)(2m + 1)σ2 (1.5)

où δ > 0, θ > 16h−10 et εn(s) ≤ C′

n, avec C,C ′ dépendant uniquement de h0, h1, σ2, τp.

Ce théorème a été établi dans un cadre plus général par Baraud [2].

7

Page 11: Spécialité Mathématiques Avancées, 2ème année Parcours de

Résultats préliminaires Dans la démonstration du théorème, nous aurons besoin durésultat suivant, du à Chagny [11] :

Proposition 1 (Version intégrée de l’inégalité de Talagrand). Soient n ∈ N, F une classeau plus dénombrable de fonctions mesurables à valeurs réelles et X1, ..., Xn une famille devariables aléatoires réelles indépendantes. Posons, pour tout f ∈ F ,

νn(f) =1

n

n∑i=1

(f(Xi)− E[f(Xi)]).

Supposons qu’il existe des constantes M1, H et v telles que :supf∈F ‖f‖∞ ≤ M1, E

[supf∈F |νn(f)|

]≤ H, et supf∈F

1n

∑ni=1 Var(f(Xi)) ≤ v. Alors,

pour tout ε > 0,

E

[(supf∈F

(νn(f))2 − 2(1 + 2ε)H2

)+

]≤ 4

K1

(v

nexp

(−K1ε

nH2

v

)

+49M2

1

K1C2(ε)n2exp

(−√

2K1C(ε)√ε

7

nH

M1

)),

où C(ε) = (√

1 + ε) ∧ 1 et K1 = 1/6.

Nous pourrons étendre le théorème à des classes non dénombrables de fonctions grâceau lemme suivant :

Lemme 1. Soit (B, d) un espace métrique séparable. Soit A une partie dénombrable densede B. Soit ν une application continue de B dans R, alors supf∈B ν(f) = supf∈A ν(f).

Démonstration du lemme 1. A ⊂ B donc supf∈A ν(f) ≤ supf∈B ν(f).Soit ε > 0.Soit f ∈ B, par continuité de ν, il existe δ > 0 tel que, pour tout g ∈ B :

d(f, g) ≤ δ ⇒ |ν(f)− ν(g)| ≤ ε.

Comme A est dense dans B, il existe h ∈ A tel que d(f, h) ≤ δ et donc |ν(f)− ν(h)| ≤ ε.D’où :

ν(f) ≤ ν(h) + ε ≤ supg∈A

ν(g) + ε.

Cela est valable pour tout f ∈ B et donc : supf∈B ν(f) ≤ supf∈A ν(f) + ε, ceci pour toutε > 0.

Dans un premier temps, nous allons montrer la proposition suivante :

Proposition 2. Sous les mêmes hypothèses que le théorème, avec pen(m) = 8θn

(1 +2δ)(2m + 1)σ2, où θ, δ > 0, pour tout ρ0 > h−1

0 tel que θ > 8ρ0 :

E[‖s− sm‖1ρn≤ρ0] ≤ C infm∈Mn

(inft∈Sm‖s− t‖2 + pen(m)

)+ εn(s)

8

Page 12: Spécialité Mathématiques Avancées, 2ème année Parcours de

où εn(s) ≤ C′

net avec C,C ′ dépendant uniquement de h0, h1, σ2, τp ;

ρn := supt∈Sn\0

‖t‖2

‖t‖2n

avec

‖t‖2n :=

1

n

n∑i=1

t2(Xi),

pour tout t : [0, 1]→ R.

Démonstration de la proposition 2. . On suit ici les étapes de la démonstration du théo-rème 3.1 de Chagny [11].

Soit m ∈Mn. Par définition de m :

γn(sm) + pen(m) ≤ γn(sm) + pen(m).

Soit sm la projection orthogonale de s sur Sm, par définition de sm :

γn(sm) ≤ γn(sm).

En combinant ces deux inégalités, on obtient :

γn(sm)− γn(sm) ≤ pen(m)− pen(m) . (1.6)

Or :

γn(sm)− γn(sm) = ‖sm‖2n − ‖sm‖2

n +2

n

n∑i=1

Yi(sm(Xi)− sm(Xi)).

En utilisant le fait que, pour tout t, ‖t− s‖2n = ‖t‖2

n + ‖s‖2n − 2

n

∑ni=1 t(Xi)s(Xi), on a :

γn(sm)− γn(sm) = ‖sm − s‖2n +

2

n

n∑i=1

sm(Xi)s(Xi)− ‖sm − s‖2n

− 2

n

n∑i=1

sm(Xi)s(Xi) +2

n

n∑i=1

Yi(sm(Xi)− sm(Xi)).

Et comme Yi − s(Xi) = ξi on obtient :

γn(sm)− γn(sm) = ‖sm − s‖2n − ‖sm − s‖2

n +2

n

n∑i=1

ξi(sm(Xi)− sm(Xi)).

Définissons un processus linéaire centré νn(·) de la façon suivante : pour tout t : [0, 1]→ R,

νn(t) =1

n

n∑i=1

ξit(Xi).

L’inégalité (1.6) se réécrit alors :

‖sm − s‖2n ≤ ‖sm − s‖2

n + 2νn(sm − sm) + pen(m)− pen(m). (1.7)

9

Page 13: Spécialité Mathématiques Avancées, 2ème année Parcours de

On veut non pas majorer ‖sm − s‖2n mais E[‖s− sm‖1ρn≤ρ0 ]. Or :

ρn ≤ ρ0 ⇔ ∀t ∈ Sn, ‖t‖2 ≤ ρ0‖t‖2n.

D’où :

E[‖s− sm‖21ρn≤ρ0 ] ≤ 2E[‖s− sm‖2

1ρn≤ρ0] + 2E[‖sm − sm‖21ρn≤ρ0]

≤ 2‖s− sm‖2 + 2ρ0E[‖sm − sm‖2n1ρn≤ρ0]

≤ 2‖s− sm‖2 + 4ρ0E[‖sm − s‖2n] + 4ρ0E[‖s− sm‖2

n1ρn≤ρ0]. (1.8)

De plus :E[‖sm − s‖2

n] ≤ ‖sm − s‖2µ ≤ h1‖sm − s‖2, (1.9)

où on note ‖ · ‖µ la norme usuelle de (L2([0, 1]), µ) (on rappelle que µ est la loi de X).En utilisant (1.8) et (1.9) dans (1.7), on obtient :

E[‖s− sm‖21ρn≤ρ0 ] ≤ (2 + 4ρ0h1)‖sm − s‖2 + 4ρ0E[‖sm − s‖2

n] + 8ρ0E[νn(sm − sm)1ρn≤ρ0]

+ 4ρ0E[pen(m)− pen(m)]

≤ (2 + 8ρ0h1)‖sm − s‖2 + 8ρ0E[νn(sm − sm)1ρn≤ρ0]

+ 4ρ0E[pen(m)− pen(m)]. (1.10)

Pour se débarrasser du caractère doublement aléatoire de νn(sm − sm) (aléa dans ladéfinition de νn et aléa dans la définition de m), on majore de la façon suivante :

|νn(sm − sm)| ≤ ‖sm − sm‖νn(

sm − sm‖sm − sm‖

)≤ ‖sm − sm‖ sup

t∈Sm+Sm, ‖t‖=1

(νn(t))2

≤ ‖sm − sm‖ supt∈Sm∨m

(νn(t))2 ,

avec Sm = t ∈ Sm, ‖t‖ = 1. La dernière inégalité provient du fait que, pour toutm ≤ m′, Sm ⊂ Sm′ .On se ramène à une somme en utilisant le fait que pour tout x, y réels et θ > 0 :2xy ≤ x2

θ+ θy2 on obtient :

2|νn(sm − sm)| ≤ ‖sm − sm‖2

θ+ θ sup

t∈Sm∨m(νn(t))2

≤ 2

θ

(‖sm − s‖2 + ‖sm − s‖2

)+ θ sup

t∈Sm∨m(νn(t))2 .

On injecte ensuite dans l’inégalité (1.10) :(1− 8ρ0

θ

)E‖s− sm‖1ρn≤ρ0 ] ≤

(1 + 8ρ0h1 +

8ρ0

θ

)‖sm− s‖2 + 4ρ0θE

[sup

t∈Sm∨m(νn(t))2

]+ 4ρ0E[pen(m)− pen(m)] (1.11)

10

Page 14: Spécialité Mathématiques Avancées, 2ème année Parcours de

Et enfin :

E[‖s− sm‖1ρn≤ρ0 ] ≤(θ + 8ρ0h1θ + 8ρ0

θ − 8ρ0

)‖sm − s‖2

+

(8ρ0θ

θ − 8ρ0

)(θE[ sup

t∈Sm∨m(νn(t))2] + E[pen(m)− pen(m)]

)Nous allons majorer E

[supt∈Sm∨m (νn(t))2] grâce à la proposition 1 ; pour cela introduisons

dans un premier temps une application p :M2n → R+ telle que, pour tout m, m′ ∈Mn :

θp(m,m′) ≤ pen(m) + pen(m′). (1.12)

Nous avons :

E[‖s− sm‖1ρn≤ρ0 ] ≤(θ + 8ρ0h1θ + 8ρ0

θ − 8ρ0

)‖sm − s‖2 +

(8ρ0θ

θ − 8ρ0

)E

[(sup

t∈Sm∨mν2n(t)− p(m, m)

)+

]

+

(8ρ0θ

θ − 8ρ0

)E[θp(m, m) + pen(m)− pen(m)]

≤(θ + 8ρ0h1θ + 8ρ0

θ − 8ρ0

)‖sm − s‖2 +

(8ρ0θ

θ − 8ρ0

)E

[(sup

t∈Sm∨mν2n(t)− p(m, m)

)+

]

+

(16ρ0θ

θ − 8ρ0

)pen(m)

Pour se débarrasser du double aléa qui apparaît dans le sup de cette inégalité, on majorede la façon suivante :

E[‖s− sm‖1ρn≤ρ0 ] ≤(θ + 8ρ0h1θ + 8ρ0

θ − 8ρ0

)‖sm − s‖2

+

(8ρ0θ

θ − 8ρ0

)E

[ ∑m′∈Mn

(sup

t∈Sm∨mν2n(t)− p(m, m)

)+

]+

(16ρ0θ

θ − 8ρ0

)pen(m) (1.13)

Majoration de E[∑

m′∈Mn

(supt∈Sm∨m′ (νn(t))2 − p(m,m′)

)+

]On veut utiliser ici la

proposition 1 qui nécéssite des quantités bornées. On décompose donc νn de la façonsuivante, soit κn > 0, νn = ν

(1)n + ν

(2)n avec :

ν(1)n (t) =

1

n

n∑i=1

ξit(Xi)1|ξi|≤κn − E[ξ1t(X1)1|ξ1|≤κn]

ν(2)n (t) =

1

n

n∑i=1

ξit(Xi)1|ξi|>κn − E[ξ1t(X1)1|ξ1|>κn],

en remarquant queE[ξ1t(X1)1|ξ1|≤κn] + E[ξ1t(X1)1|ξ1|>κn] = E[ξ1]E[t(X1)] = 0 car ξ1 est indépendant de

11

Page 15: Spécialité Mathématiques Avancées, 2ème année Parcours de

X1 et ξ1 centré. Nous avons :

E

[ ∑m′∈Mn

(sup

t∈Sm∨m′(νn(t))2 − p(m,m′)

)+

]≤

2

(E

[ ∑m′∈Mn

(sup

t∈Sm∨m′

(ν(1)n (t)

)2 − p(m,m′)

2

)+

]

+ E

[ ∑m′∈Mn

(sup

t∈Sm∨m′

(ν(2)n (t)

)2

)])

(on utilise ici le fait que, pour tout a, b, (a+ b)2 ≤ 2(a2 + b2) et pour tout c, d, (c+ d)+ ≤c+ + d+).

Majoration du premier terme On voudrait appliquer la proposition 1 sur l’en-semble Fm∨m′ des fonctions ft : R2 → R+ s’écrivant : ft(ξ, x) = ξt(x)1|ξ|<κn avect ∈ Sm∨m′ . Il faut donc vérifier l’existence des constantesM1,H et v. On a, pour t ∈ Sm∨m′ :

t =2m∨m′+1∑

j=1

αjϕj, (1.14)

où αj =< t, ϕj >.D’où :

‖t‖∞ ≤√

2

2(m∨m′)+1∑j=1

αj

≤√

2

2(m∨m′)+1∑j=1

α2j

1/22(m∨m′)+1∑j=1

1

1/2

où la première inégalité vient du fait que ‖ϕj‖∞ ≤√

2 par définition des ϕj et la deuxièmeest une conséquence de l’inégalité de Cauchy-Schwarz appliquée au produit scalaire usuelde R2(m∨m′)+1.Comme ϕj, j = 1, ..., 2(m ∨m′) + 1 forme une base orthonormée de Sm∨m′ on a ‖t‖ =(∑2(m∨m′)+1

j=1 α2j

)1/2

et on obtient donc, pour tout t ∈ Sm∨m′ :

‖t‖∞ ≤√

2‖t‖√

2(m ∨m′) + 1 ≤√

2√

2(m ∨m′) + 1, (1.15)

et donc :‖ft‖∞ ≤ κn

√2√

2(m ∨m′) + 1.

On pose donc M1 := κn√

2√

2(m ∨m′) + 1.Pour H, on a, pour t ∈ Sm∨m′ , par linéarité de ν(1)

n :

ν(1)n (t) =

2(m∨m′)+1∑j=1

αjν(1)n (ϕj),

12

Page 16: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec les αj définis par (1.14). D’où :

ν(1)n (t)2 ≤

2(m∨m′)+1∑j=1

α2j

2(m∨m′)+1∑j=1

(ν(1)n (ϕj))

2

en utilisant l’inégalité de Cauchy-Schwarz. Et :

ν(1)n (t)2 ≤

2(m∨m′)+1∑j=1

(ν(1)n (ϕj))

2,

car ‖t‖2 =∑2(m∨m′)+1

j=1 α2j = 1. Or, pour tout j :

E[ν(1)n (ϕj)

2] = Var

(1

n

n∑i=1

ξiϕj(Xi)1|ξi|≤κn

)=

1

nVar(ξ1ϕj(X1)1|ξ1|≤κn)

≤ 1

nE[ξ2

1ϕ2j(X1)]

≤ 2σ2

n.

On obtient donc, par Cauchy-Schwarz :

E

[sup

t∈Sm∨m′|ν(1)n (t)|

]2

≤ E

[sup

t∈Sm∨m′

(ν(1)n (t)

)2

]

≤2(m∨m′)+1∑

j=1

E[(ν(1)(ϕj))2]

≤ 2

n(2(m ∨m′) + 1)σ2.

On posera donc H :=√

2n(2(m ∨m′) + 1)σ2.

Calcul de v : pour tout i = 1, ..., n :

Var (ξit(Xi)1ξi≤κn) ≤ E[ξ2i t

2(Xi)]≤ σ2‖t2‖µ ≤ σ2h1.

où la deuxième inégalité provient du fait que ξi et Xi sont indépendants. Nous pouvonsdonc prendre v := σ2h1. Appliquons maintenant la proposition 1, soit Dm∨m′ une partiedénombrable dense de Sm∨m′ , pour tout δ > 0 :

E

[(sup

t∈Dm∨m′(ν(1)n (t))2 − p(m,m′)

2

)+

]≤ C1

nexp (−C2(2(m ∨m′) + 1))

+ C3κ2n

n2(2(m ∨m′) + 1) exp

(−C4

√n

κn

), (1.16)

13

Page 17: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec p(m,m′) := 4(1 + 2δ)H2 = 8n(1 + 2δ)(2(m ∨ m′) + 1)σ2, C1 := 24σ2h1, C2 := 2δ

h1,

C3 := 14112C2(δ)

, C4 :=√

242C(δ)

√δ. Notons que la définition de l’application pen (voir (1.5))

nous assure que p(m,m′) vérifie bien la condition (1.12).En utilisant le lemme 1, on obtient la même majoration en prenant le sup sur tout Sm∨m′ .On somme ensuite sur m′ ∈Mn. Le premier terme de (1.16) donne :∑

m′∈Mn

C1

nexp (−C2(2(m ∨m′) + 1))

=C1

n

(m∑

m′=1

e−C2(2m+1) +Nn∑

m′=m+1

e−C2(2m′+1)

)

≤ C1

n

(me−C2(2m+1) +

Nn∑m′=m+1

e−C2(2m′+1)

).

Le maximum sur R de la fonction x→ xe−C2(2x+1) est e−(1+C2)

2C2, le deuxième terme est une

somme partielle d’une suite géométrique, on obtient :∑m′∈Mn

C1

nexp (−C2(2(m ∨m′) + 1))

≤ C1

n

(e−(1+C2)

2C2

+

(e−2C2

)m+1 −(e−2C2

)Nn+1

1− e−2C2e−C2

)et le tout peut-être majoré par C ′1/n, la constante C ′1 ne dépendant que de δ, h1 et σ2.Pour le deuxième terme de (1.16), en choisissant κn = C4

√n

2 ln(n), on obtient :

(2(m ∨m′) + 1)C3κ2n

n2exp

(−C4

√n

κn

)≤ 2C3

C24 ln2(n)

n−2, (1.17)

car 2(m ∨m′) + 1 ≤ n+ 1 ≤ 2n. La suite un = C3

C24 ln2(n)

converge vers 0 quand n→ +∞,elle est donc majorée par une constante c qui ne dépend que de C3 et C4, c dépend doncuniquement de δ. Nous avons donc :∑

m′∈Mn

(2(m ∨m′) + 1)C3κ2n

n2exp

(−C4

√n

κn

)≤ |Mn|

2c

n2≤ C ′′

n,

avec C ′′ dépendant uniquement de δ.

Majoration du deuxième terme Par linéarité de ν(2)n , nous avons, pour tout

t =∑2(m∨m′)+1

j=1 αjϕj ∈ Sm∨m′ ,

ν(2)n (t) =

2(m∨m′)+1∑j=1

αjν(2)n (ϕj).

D’où, grâce à l’inégalité de Cauchy-Schwarz :

E

[sup

t∈Sm∨m′

(ν(2)n (t)

)2

]≤

2(m∨m′)+1∑j=1

E[(ν(2)n (ϕj)

)2]

14

Page 18: Spécialité Mathématiques Avancées, 2ème année Parcours de

Or :

E[(ν(2)n (ϕj)

)2]

= Var

(1

n

n∑i=1

ξiϕj(Xi)1|ξi|>κn

)=

1

nVar

(ξ1ϕj(X1)1|ξ1|>κn

)≤ 1

nE[(ξ1ϕj(X1)1|ξ1|>κn

)2]

≤ 1

nE[ξ2

11|ξ1|>κn]E[ϕ2j(X1)

]≤ h1

nE

[ξ2

1

(ξ1

κn

)p−2

1| ξ1κn |>1

]≤ h1

n

τp

κp−2n

où la deuxième égalité vient du fait que les observations sont i.i.d. et la deuxième inégalitéprovient de l’indépendance de ξ1 et X1.Finalement :

E

[sup

t∈Sm∨m′

(ν(2)n (t)

)2

]≤ (2(m ∨m′) + 1)

h1

n

τp

κp−2n

.

Et : ∑m′∈Mn

E

[sup

t∈Sm∨m′

(ν(2)n (t)

)2

]

≤m∑

m′=1

(2m+ 1)h1

n

τp

κp−2n

+Nn∑

m′=m+1

(2m′ + 1)h1

n

τp

κp−2n

≤ h1

n

τp

κp−2n

(m(2m+ 1) + ((Nn +m+ 1) (Nn −m) + 1))

≤ 2h1τp

κp−2n

n, (1.18)

car 0 ≤ m ≤ Nn ≤ n2.

Or n

κp−2n

= 2p−2

Cp−24

ln(n)p−2n2− p2 , comme p > 6, il existe une constante c′ dépendant unique-

ment de δ telle que :n

κp−2n

≤ c′

n.

On a donc bien :

E

[ ∑m′∈Mn

(sup

t∈Sm∨m′ν2n(t)

)]≤ C

n,

avec C ne dépendant que de δ, h1, σ2 et τp.Reprenons maintenant l’inégalité (1.13), pour tout m ∈Mn :

E[‖s− sm‖1ρn≤ρ0 ] ≤ C

(inft∈Sm‖s− t‖2 + pen(m)

)+

θ2

θ − 2ρ0

C

n, (1.19)

15

Page 19: Spécialité Mathématiques Avancées, 2ème année Parcours de

où C dépend uniquement de θ, ρ0 et h1. On a donc bien le résultat attendu.

La proposition 2 nous donne une majoration de E[‖s∗ − s‖1ρn≤ρ0. Pour majorerensuite E[‖s∗ − s‖1ρn>ρ0], nous allons utiliser la proposition suivante, due à Baraud [2](proposition 4.2).

Proposition 3. Pour tout ρ0 > h−10 nous avons :

P (ρn > ρ0) ≤ (2Nn + 1)2 exp

(−n h0 − ρ−1

0

2(2Nn + 1)2

)

La démonstration de cette proposition est très similaire à celle du lemme 7 qui en estinspirée, nous avons donc choisi de ne pas la reproduire ici. Elle repose sur une majorationdu rayon spectral de l’inverse d’une matrice de Gram dont les coefficients peuvent êtrecontrôlés à l’aide de l’inégalité de Bernstein (lemme 4). La démonstration complète a étéfaite par Baraud [2] (démonstration de la proposition 4.2).

Démonstration du théorème 1 Nous avons : E[‖s∗ − s‖2] = E1 + E2 + E3 avec :

E1 = E[‖s∗ − s‖21ρn≤ρ0,‖sm‖2≤kn],

E2 = E[‖s∗ − s‖21ρn≤ρ0,‖sm‖2>kn],

E3 = E[‖s∗ − s‖21ρn>ρ0],

avec ρ0 := 2/h0.

Majoration de E1 On peut utiliser directement la proposition 2 en remarquant que :

E1 = E[‖sm − s‖21ρn≤ρ0,‖sm‖2≤kn] ≤ E[‖sm − s‖2

1ρn≤ρ0]

Majoration de E2 Par définition de s∗,

E2 = ‖s‖2P (‖sm‖ > kn, ρn ≤ ρ0) .

Sur l’ensemble ρn ≤ ρ0, nous avons : ‖sm‖ ≤ ρ1/20 ‖sm‖n.

De plus, remarquons que la projection orthogonale du vecteur Y = (Y1, ..., Yn) sur lesous-espace de Rn, (x1, ..., xn) ∈ Rn;∃t ∈ Sm xi = t(Xi), pour tout i = 1, ..., n est(sm(X1), ..., sm(Xn)). La norme de ce dernier vecteur dans Rn est donc inférieure à lanorme de Y , autrement dit :

√n‖sm‖n ≤

(n∑i=1

Y 2i

)1/2

√n‖s‖n +

(n∑i=1

ξ2i

)1/2 ,

16

Page 20: Spécialité Mathématiques Avancées, 2ème année Parcours de

par l’inégalité triangulaire. Nous avons donc :

P (‖sm‖ > kn, ρn ≤ ρ0) ≤ P

ρ1/20 ‖s‖ >

kn2

√ρ0

n

(n∑i=1

ξ2i

)1/2

>kn2

≤ P(ρ0‖s‖2

n > exp(2 ln2(n)))

+P

(ρ0

n∑i=1

ξ2i > n exp(2 ln2(n))

)≤ ρ0

(E[‖s‖2

n

]+ σ2

)exp

(−2 ln2(n)

),

par l’inégalité de Markov.Or E [‖s‖2

n] = ‖s‖2µ ≤ h1‖s‖2 (où l’on rappelle que ‖t‖2

µ = E[t2(X1)]), ρ0 = 2h−10 .

Nous avons donc :

P (‖sm‖ > kn, ρn ≤ ρ0) ≤ c(‖s‖2 + 1

)exp

(−2 ln2(n)

),

où c dépend seulement de h0, h1 et σ2.

Majoration de E3 Par définition de s∗ et grâce à l’inégalité triangulaire, nous avons :

E3 ≤ 2(‖s‖2 + k2

n

)P (ρn > ρ0) .

La proposition 3, nous donne :

P (ρn > ρ0) ≤ (2Nn + 1)2 exp

(−n h0 − ρ−1

0

2(2Nn + 1)2

)≤ n2 exp

(−n h0

18N2n

).

Or, par définition, Nn ≤√

n2 ln3(n)

, cela nous donne :

P (ρn > ρ0) ≤ exp

(−h0 ln3(n)

18+ 2 ln(n)

).

On obtient :

E3 ≤ 2(‖s‖2 + 4 exp

(2 ln2(n)

))exp

(−h0 ln3(n)

18+ 2 ln(n)

).

La suite un = 2 exp(−h0 ln3(n)

18+ 2 ln(n)

)exp

(2 ln2(n)

)converge vers 0, elle est donc ma-

jorée par une constante c′ qui dépend uniquement de h0 et h1, de mêmevn = 8 exp

(−h0 ln3(n)

18+ 2 ln(n)

)exp

(4 ln2(n)

)est majorée par une constante c′′ ne dépen-

dant que de h0 et h1. Nous avons donc :

E3 ≤(c′‖s‖2 + c′′

)exp

(−2 ln2(n)

),

puisE3 ≤ C

(‖s‖2 + 1

)exp

(−2 ln2(n)

),

17

Page 21: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec C dépendant uniquement de h0 et h1.Remarque : L’élément central de la démonstration est le contrôle du processus νn par

l’inégalité de Talagrand. Le terme de pénalité apparaissant dans le critère est défini à cemoment-là et correspond, à une constante multiplicative près, au terme H2 apparaissantdans l’énoncé de cette inégalité (voir proposition 1).

1.4 Vitesse de convergence de l’estimateurGrâce à une inégalité du type de (1.4), on peut établir une borne sur la vitesse de

convergence de l’estimateur choisi. On aura besoin pour cela de majorer, pour tout m ∈Mn, ‖s − sm‖, ce qui sera possible à condition de supposer des conditions de régularitéplus importantes sur s.On supposera ici s ∈ W per(β, L), β ∈ N∗, L > 0, oùW per(β, L) défini de la façon suivante :

W per(β, L) =t ∈ W β

2 (L),∀j = 0, ..., β − 1, t(j)(0) = t(j)(1),

où l’on a noté :

W β2 (L) =

t : [0, 1]→ R, t(β−1)est absolument continue et

∥∥t(β)∥∥ ≤ L

.

On rappelle qu’une fonction t : [a, b]→ R est absolument continue si, pour tout ε > 0, ilexiste δ > 0 telle que pour toute suite ([an, bn])n∈N de sous-intervalles de [a, b] d’intérieursdisjoints : ∑

n∈N

(bn − an) < δ ⇒∑n∈N

|t(an)− t(bn)| < ε.

Dans cet espace, on a le résultat suivant :

Proposition 4 (Tsybakov [24]). Soient β ≥ 1, L > 0, et s ∈ W per(β, L), soit sm laprojection orthogonale de s sur Sm. Alors,

‖s− sm‖2 ≤ L2

π2β(2m+ 1)−2β.

On obtient ainsi une majoration du risque :

Théorème 2. Sous les hypothèses du théorème 1 et en supposant de plus s ∈ W per(β, L)avec β ≥ 1 et L > 0 on a :

E[‖s− s∗‖2

]≤ C(β, L)n−2β/(2β+1).

Preuve du théorème 2. Appliquons la majoration de la proposition 4 à la borne fourniepar le théorème 1 (en remarquant que inft∈Sm ‖s− t‖2 = ‖s− sm‖2), nous obtenons :

E[‖s− s∗‖2

]≤ C

[inf

m∈Mn

(L2

π2β(2m+ 1)−2β +

n(2m+ 1)σ2

)+ εn(s)

]Le minimum sur [0,+∞[ de la fonction f : x 7→ L2

π2β(2x + 1)−2β + 8θ

n(2x + 1)σ2 est

atteint en x0 = 12

((4θσ2π2

nL2

)−1/(2β+1)

− 1

). Choisissons m de l’ordre de n1/(2β+1), alors

f(m) = C(L, β, σ2, θ)n2β/(2β+1). Comme εn(s) ≤ Cn

et 2β2β+1

< 1, on obtient le résultatvoulu.

18

Page 22: Spécialité Mathématiques Avancées, 2ème année Parcours de

Chapitre 2

Modèle de régression linéairefonctionnel

2.1 Le modèle statistique

2.1.1 Définition

On considère le modèle statistique suivant :

Y =

∫ 1

0

β(t)X(t)dt+ ε, (2.1)

avec :– β, la fonction de pente, une fonction dans L2([0, 1]) à estimer,– X une variable aléatoire à valeurs dans L2([0, 1]), centrée c’est-à-dire que l’applica-

tion s 7→ E[X(s)] est identiquement nulle ;– ε une variable aléatoire réelle, centrée, indépendante de X.L’objectif est d’estimer la fonction β sur [0, 1] à partir de la donnée d’un échantillon

(Yi, Xi), i = 1, ..., n vérifiant (2.1).Comme dans la partie précédente nous noterons par < ·, · > le produit scalaire usuel

de L2([0, 1]) et ‖ · ‖ sa norme associée.

2.1.2 Opérateur de covariance

Définition

On définit l’opérateur de covariance Γ associé à la fonction X de la manière suivante :

Γf(s) :=

∫ 1

0

f(t) Cov(X(t), X(s)) dt pour tout f ∈ L2([0, 1]).

En multipliant les deux côtés de l’équation (2.1) et en prenant l’espérance, nous obte-nons :

Γβ(s) = E[X(s)

∫ 1

0

β(t)X(t)dt

], pour tout s ∈ [0, 1],

le problème statistique apparaît donc lié à l’inversion de l’opérateur Γ qui jouera un rôletrès important par la suite.

19

Page 23: Spécialité Mathématiques Avancées, 2ème année Parcours de

Propriétés

Cet opérateur bénéficie de propriétés intéressantes.Premièrement, il est auto-adjoint c’est-à-dire que pour toutes fonctions f et g de

L2([0, 1]) nous avons :< Γf, g >=< f,Γg > .

De plus, par le théorème VI.12 du Brezis [6], Γ est un opérateur de Hilbert-Schmidtc’est-à-dire qu’il existe une base (ej)j∈N de L2([0, 1]) telle que ‖Γ‖2

HS =∑

j∈N |Tej|2 <∞.En particulier Γ est un opérateur compact.

Par le théorème spectral pour les opérateurs compacts auto-adjoints (Brézis [6], théo-rème VI.11) il existe une base hilbertienne (ψj)j∈N de L2([0, 1]) formée de vecteurs propresde Γ.

On notera, pour tout j, λj la valeur propre associée au vecteur propre ψj. Ces valeurspropres sont positives, en effet, pour tout j :

λj‖ψj‖2 =< Γψj, ψj >= E[< X,ψj >2] ≥ 0.

On supposera qu’aucune de ses valeurs propres n’est nulle. Cette hypothèse est indispen-sable pour que le modèle statistique soit identifiable. En effet supposons qu’il existe jtel que λj = 0, alors par ce qui précède, < X,ϕj >= 0 p.s., on aura donc, pour toutβ1 ∈ L2([0, 1]), x ∈ R :

< X, β1 + xϕj >=< X, β1 > .

Si le couple de variables aléatoires (X, Y ) vérifie (2.1) avec β = β1 alors il vérifie éga-lement (2.1) avec β = β1 + xϕj. On ne pourrait donc pas retrouver β à partir d’unéchantillon (Yi, Xi), i = 1, ..., n vérifiant (2.1).

Version empirique

L’opérateur Γ est inconnu, il est donc souvent utile d’en définir une version empirique.Nous noterons :

Γn :=1

n

n∑i=1

< Xi, · > Xi.

Cet opérateur est également auto-adjoint et compact (car de rang fini). Par conséquent,le théorème spectral assure l’existence d’une base hilbertienne (ψj)j∈N de L2([0, 1]) forméede fonctions propres de Γn. On notera, pour tout j, λj la valeur propre associée à ψj etl’on numérotera de façon à ce que la suite

(λj

)j≥1

soit décroissante.

2.2 Risques considérésLa première idée naturelle est de considérer la distance entre β et son estimateur pour

une distance donnée. On peut prendre par exemple la distance associée à la norme usuellede L2([0, 1]) ou à une norme pondérée :

‖f‖2ω =

∑j≥1

ωj| < f, ej > |2,

avec (ωj)j≥1 une suite de réels positifs et (ej)j≥1 une base de L2([0, 1]).

20

Page 24: Spécialité Mathématiques Avancées, 2ème année Parcours de

Un autre point de vue est de regarder l’erreur quadratique moyenne commise en pré-disant, connaissant X, une nouvelle valeur de Y .

Plus précisément, on souhaite évaluer la qualité d’un estimateur β de β obtenu à partird’un échantillon (Xi, Yi), i = 1, ..., n. Soit Xn+1 une variable aléatoire de même loi queX, indépendante de l’échantillon X1, ..., Xn, on définit à partir de β et Xn+1 la quantitésuivante :

Yn+1 :=

∫ 1

0

β(s)Xn+1(s)ds.

L’erreur de prévision se définit donc naturellement comme étant la quantité :

E[(Yn+1 − E [Yn+1|Xn+1]

)2

|X1, ..., Xn

],

qui peut se réécrire de la façon suivante :

E[(Yn+1 − E [Yn+1|Xn+1]

)2

|X1, ..., Xn

]=< Γ(β − β), β − β >

=∞∑j=1

λj

(< β − β, ϕj >

)2

.

Ce qui nous conduit à considérer un nouveau produit scalaire sur L2([0, 1]) :

< f, g >Γ:=∞∑j=1

λj < f, ϕj >< g, ϕj >,

et sa norme associée ‖ · ‖Γ.Cardot et Johannes [10] ont établi une borne inférieure pour le risque lié à l’erreur de

prévision, en considérant deux type de décroissance des valeurs propres (λj)j≥1 de Γ :

Proposition 5 (Cardot et Johannes [10]). Soit W per(α,L) l’espace de Sobolev périodisédéfini dans le paragraphe 1.4, avec α ∈ N∗ et L > 0. On suppose que le terme de bruit εest gaussien.Cas polynomial S’il existe des constantes c > 0 et a > 1/2 telles que, pour tout j ≥ 1,

j−2a/c ≤ λj ≤ cj−2a alors il existe une constante CP telle que, pour tout estimateurβ :

supβ∈Wper(α,L)

E[‖β − β‖2Γ] ≥ CPn

−(2α+2a)/(2α+2a+1).

Cas exponentiel S’il existe des constantes c > 0 et a > 0 telles que, pour tout j ≥ 1,exp(−j2a)/c ≤ λj ≤ c exp(−j2a) alors il existe une constante CE telle que, pour toutestimateur β :

supβ∈Wper(α,L)

E[‖β − β‖2Γ] ≥ CEn

−1(log n)1/2a.

21

Page 25: Spécialité Mathématiques Avancées, 2ème année Parcours de

2.3 Travaux existants sur le modèle de régression li-néaire fonctionnel

2.3.1 Régression en composantes principales (FPCR)

Cette procédure d’estimation consiste à définir un estimateur de β dans l’espaceVect

ψ1, ..., ψKn

engendré par les fonctions propres associées aux Kn plus grandes va-

leurs propres de Γn, avec Kn un entier positif.On prend ensuite l’estimateur des moindres carrés sur cet espace que l’on peut écrire dela façon suivante :

β =Kn∑j=1

∆nψj

λjψj,

avec :

∆n :=1

n

n∑i=1

Yi < Xi, · > .

Cet estimateur à été proposé pour la première fois par Cardot, Ferraty et Sarda [7] qui ontmontré qu’il convergeait en probabilité et presque sûrement. Les simulations ont montréque les estimateurs obtenus par cette méthode étaient assez irréguliers, c’est la raisonpour laquelle cette procédure est souvent combinée avec une étape de lissage. Cardot,Ferraty et Sarda [8] ont proposé par exemple de lisser cet estimateur en le projetant dansun espace engendré par des splines. L’estimateur obtenu converge en probabilité vers lafonction de pente sous certaines conditions portant sur la vitesse de convergence de Kn.

2.3.2 Estimateur par projection

Cette procédure est très similaire à la précédente, elle consiste à définir un estimateurpris dans un sous-espace de dimension finie de L2([0, 1]). On peut citer par exemple Cardotet Johannes [10] qui ont proposé l’estimateur suivant :

β =Kn∑j=1

βj1‖Γ−1n,k‖≤γnel,

avec γ un réel positif, (el)l≥1 base hilbertienne de L2([0, 1]) et Γn,k la restriction de l’opé-rateur Γn à l’espace engendré par e1, ..., ek. L’introduction du terme de seuil permetd’éviter que l’estimateur soit trop instable.Sous certaines conditions, cet estimateur atteint la vitesse de convergence minimale pourle risque lié à l’erreur de prévision donnée dans la proposition 5.

2.3.3 Estimation par moindres carrés pénalisés

Cette classe d’estimateurs consiste à développer le paramètre β dans une certaine basenon aléatoire de L2([0, 1]) (par exemple la base des splines) et de minimiser un critère desmoindres carrés pénalisé.

22

Page 26: Spécialité Mathématiques Avancées, 2ème année Parcours de

2.3.4 Choix de l’entier Kn

Les résultats théoriques sont en général obtenus sous des hypothèses concernant lavitesse de convergence de l’entier Kn. En pratique, cet entier est sélectionné en mini-misant un certain critère empirique par exemple un critère du type GCV (voir Cardot,Ferraty et Sarda [8]), ou un critère de validation croisée prédictive (voir Hall et Hosseini-Nasab [20]) qui consiste à sélectionner l’entier Kn minimisant une version empirique del’erreur de prévision. Ce critère de choix n’est cependant pas inclus dans l’étude théoriquede l’estimateur.

2.3.5 Sélection de modèle

Très récemment Comte et Johannes [12] ont proposé une procédure d’estimation parsélection de modèle en se plaçant sous l’hypothèse que la base de fonctions propres del’opérateur de covariance Γ est la base de Fourier (ϕj)j≥1 définie dans le chapitre précédent(ce qui est le cas si la courbe X est supposée périodique).L’estimateur proposé dans cet article est celui minimisant un certain contraste pénaliséparmi une famille d’estimateurs βm,m = 1, ..., Mn définie par :

βm :=m∑j=1

∆nϕj

λj1λj≥1/nϕj,

avec :

λj :=1

n

n∑i=1

< Xi, ϕj >2 .

L’intérêt de cette procédure est qu’elle définit un critère théorique, à n fixé, de choix del’entier m.

Comte et Johannes ont montré que cet estimateur atteignait une vitesse de convergenceoptimale sous certaines hypothèses, en considérant une norme pondérée. La forme de lapénalité rend toutefois l’estimateur difficile à implémenter. D’autre part, la définition duterme de pénalité dans le critère permettant de sélectionner m dépend de la suite (ωj)des poids intervenant dans la définition de la norme ce qui ne permet pas de considérer lerisque associé à l’erreur de prévision (puisque les poids de la norme sont dans ce cas lesvaleurs propres inconnues de l’opérateur Γ).

A notre connaissance, aucune procédure d’estimation par sélection de modèle n’a étédéfinie dans le cas où les fonctions propres de Γ sont supposées inconnues.

23

Page 27: Spécialité Mathématiques Avancées, 2ème année Parcours de

Chapitre 3

Point de vue de la sélection de modèlesur le problème de régression linéairefonctionnel à données ”circulaires”

3.1 Cadre

3.1.1 Rappel sur le modèle statistique

On rappelle la définition du modèle statistique considéré :

Y =

∫ 1

0

β(t)X(t)dt+ ε, (3.1)

avec :– β, la fonction de pente, une fonction dans L2([0, 1]) à estimer,– X une variable aléatoire à valeurs dans L2([0, 1]), centrée c’est-à-dire que l’applica-

tion s 7→ E[X(s)] est identiquement nulle ;– ε une variable aléatoire réelle, centrée, indépendante de X.

3.1.2 Hypothèse sur les fonctions propres de Γ

Dans la suite, on supposera, en suivant Comte et Johannes [12] que les fonctionspropres de l’opérateur de covariance Γ (voir section 2.1.2) sont connues et composées desfonctions suivantes :

ϕ1 ≡ 1, ϕ2j(·) :=√

2 cos(2πj·) et ϕ2j+1(·) :=√

2 sin(2πj·).

3.1.3 Critère de qualité

On évaluera la qualité de l’estimateur en terme du risque E[‖β − β‖2Γ]. On rappelle

que la norme ‖ · ‖Γ est la norme associée au produit scalaire suivant défini sur L2([0, 1]) :

< f, g >Γ:=∞∑j=1

λj < f, ϕj >< g, ϕj > .

24

Page 28: Spécialité Mathématiques Avancées, 2ème année Parcours de

3.2 EstimateurComme dans la partie 1, définissons :

Sm := Vect ϕj, j = 1, ..., 2m+ 1 ,

nous allons définir une procédure d’estimation de β basée sur le principe suivant :1. Définition pour tout m d’un estimateur de β sur Sm ;2. Choix de m.

3.2.1 Estimation sur Sm

La contraste choisi est celui des moindres carrés :

γn(f) :=1

n

n∑i=1

(Yi− < f,Xi >)2 .

On définira, lorsque cela sera possible (voir paragraphe suivant) :

βm := arg minf∈Smγn(f).

3.2.2 Condition d’existence et calcul de βmNotons Dm := dimSm = 2m+ 1.Soit F l’application définie par :

F (α) :=1

n

n∑i=1

(Yi −

Dm∑j=1

αj < ϕj, Xi >

)2

, pour tout α ∈ RDm .

Nous avons, pour tout α = (α1, ..., αDm) ∈ RDm ,

F (α) = γn

(Dm∑j=1

αjϕj

),

minimiser γn sur Sm revient donc à minimiser F sur RDm .Remarquons que la fonction F est convexe, elle admet donc un minimum global en α

si et seulement si ∇F (α) = 0.Nous avons, pour tout α ∈ RDm , pour tout k ∈ 1, ..., Dm,

∂F

∂αk(α) = − 2

n

n∑i=1

Yi < ϕk, Xi > +2

n

Dm∑j=1

αj

n∑i=1

< ϕk, Xi >< ϕj, Xi >

Notons,

Φm :=

(1

n

n∑i=1

< ϕj, Xi >< ϕk, Xi >

)1≤j,k≤Dm

, (3.2)

25

Page 29: Spécialité Mathématiques Avancées, 2ème année Parcours de

et,

b :=

(1

n

n∑i=1

Yi < ϕj, Xi >

)t

1≤j≤Dm

,

alors :

∂F

∂αk(α) = −2bk + 2

Dm∑j=1

αj(Φm)j,k,

d’où,∇F (α) = −2b+ 2Φmα.

On a donc existence et unicité sur Sm de l’estimateur des moindres carrés βm si etseulement si la matrice Φm est inversible, dans ce cas cet estimateur s’écrit :

βm =Dm∑j=1

αjϕj,

avec α = Φ−1m b.

3.2.3 Choix du modèle

Soit Nn un entier non nul que l’on définira plus précisément par la suite et Mn :=1, ..., Nn. L’ensemble Sm,m ∈ Mn est l’ensemble des modèles possibles, c’est-à-direque l’on choisira, sous certaines conditions assurant l’inversibilité des matrices Φm, notreestimateur parmi l’ensemble βm,m ∈Mn des estimateurs des moindres carrés de β surSm.

Définissons :pen(m) := 4θ(1 + 2δ)Dm

σ2

n,

avec θ > 8 et δ > 0.Notons, pour tout m ∈Mn, λm la plus petite valeur propre de Φm et :

Gm :=λm ≥ sn

,

avec sn = 2n

(1− 1

lnn

).

La matrice aléatoire Φm est symétrique définie positive sur l’ensemble Gm, elle estdonc en particulier inversible.

Définissons l’ensemble G suivant :

G =⋂

m∈Mn

Gm,

les arguments donnés dans le paragraphe 3.2.2 nous assurent que pour toutm l’estimateurβm est bien défini sur G.

Nous pouvons donc définir sur G :

m ∈ arg minm∈Mn

(γn(βm) + pen(m)

),

la minimisation ne pose ici aucun problème puisque l’ensembleMn est fini.

26

Page 30: Spécialité Mathématiques Avancées, 2ème année Parcours de

3.2.4 Définition de l’estimateur

L’estimateur proposé est le suivant :

β :=

βm sur G0 sur Gc.

3.3 Majoration du risque de l’estimateur

3.3.1 Hypothèse

Dans la suite nous appellerons (Hmom) l’hypothèse suivante sur les moments de< X,ϕj > :Il existe deux constantes v et c strictement positives telles que pour tout j = 1, ..., DNn etpour tout q ≥ 2 :

E

∣∣∣∣∣< ϕj, X >√λj

∣∣∣∣∣2q ≤ q!

2v2cq−2.

3.3.2 Théorème principal

Théorème 3. Supposons que la variable aléatoire ε admette un moment τp d’ordre p > 6,que E[< β,X >4] < +∞, et que l’hypothèse (Hmom) soit vérifiée.

En choisissant Nn tel que,

min1≤j≤DNn λj ≥ 2/n et DNn ≤ K√

nln3 n

,

avec K une constante quelconque.On a, pour toute fonction de pente β ∈ L2([0, 1]) :

E[‖β − β‖2Γ] ≤ C

(minm∈Mn

(inff∈Sm

‖β − f‖2Γ + pen(m)

)+

1

n

), (3.3)

avec C dépendant uniquement de K, ρ(Γ), p, τp, σ2, c, v, θ, δ, ‖β‖Γ et E[< β,X >4].

Démonstration

Résultats préliminaires

Nous noterons Sn := SNn , cet espace joue un rôle particulier car, pour tout m ∈Mn,Sm ⊂ Sn. Notre estimateur β appartiendra donc forcément à Sn.

Nous noterons pour tout f ∈ Sn,

‖f‖2n =

1

n

n∑i=1

< f,Xi >2, (3.4)

la semi-norme empirique apparaissant naturellement dans notre problème d’estimation.Cette semi-norme a une propriété qui sera fort utile par la suite :

E[‖f‖2

n

]= ‖f‖2

Γ, pour tout f ∈ L2([0, 1]). (3.5)

27

Page 31: Spécialité Mathématiques Avancées, 2ème année Parcours de

Dans la proposition qui suit nous nous placerons sur l’ensemble

∆n :=∀f ∈ Sn, ‖f‖2

Γ ≤ ρ0‖f‖2n

,

avec 1 < ρ0 < θ/8, qui nous permettra de faire le lien entre la norme ‖ · ‖Γ associée àl’erreur de prévision et notre semi-norme empirique. Le lemme 6 nous permettra ensuitede majorer le risque sur ∆c

n.Comme dans la partie 1, nous allons contrôler un processus empirique à l’aide de

l’inégalité de Talagrand. La version de Chagny utilisée dans la partie 1 ne permettant pasde considérer des variables aléatoires à valeurs dans L2([0, 1]), nous utiliserons la versionsuivante :

Lemme 2 (Inégalité de Talagrand (Comte, Rozenholc, Taupin [13])). Soit T1, ..., Tn desvariables aléatoires i.i.d et rn(f) = (1/n)

∑ni=1(f(Ti)−E[f(Ti)] pour f appartenant à une

classe dénombrable F de fonctions mesurables. Alors, pour tout δ > 0 :

E[supf∈F|rn(f)|2−2(1+2δ)H2] ≤ 6

K1

(v

nexp

(−K1δ

nH2

v

)+

8M21

K1n2C2(δ)exp

(−K1C(

√δ)√δ√

2

nH

M1

)),

avec C(x) =√

1 + x2 − 1, K1 une constante universelle et :

supf∈F‖f‖∞ ≤M1, E[sup

f∈F|rn(f)|] ≤ H, sup

f∈FVar(f(T1)) ≤ v.

Proposition 6. Supposons que la variable aléatoire ε admette un moment τp d’ordrep > 6 et que l’hypothèse (Hmom) soit vérifiée, alors pour tout 1 < ρ0 < θ/8 :

E[‖βm − β‖2

Γ1∆n∩G

]≤ C

(inf

m∈Mn

(inft∈Sm‖s− t‖2

Γ + pen(m)

)+

1

n

)avec C une constante dépendant uniquement de p, τp, θ, δ, ρ0, v, c et σ2.

Démonstration. Soit βm la projection orthogonale (par rapport au produit scalaire< ·, · >Γ)de β sur Sm, par définition du contraste γn, sur G :

γn(βm)− γn(βm) =∥∥∥βm − β∥∥∥2

n− ‖βm − β‖2

n + 2νn

(βm − βm

),

avec, pour f ∈ Sm, m ∈Mn :

νn(f) :=1

n

n∑i=1

εi < f,Xi > .

Le processus νn(·) est linéaire et centré.La linéarité de νn nous donne :

νn

(βm − βm

)≤∥∥∥βm − βm∥∥∥2

Γsup

f∈SΓm∨m

(νn(f))

28

Page 32: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec SΓm := f ∈ Sm, ‖f‖Γ = 1.

Soit θ > 0, pour tous réels x et y, on a : 2xy ≤ x2/θ + θy2, d’où :

2νn

(βm − βm

)≤ 1

θ

∥∥∥βm − βm∥∥∥2

Γ+ θ sup

f∈SΓm∨m

(νn(f))2,

Par définition de l’estimateur pénalisé βm :

γn

(βm

)− γn(βm) ≤ pen(m)− pen(m),

puis :∥∥∥βm − β∥∥∥2

n≤ pen(m)− pen(m) + ‖βm − β‖2

n +1

θ

∥∥∥βm − βm∥∥∥2

Γ+ θ sup

f∈SΓm∨m

(νn(f))2 (3.6)

Pour se débarrasser de la norme ‖ · ‖n dans l’équation précédente on remarque que surl’ensemble ∆n on a, pour tout f ∈ Sn :

‖f‖2Γ ≤ ρ0‖f‖2

n.

On obtient, en utilisant deux fois l’inégalité triangulaire et la propriété (3.5) de la semi-norme empirique :

E[∥∥∥βm − β∥∥∥2

Γ1∆n∩G

]≤ 2E

[∥∥∥βm − βm∥∥∥2

Γ1∆n∩G

]+ 2E

[‖βm − β‖2

Γ 1∆n∩G]

≤ 2ρ0E[∥∥∥βm − βm∥∥∥2

n1∆n∩G

]+ 2 ‖βm − β‖2

Γ

≤ 4ρ0E[∥∥∥βm − β∥∥∥2

n1∆n∩G

]+ (4ρ0 + 2) ‖βm − β‖2

Γ .

En utilisant l’inégalité (3.6), on a ensuite :

E[∥∥∥βm − β∥∥∥2

Γ1∆n∩G

]≤ 4ρ0E[pen(m)− pen(m)] +

8ρ0

θE[∥∥∥βm − β∥∥∥2

Γ1∆n∩G

]+

(8ρ0

θ+ 8ρ0 + 2

)‖βm − β‖2

Γ + E

[4θρ0 sup

f∈SΓm∨m

(νn(f))2

].

On a θ > 8ρ0, l’équation précédente devient donc :

E[∥∥∥βm − β∥∥∥2

Γ1∆n∩G

]≤ 4θρ0

θ − 8ρ0

E[pen(m)− pen(m)] +8ρ0 + 8θρ0 + 2θ

θ − 8ρ0

‖βm − β‖2Γ

+4θ2ρ0

θ − 8ρ0

E

[sup

f∈SΓm∨m

(νn(f))2

].

Posons :p(m,m′) := 4(1 + 2δ)Dm∨m′

σ2

n,

en remarquant que, pour tout m,m′ ∈Mn :

θp(m,m′) ≤ pen(m) + pen(m′),

29

Page 33: Spécialité Mathématiques Avancées, 2ème année Parcours de

on obtient finalement :

E[‖βm − β‖2

Γ1∆n∩G

]≤ 8ρ0 + 8θρ0 + 2θ

θ − 8ρ0

‖βm − β‖2Γ+

8θρ0

θ − 8ρ0

pen(m) +4θ2ρ0

θ − 8ρ0

∑m′∈Mn

E

( supf∈SΓ

m∨m′

(νn(f))2 − p(m,m′)

)+

(3.7)

On décompose ensuite νn de la manière suivante :

νn = ν(1)n + ν(2)

n ,

avec :

ν(1)n (f) =

1

n

n∑i=1

εi < f,Xi > 1Ωεi,Xi− E

[ε1 < f,X1 > 1Ωε1,X1

]ν(2)n (f) =

1

n

n∑i=1

εi < f,Xi > 1Ωcεi,Xi− E

[ε1 < f,X1 > 1Ωcε1,X1

],

où :

Ωε,X :=

|ε| ≤ κn,

∣∣∣∣∣< X,ϕj >√λj

∣∣∣∣∣ ≤ bn, pour tout j = 1, ..., Nn

,

avec bn et κn des suites de réels positifs que l’on déterminera par la suite.On a :

E

( supt∈SΓ

m∨m′

(νn(f))2 − p(m,m′)

)+

≤ 2E

( supf∈SΓ

m∨m′

(ν(1)n (f))2 − p(m,m′)

2

)+

+ 2E

( supf∈SΓ

m∨m′

(ν(2)n (f))

)2 (3.8)

Pour la majoration du premier terme, on applique l’inégalité de Talagrand à la famille Fdéfinie de la façon suivante : à tout f ∈ SΓ

m∨m′ , on associe la fonction gf : R×L2([0, 1])→ Rdéfinie par gf (x,X ) = x < f,X > 1Ωx,X , on pose ensuite :

F = gf , f ∈ L2([0, 1]).

Pour cela on doit calculer les quantités M1, H et V telles que :

supg∈F‖g‖∞ ≤M1, E

[sup

f∈SΓm∨m′

|ν(1)n (f)|

]≤ H et sup

g∈FVar(g(ε,X)) ≤ V.

On a, pour tout f ∈ SΓm∨m′ , pour tout X ∈ L2([0, 1]) :

< f,X >=

Dm∨m′∑j=1

< f, ϕj >< ϕj,X >=

Dm∨m′∑j=1

√λj < f, ϕj >

< ϕj,X >√λj

.

30

Page 34: Spécialité Mathématiques Avancées, 2ème année Parcours de

D’où, par Cauchy-Schwarz, pour tout x ∈ R :

|x < f,X > |1Ωx,X ≤ κn√Dm∨m′b2

n‖f‖Γ,

On a donc, puisque ‖f‖Γ = 1 :

supg∈F‖g‖∞ ≤ κnbn

√Dm∨m′ =: M1.

De même, pour le calcul de H, par linéarité de ν(1)n , pour tout f ∈ SΓ

m∨m′ :

(ν(1)n (f)

)2=

(Dm∨m′∑j=1

λj < f, ϕj > ν(1)n

(ϕj√λj

))2

≤Dm∨m′∑j=1

(ν(1)n

(ϕj√λj

))2

Et :

E

(ν(1)n

(ϕj√λj

))2 = Var

(1

n

n∑i=1

εi< ϕj, Xi >√

λj1Ωεi,Xi

)

≤ σ2

nE[< ϕj, X1 >

2

λj

]or :

E[< ϕj, X1 >

2]

=< Γϕj, ϕj >= λj,

d’où :

E

[sup

f∈SΓm∨m′

∣∣ν(1)n (f)

∣∣]2

≤ Dm∨m′σ2

n=: H2.

Et enfin, pour tout f ∈ SΓm∨m′ :

Var(ε < f,X > 1Ωε,X

)≤ σ2E

[< f,X >2

],

et

E[< f,X >2

]=

Dm∨m′∑j,k=1

< f, ϕj >< f, ϕk >< Γϕj, ϕk >= ‖f‖2Γ.

On a donc :supg∈F

Var(g(ε,X)) ≤ σ2 =: V.

On peut donc appliquer l’inégalité de Talagrand et obtenir pour tout δ > 0,

E

( supf∈SΓ

m∨m′

|ν(1)n (f)|2 − p(m,m′)

2

)+

≤ 6σ2

K1nexp (−K1δDm∨m′)

+ C1Dm∨m′κ2nb

2n

n2exp

(−C2

√n

κnbn

),

31

Page 35: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec C1 := 48/(K21C

2(δ)), C2 := (K1C(√δ)√δσ2)/

√2, C(δ) :=

√1 + δ − 1, et K1 une

constante universelle, c’est-à-dire ne dépendant pas de la fonction β à estimer.En posant ensuite :

κnbn :=C2

√n

2 lnn,

on obtient la majoration suivante :

∑m′∈Mn

E

( supf∈SΓ

m∨m′

|ν(1)n (f)|2 − p(m,m′)

2

)+

≤ C

n,

avec C une constante dépendant uniquement de σ2 et δ.Pour ν(2)

n , on a, par Cauchy-Schwarz :

|ν(2)n (f)|2 ≤

Dm∨m′∑j=1

ν(2)n

(ϕj√λj

)2

‖f‖2Γ,

d’où pour tout f ∈ SΓm∨m′ ,

E

[sup

f∈Sm∨m′|ν(2)n (f)|2

]≤

Dm∨m′∑j=1

E

ν(2)n

(ϕj√λj

)2

puis, par indépendance de X et ε :

E

ν(2)n

(ϕj√λj

)2 =

1

nVar

(ε< ϕj, X >√

λj1Ωcε,X

)

≤ 1

nE[ε21|ε|>κn

]E[< ϕj, X >2

λj

]+

1

nE[ε2]E

[< ϕj, X >2

λj1∣∣∣∣<X,ϕj>√

λj

∣∣∣∣>bn]

≤ 1

n

(τp

κp−2n

+σ2

b2q−2n

(1 + q)! v2cq−1

),

avec q ≥ 2(p−2)p−6

+ 1 un entier (on utilise ici l’hypothèse (Hmom)).On obtient donc ensuite :

E

[sup

f∈Sm∨m′|ν(2)n (f)|2

]≤ Dm∨m′

n

(τp

κp−2n

+σ2

b2q−2n

(1 + q)! v2cq−1

).

En choisissant κn := n2/(p−2) et bn := C2

2 lnn

√n

n2/(p−2) , et en remarquant que :∑m′∈Mn

Dm∨m′ ≤ 7n2,

on obtient : ∑m′∈Mn

E

[sup

f∈Sm∨m′|ν(2)n (f)|2

]≤ C

n.

32

Page 36: Spécialité Mathématiques Avancées, 2ème année Parcours de

avec C une constante dépendant uniquement de p, τp, v, c et δ.En reprenant l’inégalité (3.8), on obtient :

E

( supf∈SΓ

m∨m′

(νn(f))2 − p(m,m′)

)+

≤ C

n,

avec C une constante dépendant uniquement de σ2, δ, p et τp, puis (3.7) nous donne lerésultat voulu.

La proposition 6 nous permet de contrôler le risque de notre estimateur sur l’ensemble∆n ∩ G, pour contrôler ce risque sur les ensembles Gc et ∆c

n, nous allons montrer grâceau lemme suivant que sur ces ensembles les valeurs propres d’une certaine matrice Ψm nepeuvent pas être trop grandes.

Lemme 3. Soit, pour m ∈Mn, λm la plus petite valeur propre de la matrice Φm définiepar l’équation (3.2) et µm la plus petite valeur propre de la matrice

Ψm :=

(1

n

n∑i=1

< ϕj, Xi >√λj

< ϕk, Xi >√λk

)1≤j,k≤Dm

(3.9)

alors :1.

λmρ(Γ)

≤ µm ≤ λm

(min

1≤j≤Dmλj

)−1

,

avec ρ(Γ) le rayon spectral de l’opérateur Γ ;2. Si de plus µNn > 0 :

µNn = inff∈Sn\0

‖f‖2n

‖f‖2Γ

.

Démonstration du point 1 : Soit m ∈Mn, posons :

Λm :=

√λ1

. . . √λDm

.

On a :Φm = ΛmΨmΛm.

Par conséquent, µm = 0 si et seulement si λm = 0, dans ce cas-là l’assertion est vérifiée.Si µm > 0 alors à la fois Φm et Ψm sont inversibles et on a :

µm = ρ(Ψ−1m

)−1 et λm = ρ(Φ−1m

)−1.

Notons ||| · ||| la norme matricielle subordonnée à la norme hilbertienne usuelle sur RDm ,notée | · |2. On rappelle la définition de cette norme :

|||A||| = sup|a|2=1

|Aa|2, pour toute matrice carrée A.

33

Page 37: Spécialité Mathématiques Avancées, 2ème année Parcours de

Si, de plus, A est symétrique alors : ρ(A) = |||A|||. On obtient donc :

ρ(Φ−1m

)= |||Φ−1

m ||| = |||Λ−1m Ψ−1

m Λ−1m |||

≤ |||Λ−1m |||2|||Ψ−1

m ||| = ρ(Λ−1m

)2ρ(Ψ−1m

).

D’où :λm ≥ min

1≤j≤Dmλj µm.

D’autre part, comme Ψ−1m = ΛmΦ−1

m Λm, on a de même :

µ−1m ≤ max

1≤j≤Dmλj λ

−1m ≤ ρ(Γ)λ−1

m ,

d’où le résultat.Démonstration du point 2 :

Soit f =∑DNn

j=1 αjϕj ∈ Sn\0 :

‖f‖2n =

DNn∑j,k=1

αjαk1

n

n∑i=1

< ϕj, Xi >< ϕk, Xi >

=

DNn∑j,k=1

√λj√λkαjαk

1

n

n∑i=1

< ϕj, Xi >√λj

< ϕk, Xi >√λk

= t(Λmα)ΨNnΛmα.

On a :

‖f‖2Γ =

DNn∑j=1

λjα2j = |Λmα|2,

où | · | est la norme hilbertienne usuelle de RDNn . Par conséquent :

infSn\0

‖f‖2n

‖f‖2Γ

= infa∈RDNn ,|a|=1

taΨNna.

On remarque que la matrice ΨNn est symétrique, et si µNn := min Sp(ΨNn) > 0 elle estégalement définie positive.Il existe donc une matrice orthogonale U telle que tUΨNnU est diagonale de coefficientsdiagonaux les valeurs propres de ΨNn . On a donc :

infa∈RDNn ,|a|=1

taΨNna = infa∈RDNn ,|a|=1

ta tUΨNnUa = µNn .

Par le point 1 du lemme 3, pour majorer la probabilité de l’ensemble Gc =(⋂

m∈Mnλm > sn

)cil suffit de majorer, pour toutm ∈Mn, la probabilité de l’ensemble µm ≤ sn min1≤j≤Dm λj.Le point 2 nous permet également d’établir l’égalité suivante :

µ < ρ−10 = ∆c

n.

Pour majorer les probabilités des ensembles G et ∆cn, il faut donc savoir contrôler les

probabilités que les valeurs propres de µm soient au-dessous d’une certaine valeur, ce quisera fait dans le lemme 5. Pour démontrer ce lemme, nous allons utiliser la version suivantede l’inégalité de Bernstein :

34

Page 38: Spécialité Mathématiques Avancées, 2ème année Parcours de

Lemme 4 (Inégalité de Bernstein(Birgé et Massart [5])). Soient Z1, ..., Zn des variablesaléatoires telles qu’il existe v et c des constantes positives vérifiant, pour tout m ≥ 2 :

1

n

n∑i=1

E[|Zi|m] ≤ m!

2v2cm−2.

Alors, pour tout x > 0,

P

(1

n

n∑i=1

Zi − E

[1

n

n∑i=1

Zi

]≥ v√

2x+ cx

)≤ exp(−nx).

Lemme 5. Soit, pour m ∈Mn, µm la plus petite valeur propre de la matrice Ψm définiepar l’équation (3.9). Soit τ un réel tel que 0 < τ < 1, alors, sous l’hypothèse (Hmom) :

P(µm < τ) = 2D2m exp

(−n 1− τ

4D2m max(2v2, c)

).

Démonstration. Nous avons :

µm < τ = 1− µm > 1− τ .

Comme 1− τ > 0 :

1− µm > 1− τ ⊂ |1− µm| > 1− τ ⊂ ρ (Ψm − I) > 1− τ .

Comme la trace d’une matrice est égale à la somme de ses valeurs propres (comptées avecleur multiplicité), nous avons :

ρ(ψm − I)2 ≤ tr((ψm − I)2) = tr( t(ψm − I)(ψm − I)), (3.10)

car ψm − I est symétrique. Le dernier membre de l’inégalité étant égal à la somme descarrés des coefficients de ψm − I.Posons, pour j, k = 1, ..., Dm :

Z(j,k)i =

< ϕj, Xi >√λj

< ϕk, Xi >√λk

,

nous avons, pour tout j, k, E[Z

(j,k)i

]= δj,k. D’où, par (3.10) :

ρ(Ψm − I) ≤∑

1≤j,k≤Dm

(1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

])2

.

35

Page 39: Spécialité Mathématiques Avancées, 2ème année Parcours de

Cela nous donne donc :

P (µm < τ) ≤ P

∑1≤j,k≤Dm

(1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

])2

> 1− τ

≤ P

⋃1≤i,j≤Dm

(

1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

])2

>1− τD2m

≤∑

1≤j,k≤Dm

P

( 1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

])2

>1− τD2m

∑1≤j,k≤Dm

P

(∣∣∣∣∣ 1nn∑i=1

Z(j,k)i − E

[Z

(j,k)i

]∣∣∣∣∣ >√

1− τDm

)

≤∑

1≤j,k≤Dm

P

(1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

]>

√1− τDm

)

+ P

(− 1

n

n∑i=1

Z(j,k)i + E

[Z

(j,k)i

]>

√1− τDm

). (3.11)

L’hypothèse (Hmom) nous permet d’appliquer, pour tout j, k = 1, ..., Dm l’inégalité deBernstein à Z(j,k)

1 , ..., Z(j,k)n et d’obtenir, pour tout x > 0 :

P

(1

n

n∑i=1

Z(j,k)i − E

[Z

(j,k)i

]> v√

2x+ cx

)≤ exp(−nx),

et de même, pour tout x > 0 :

P

(− 1

n

n∑i=1

Z(j,k)i + E

[Z

(j,k)i

]> v√

2x+ cx

)≤ exp(−nx),

en appliquant l’inégalité à la suite −Z(j,k)1 , ...,−Z(j,k)

n .Posons :

x =1− τ

4D2m max(2v2, c)

,

v√

2x+ cx ≤√

1− τDm

(1

2

√2v√

max(2v2, c)+

1

4

√1− τDm

c

max(2v2, c)

)≤√

1− τDm

.

Ce qui nous donne par (3.11) :

P (µm < τ) ≤ 2∑

1≤j,k≤Dm

exp(−nx),

d’où le résultat.

Nous pouvons maintenant majorer la probabilité de l’ensemble ∆cn :

36

Page 40: Spécialité Mathématiques Avancées, 2ème année Parcours de

Lemme 6. Sous l’hypothèse (Hmom), pour tout ρ0 > 1,

P(∆cn) ≤ 2D2

Nn exp

(−n 1− ρ−1

0

4D2Nn

max(2v2, c)

).

Démonstration. Nous avons :

∆cn =

∃f ∈ Sn tel que ‖f‖2

Γ > ρ0‖f‖2n

=

inf

f∈Sn\0

‖f‖2n

‖f‖2Γ

< ρ−10

Si µNn > 0 alors par le point 2 du lemme 3 nous avons :

µNn = inff∈Sn\0

‖f‖2n

‖f‖2Γ

,

d’où :∆cn ⊂

µNn < ρ−1

0

.

On applique ensuite le lemme 5 avec τ = ρ−10 .

Le lemme suivant nous permet maintenant de contrôler l’ensemble Gc où notre esti-mateur est nul.

Lemme 7. Sous l’hypothèse (Hmom) et en supposant min1≤j≤DNn λj ≥ 2/n,

P(Gc) ≤ N3n exp

(− n

2 lnnN2n max(2v2, c)

)Démonstration. On a :

P(Gc) = P(⋃

Gcm

)≤∑m∈Mn

P(λm < sn

). (3.12)

Par le point 1 du lemme 3 nous avons :

P(λm < sn

)≤ P

(µm <

snmin1≤j≤Dm λj

).

Or, par hypothèse :sn

min1≤j≤Dm λj≤ nsn

2= 1− 1

lnn,

d’où en appliquant le lemme 5 avec τ = 1− 1lnn

, nous obtenons :

P(λm < sn

)≤ 2D2

m exp

(−n 1

4 lnnD2m max(2v2, c)

).

Nous avons : Dm ≤ DNn ≤ Nn2, d’où :

P(λm < sn

)≤ N2

n exp

(−n 1

2 lnnN2n max(2v2, c)

),

on injecte ensuite dans l’inégalité (3.12) pour terminer la démonstration.

37

Page 41: Spécialité Mathématiques Avancées, 2ème année Parcours de

Démonstration du théorème

Démonstration. Fixons un réel ρ0 tel que 1 < ρ0 < θ/8.Nous avons :

E[‖β − β‖2Γ] ≤ E1 + E2 + E3,

avec :

E1 = E[‖β − β‖2Γ1∆n∩G],

E2 = E[‖β − β‖2Γ1∆c

n],

E3 = E[‖β − β‖2Γ1Gc ]

Majoration de E1 Sur G on a :β = βm,

on applique donc simplement la proposition 6.

Majoration de E2 On a :

E2 ≤ 2E[(‖β‖2

Γ + ‖β‖2Γ

)1∆c

n

].

Or :E[‖β‖2

Γ1∆cn

]= E

[‖βm‖2

Γ1∆cn∩G

]. (3.13)

Par le point 1 du lemme 3 :

G ⊂λNn ≥ sn

⊂µNn ≥

snρ(Γ)

.

Sur G, pour toute fonction f ∈ Sn non nulle, par le point 2 du lemme 3 :

‖f‖2Γ <

ρ(Γ)‖f‖2n

sn.

En particulier :

E[‖βm‖2Γ1∆c

n∩G] ≤ ρ(Γ)

snE[‖βm‖2

n1∆cn]. (3.14)

Pour tout m ∈ Mn rappelons que βm minimise le contraste des moindres carrés surSm. Le vecteur (< βm, X1 >, ..., < βm, Xn >) de Rn est donc la projection orthogonale duvecteur (Y1, ..., Yn) sur le sous-espace

x ∈ Rn, il existe f ∈ Sm tel que < f,Xi >= xi, i = 1, ..., n .

Comme la norme d’un vecteur est supérieure à la norme de sa projection nous avons :

n‖βm‖2n ≤

n∑i=1

Y 2i ,

puis comme Yi =< β,Xi > +εi :

‖βm‖2n ≤ 2‖β‖2

n +2

n

n∑i=1

ε2i .

38

Page 42: Spécialité Mathématiques Avancées, 2ème année Parcours de

Cette inégalité est vraie pour tout m, donc en particulier pour m et par (3.13) et (3.14)nous obtenons :

E2 ≤4ρ(Γ)

snE[‖β‖2

n1∆cn] +

4ρ(Γ)

snσ2P(∆c

n) + 2E[‖β‖2Γ]P(∆c

n).

Par Cauchy-Schwarz :

E[‖β‖2n1∆c

n] ≤ E[‖β‖4

n]1/2√P(∆c

n),

comme,

E[‖β‖4n] =

1

nE[< β,Xi >

4] +n− 1

n‖β‖4

Γ,

nous avons :

E[‖β‖2n1∆c

n] ≤

(1√nE[< β,X >4]1/2 +

√n− 1

n‖β‖2

Γ

)√P(∆c

n).

On obtient donc :

E2 ≤4ρ(Γ)

sn

(1√nE[< β,X >4]1/2 +

√n− 1

n‖β‖2

Γ

)√P(∆c

n)+4ρ(Γ)

snσ2P(∆c

n)+2E[‖β‖2Γ]P(∆c

n).

Par le lemme 6 et en utilisant la condition sur DNn :

1

sn

√P(∆c

n) ≤ n

2

1

1− 1/ lnn

√2DNn exp

(−n 1− ρ−1

0

8D2Nn

max2v2, c

)≤ 1

1− 1/ lnn

Kn3/2

√2 ln3/2 n

exp

(− (1− ρ−1

0 ) ln3 n

8K2 max2v2, c

)≤ C ′1 exp

(3

2lnn− C ′′1 ln3 n

)≤ C ′′′1 /n,

avec C ′1, C ′′1 et C ′′′1 dépendant uniquement de K, ρ0, v et c.En remarquant que P(∆c

n) ≤√

P(∆cn), nous obtenons bien :

E2 ≤C1

n,

avec C1 dépendant uniquement de K, ρ0, v, c, ρ(Γ), ‖β‖Γ et E[< β,X >4].

Majoration de E3 Par définition de β,

E3 = ‖β‖2ΓP(Gc) ≤ ‖β‖2

ΓD3Nn exp

(− n

2 lnnD2Nn

max(2v2, c)

),

par le lemme 7. D’où, en utilisant la condition sur DNn :

E3 ≤ C2‖β‖2Γ exp

(3 lnn/2− C ′2 ln2 n

)≤ C ′′2

n‖β‖2

Γ,

avec C2, C ′2 et C ′′2 des réels positifs dépendant uniquement de c et v.

39

Page 43: Spécialité Mathématiques Avancées, 2ème année Parcours de

3.3.3 Vitesse de convergence

Comme dans le paragraphe 1.4, l’inégalité-oracle nous permet d’obtenir une borne surla vitesse de convergence :

Proposition 7. Soit W per(α,L) l’espace de Sobolev périodisé défini au paragraphe 1.4,avec α ∈ N∗ et L > 0. Supposons que les hypothèses du théorème 3 sont vérifiées.Cas polynomial S’il existe des constantes c > 0 et a > 0 telles que, pour tout j ≥ 1,

j−2a/c ≤ λj ≤ cj−2a nous avons :

supβ∈Wper(α,L)

E[‖β − β‖2Γ] ≤ CPn

−(2α+2a)/(2α+2a+1),

avec CP ne dépendant pas de n.Cas exponentiel S’il existe des constantes c > 0 et a > 0 telles que, pour tout j ≥ 1,

exp(−j2a)/c ≤ λj ≤ c exp(−j2a) alors :

supβ∈Wper(α,L)

E[‖β − β‖2Γ] ≤ CEn

−1(lnn)1/2a,

avec CE ne dépendant pas de n.

Remarque : La proposition 5 nous assure que cette vitesse de convergence estoptimale dans le cas où le bruit est gaussien.

Nous allons utiliser le résultat suivant :

Lemme 8 (Tsybakov [24]). Soient α ∈ N∗, et L > 0. Une fonction t =∞∑j=1

θjϕj est dans

l’espace W per(α,L) si et seulement si (θj)j∈N∗ est dans l’ellipsoïde

Θ

(α,

L2

π2α

):=

θ ∈ `2(N),

∞∑j=1

c2jθ

2j ≤

L2

π2α

,

avec :cj =

jα, si j est pair(j − 1)α sinon.

Démonstration de la proposition 7. Soit m ∈ Mn. Soit β ∈ W per(α,L) et βm sa projec-tion orthogonale (au sens du produit scalaire < ·, · >Γ) sur Sm.

Cas polynomial Nous avons :

‖β − βm‖2Γ =

∑j≥Dm+1

λj < β, ϕj >2≤ c

∑j≥Dm+1

j−2a < β, ϕj >2 .

Puis en remarquant que la suite (cj)j≥1 est croissante :

‖β − βm‖2Γ ≤

c

c2Dm+1

∑j≥Dm+1

j−2ac2j < β, ϕj >

2≤ c(Dm + 1)−2a

c2Dm+1

∑j≥Dm+1

c2j < β, ϕj >

2 .

40

Page 44: Spécialité Mathématiques Avancées, 2ème année Parcours de

Par le lemme 8, nous avons : ∑j≥Dm+1

c2j < β, ϕj >

2≤ L2

π2α,

d’où, en remarquant que cDm+1 ≥ D2αm :

‖β − βm‖2Γ ≤ c′D−2a−2α

m ,

avec c′ = c2−2a L2

π2α . Par le théorème 3, nous avons ensuite :

E[‖β − β‖2Γ] ≤ C1 min

m∈Mn

(c′D−2a−2α

m + 4θ(1 + 2δ)Dmσ2

n

)+C2

n(1 + ‖β‖2

Γ).

Le minimum est atteint pour Dm de l’ordre de n−1/(2a+2α+1) et sa valeur est de l’ordren−(2a+2α)/(2a+2α+1). Ce qui nous donne bien le résultat voulu en remarquant que1/n = O(n−(2a+2α)/(2a+2α+1)).

Cas exponentiel En reprenant le même raisonnement que pour le cas polynomial :

‖β − βm‖2Γ ≤ c

∑j≥Dm+1

exp(−j2a) < β, ϕj >2≤ c exp(−(Dm + 1)2a)

c2Dm+1

∑j≥Dm+1

c2j < β, ϕj >

2 .

Puis par le lemme 8,

‖β − βm‖2Γ ≤ c exp(−(Dm + 1)2a)D−2α

m

L2

π2α.

Comme (Dm + 1)2a = D2am + o(1) quand m→ +∞, il existe une constante C telle que :

‖β − βm‖2Γ ≤ C exp(−D2a

m )D−2αm .

Par le théorème 3 et en choisissant Dm de l’ordre de (lnn)1/2a nous avons :

E[‖β − β‖2Γ] ≤ C1 min

m∈Mn

(C exp(−D2a

m )D−2αm + 4θ(1 + 2δ)Dm

σ2

n

)+C2

n(1 + ‖β‖2

Γ)

≤ C ′1n−1(lnn)−2α/2a + C ′2n

−1(lnn)1/2a + C ′3n−1,

avec C ′1, C ′2 et C ′3 des réels positifs ne dépendant pas de n. Ce qui nous donne bien lerésultat voulu car n−1(lnn)−2α/2a = O(n−1(lnn)1/2a) et n−1 = O(n−1(lnn)1/2a).

41

Page 45: Spécialité Mathématiques Avancées, 2ème année Parcours de

Chapitre 4

Simulations

Le but de cette section est d’illustrer le comportement de l’estimateur β de la fonctionde pente β. Dans une première partie nous présentons la méthode de simulation d’unéchantillon, puis dans une seconde partie la méthode de calcul de β et dans une troisièmepartie les résultats des simulations.

4.1 Méthode de simulationNous expliquons ici la méthode utilisée pour simuler un échantillon

(Yi, Xi), i = 1, ..., n suivant le modèle de régression fonctionnelle :

Yi =< β,Xi > +εi, i = 1, ..., n.

Nous considèrerons les fonctions de pente suivantes :

β1(t) = log(15t2 + 10) + cos(4πt);

β2(t) = 12 sin(√

2πt) + 7 cos(13πt);

β3(t) = t(t− 1);

β4(t) = 1t∈[1/2;3/4].

La fonction β1 à été choisie par Cardot, Ferraty et Sarda [8] pour l’étude numérique deleur estimateur.Nous pouvons remarquer que la fonction β3 est dans l’espace de Sobolev périodiséW per(1, 1).

4.1.1 Simulation d’une courbe aléatoire X

Par hypothèse, la variable aléatoire X est à valeurs dans L2([0, 1]), nous avons donc :

X =∑j≥1

ξjϕj, (4.1)

avec, pour tout j, ξj =< X,ϕj >.Pour tout j, ξj est un variable aléatoire réelle, centrée et de variance λj.

En effet, par le théorème de Fubini :

E [< X,ϕj >] =

∫ 1

0

E[X(s)]ϕj(s)ds = 0,

42

Page 46: Spécialité Mathématiques Avancées, 2ème année Parcours de

car X est centrée.De plus :

Var (< X,ϕj >) = E[∫ 1

0

∫ 1

0

X(s)X(t)ϕj(s)ϕj(t)

]=< Γϕj, ϕj >= λj.

Nous suivrons ici la méthode proposée par Hall et Horowitz [19] et Hall et Hosseini-Nasab [20] qui consiste à tronquer la somme de l’équation (4.1). Plus précisément, soitξj, j = 1, ..., 2J + 1 une suite de variables aléatoires indépendantes et centrées, tellesque pour tout j, Var(ξj) = λj, nous poserons :

X(t) =2J+1∑j=1

ξjϕj(t).

Ici, nous choisirons J = 500 et ξj ∼ N (0, λj).Pour mesurer les conséquences de la loi de X sur la qualité de l’estimateur, nous consi-

dérerons deux séquences de valeurs propres différentes pour l’opérateur Γ, correspondantaux cas précédemment étudiés pour la vitesse de convergence :

– une séquence de type polynomial : λ(P ) = (j−2a)j≥1 avec a = 1. Si la courbe X estle mouvement brownien standard, alors λj = 1

(j−0.5)2π2 (voir Ash et Gardner [1]).Par le choix a = 1, nous avons cherché à obtenir une courbe ayant des propriétéssimilaires à celles du mouvement brownien.

– une séquence de type exponentiel : λ(E) = (exp(−j2a))j≥1. Ce cas ne semble pasavoir déjà été étudié numériquement. Nous avons décidé de fixer a = 1/4. En effet,si a est trop grand (par exemple a > 1/2), la suite (λj) atteint très rapidement desvaleurs trop petites pour être traitées numériquement.

0 0.2 0.4 0.6 0.8 1−4

−2

0

2

4λ = λ(P )

t

X(t)

0 0.2 0.4 0.6 0.8 1−4

−2

0

2

4λ = λ(E)

t

X(t)

Figure 4.1 – Exemples de courbes aléatoires

4.1.2 Simulation de Y

A partir de la suite ξj, j = 1, ..., 2J + 1, nous avons :

Y =2J+1∑j=1

ξj < β, ϕj > +ε.

43

Page 47: Spécialité Mathématiques Avancées, 2ème année Parcours de

La suite (< β, ϕj >)1≤j≤2J+1 peut-être + soit de façon exacte (par exemple pour β2,β3 ou β4) ou de manière approchée par une méthode de quadrature (pour β4).

Le bruit ε à été choisi gaussien : ε ∼ N (0, σ2), avec σ2 = 0.01.Ce procédé est ensuite réitéré n fois indépendamment pour obtenir un n-échantillon

i.i.d (Xi, Yi), i = 1, ..., n.

4.2 Calcul de l’estimateur

4.2.1 Choix de l’ensemble Mn

Nous rappelons queMn = 1, ..., Nn est l’ensemble des entiers m pour lesquels nouscalculerons l’estimateur βm. Nous allons choisir Nn de façon à ne pas être dans l’ensemble :

G =⋂

m∈Mn

λm > sn,

sur lequel l’estimateur β est nul (on rappelle que λm est la plus petite valeur propre deΦm).

On peut tracer les valeurs propres λm en fonction de m et regarder le moment où ellespassent en-dessous du seuil. On choisira Nn comme étant le plus grand entier pour lequeltoutes les valeurs propres λm,m = 1, ..., Nn sont au-dessus de sn.

On peut voir sur la figure 4.2 que sur 100 tirages, l’entier Nn choisi varie au plus de 1.

18 20 22 24 262

4

6

8

10

12

14×10−4

m

λ(P )

24 26 28 30

0.5

1

1.5

2

×10−3

m

λ(E)

Figure 4.2 – Tracé de la plus petite valeur propre (croix bleues) de Φm en fonction dem, le seuil sn est représenté par la ligne rouge. Le calcul à été fait sur 100 échantillons detaille n = 2000.

4.2.2 Etape d’estimation

On résoud ensuite pour tout m ∈Mn, l’équation Φmαm = bm avec :

bm =

(1

n

n∑i=1

Yi < ϕj, Xi >

)1≤j≤Dm

.

44

Page 48: Spécialité Mathématiques Avancées, 2ème année Parcours de

L’estimateur des moindres carrés de β sur Sm est :Dm∑j=1

αm,jϕj.

On obtient par ce procédé une famille βm,m ∈ Mn d’estimateurs de β (voir parexemple la figure 4.3). Grâce au critère défini précédemment, nous allons sélectionnerun estimateur βm dans cette famille. On peut déjà remarquer sur la figure 4.3 que le moptimal dépend fortement de la fonction à estimer (et donc des données), en effet on peutvoir sur cet exemple qu’il se situe autour de 3 pour β1 et 14 pour β2.

0 0.2 0.4 0.6 0.8 11

2

3

4

5

t

β(t

)

Comparaison de plusieurs estimateurs de β1

0 0.2 0.4 0.6 0.8 1−20

−10

0

10

20

30

t

Comparaison de plusieurs estimateurs de β2

Figure 4.3 – Tracé de la pente β et de βm, n = 2000, λ = λ(P ). A gauche la fonctionβ1 (pointillés) puis βm pour m = 1 (bleu), m = 3 (vert) et m = 8 (rouge). A droite lafonction β2 (pointillés) puis βm pour m = 3 (bleu), m = 14 (vert) et m = 29 (rouge).

4.2.3 Etape de sélection

Nous rappelons ici le critère de choix de m définit précédemment :

m ∈ arg minm∈Mn

(γn(βm) + pen(m)

),

avec :pen(m) = 4θ(1 + 2δ)Dm

σ2

n,

où θ > 8 et δ > 0.La première question qui se pose est celle du choix de θ et δ. Posons κ = 4θ(1 + 2δ), siκ est trop grand on aura tendance à choisir des valeurs trop petites de m et inversement,la question du choix de cette constante est donc importante.Nous présentons dans la section suivante une méthode permettant de calibrer la constanteκ à l’aide de simulations.

4.2.4 Calibration de la constante apparaissant dans la pénalité

Nous allons tenter de calibrer la constante κ de façon à ce qu’elle minimise la versionempirique du risque choisi pour les quatre fonctions de pentes définies précédemment et

45

Page 49: Spécialité Mathématiques Avancées, 2ème année Parcours de

les deux suites λ(P ) et λ(E) de valeurs propres de Γ. Une première étape consiste à savoirapprocher l’erreur de prévision d’un estimateur. Ce qui nous permettra ensuite de pouvoircalculer l’erreur moyenne de prévision.

Calcul de l’erreur de prévision d’un estimateur

Nous rappelons que nous pouvons écrire l’erreur de prévision d’un estimateur β de lafaçon suivante :

‖β − β‖2Γ =

∑j≥1

λj < β − β, ϕj >2 .

Nous approcherons cette quantité en tronquant la somme précédente :

e(β) :=2J+1∑j=1

λj < β − β, ϕj >2,

avec J = 500.

Methode de calcul du risque

Pour approcher E[‖β − β‖2Γ], nous allons utiliser la méthode de Monte-Carlo. Pour

cela on simule nest échantillons indépendants (X(j)i , Y

(j)i ), i = 1, ..., n de taille n, pour

chaque échantillon, on calcule l’estimateur β(j) correspondant dont on estime l’erreur deprévision e(β(j)) par la méthode précédente. On pose ensuite :

Enest :=1

nest

nest∑j=1

e(β(j)).

On fixera nest = 1000.

Calibration de la constante

Les premiers résultats numériques nous ont suggérés que la condition théorique κ > 32donnée dans la définition de la pénalité était probablement beaucoup trop importante, eneffet on observe sous ces conditions des valeurs de m alternant entre 1 et 2 alors que lavaleur de m minimisant l’erreur moyenne de prévision est plus importante.

C’est ce qui nous a conduit à regarder des valeurs de κ plus petites que 32, ce qui aconfirmé nos soupçons. On peut voir en effet sur les tracés situés en haut de la figure 4.4que le κ optimal se situerait en réalité plutôt dans l’intervalle ]0, 10]. Au vu des courbessituées en bas, nous avons décidé de fixer κ à 2.5.

4.3 Résultats et commentaires

4.3.1 Estimation de β1L’estimation de β1 semble fonctionner assez bien, d’après les tracés représentés sur la

figure 4.5 et les résultats donnés dans le tableau 4.1.

46

Page 50: Spécialité Mathématiques Avancées, 2ème année Parcours de

0 10 20 30 40 500

0.05

0.1

0.15

0.2

κ 0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

κ

0 2 4 6 8 100

0.02

0.04

0.06

0.08

0.1

κ 0 2 4 6 8 100

0.2

0.4

0.6

0.8

1

κ

Figure 4.4 – Calibration de κ. Les courbes représentent un tracé de l’erreur de prévisionmoyenne d’un échantillon de 1000 estimateurs calculés sur des échantillons i.i.d de taillen = 2000 de différents β (βi, i = 1, ...4) et différents λ (λ(P ) et λ(E)). La courbe dedroite représente les mêmes données que la courbe de gauche auxquelles on a appliquéune transformation linéaire.

La figure 4.6 représente l’évolution du risque en fonction des données. Le tracé enéchelle log nous permet de supposer que la décroissance du risque se fait ici en n−α. Lapente de la droite de régression nous donne une estimation de α à 0.63 pour λ(P ) et 0.53pour λ(E).

4.3.2 Estimation de β2Les résultats de l’estimation sont similaires à ceux de la fonction β1. On constate que,

pour ces deux fonctions, l’estimation semble meilleure dans le cas λ = λ(E) (voir figure 4.7).En revanche l’erreur de prévision moyenne a un comportement totalement différent ici.On constate en effet (voir figure 4.8) une décroissance ”lente” du risque pour n petit puisune augmentation brutale de la vitesse de décroissance. L’origine de ce comportementest probablement à chercher dans le fait que la forme de la fonction β2 la rend difficile àapprocher par une fonction de l’espace Sm pour m petit. Or, comme on peut le voir surla figure 4.9, quand n est petit, m est souvent choisi assez petit également.

47

Page 51: Spécialité Mathématiques Avancées, 2ème année Parcours de

0 0.2 0.4 0.6 0.8 11

2

3

4

5λ = λ(P )

t

β1(t

)

0 0.2 0.4 0.6 0.8 11

2

3

4

5λ = λ(E)

t

β1(t

)

Figure 4.5 – Tracé de β1 et de ses différents estimateurs (n = 2000)

n = 100 n = 1000 n = 5000

λ(P ) moyenne (×10−3) 8.4 1.8 1.1médiane (×10−3) 5.4 1.3 0.98

λ(E) moyenne (×10−3) 4.5 1.1 0.50médiane (×10−3) 3.6 0.96 0.44

Table 4.1 – Moyenne et médiane de l’erreur de prévision pour β1

4.3.3 Estimation de β3On constate ici une diminution rapide du risque moyen (figure 4.11) de l’ordre de n−α

avec α à 0.91 pour λ(P ) et 0.79 pour λ(E).

4.3.4 Estimation de β4La fonction β4 n’étant pas de classe C1, on peut s’attendre à avoir des difficultés à l’ap-

procher correctement à l’aide de la base de Fourier (phénomène de Gibbs). On remarquenéanmoins (voir figure 4.12) que l’estimateur reprend globalement la forme de la fonctionà estimer et on peut espérer de meilleurs résultats en considérant d’autres fonctions debase pour nos modèles. La figure 4.13 et le tableau 4.4 montrent une décroissance durisque. Dans le cas λ(E) on peut voir une décroissance du risque de l’ordre de n−α avecα = 0.62.

48

Page 52: Spécialité Mathématiques Avancées, 2ème année Parcours de

0 500 1000 1500 20000

0.005

0.01

0.015

0.02

0.025

n102 103

10−2.8

10−2.1

n

0 500 1000 1500 20000

2

4

6

8×10−3

n103

10−3

n

Figure 4.6 – Décroissance de l’erreur moyenne de prévision pour β1 en fonction de lataille de l’échantillon pour λ(P ) (en haut) et λ(E) (en bas). A gauche erreur de prévisionmoyenne (en bleu), médiane (pointillés noirs), premier et dernier décile (en rouge). Adroite erreur de prévision moyenne tracée en échelle log (en bleu), droite de régression(pointillés rouges).

0 0.2 0.4 0.6 0.8 1−20

−10

0

10

20λ = λ(P )

t

β2(t

)

0 0.2 0.4 0.6 0.8 1−20

−10

0

10

20λ = λ(E)

t

β2(t

)

Figure 4.7 – Tracé de β2 (en noir) et de ses différents estimateurs (en vert), n = 2000.

49

Page 53: Spécialité Mathématiques Avancées, 2ème année Parcours de

n = 100 n = 1000 n = 5000

λ(P ) moyenne 0.13 0.03 0.01médiane 0.13 0.028 0.011

λ(E) moyenne 0.54 0.021 0.083médiane 0.54 0.021 0.080

Table 4.2 – Moyenne et médiane de l’erreur de prévision pour β2

500 1000 1500 2000

0.05

0.1

0.15

n103

10−1

n

500 1000 1500 20000

0.2

0.4

n103

10−1

n

Figure 4.8 – Décroissance de l’erreur moyenne de prévision pour β2 en fonction de lataille de l’échantillon pour λ(P ) (en haut) et λ(E) (en bas). A gauche erreur de prévisionmoyenne (en bleu), médiane (pointillés noirs), premier et dernier décile (en rouge). Adroite erreur de prévision moyenne tracée en échelle log (en bleu).

0 500 1000 1500 20000

5

10

15

20

n

λ(P )

0 500 1000 1500 20000

5

10

15

20

25

n

λ(E)

Figure 4.9 – Tracé de la moyenne de m (sur 1000 estimateurs) en fonction de n (pointillésnoirs), la courbe rouge représente Nn.

50

Page 54: Spécialité Mathématiques Avancées, 2ème année Parcours de

0 0.2 0.4 0.6 0.8 1−0.4

−0.3

−0.2

−0.1

0

0.1λ = λ(P )

t

β(t

)

0 0.2 0.4 0.6 0.8 1−0.4

−0.3

−0.2

−0.1

0

0.1λ = λ(E)

t

Figure 4.10 – Tracé de β3 (en noir) et de ses estimateurs (en vert), n = 2000.

n = 100 n = 1000 n = 5000

λ(P ) moyenne (×10−4) 29 3.7 0.66médiane (×10−4) 10 1.1 0.26

λ(E) moyenne (×10−4) 18 2.0 0.52médiane (×10−4) 11 1.2 3.4

Table 4.3 – Moyenne et médiane de l’erreur de prévision pour β3

0 500 1000 1500 20000

2

4

6×10−3

n103

10−3

n

500 1000 1500

1

2

3

×10−3

n103

10−3

n

Figure 4.11 – Décroissance de l’erreur moyenne de prévision pour β3 en fonction de lataille de l’échantillon pour λ(P ) (en haut) et λ(E) (en bas). A gauche erreur de prévisionmoyenne (en bleu), médiane (pointillés noirs), premier et dernier décile (en rouge). Adroite erreur de prévision moyenne tracée en échelle log (en bleu), droite de régression(pointillés rouges).

51

Page 55: Spécialité Mathématiques Avancées, 2ème année Parcours de

0 0.2 0.4 0.6 0.8 1−1

0

1

2λ = λ(P )

t0 0.2 0.4 0.6 0.8 1

−1

0

1

2λ = λ(E)

t

Figure 4.12 – Tracé de β4 (en noir) et de ses estimateurs (en vert), n = 2000.

500 1000 1500 20000

2

4

6

8

10

×10−3

n103

10−2.9

10−2.2

n

500 1000 1500 2000

2

4

6

8

×10−3

n103

10−3

n

Figure 4.13 – Décroissance de l’erreur moyenne de prévision pour β4 en fonction de lataille de l’échantillon pour λ(P ) (en haut) et λ(E) (en bas). A droite, tracé fait en échellelog, la droite de régression est représentée en rouge.

n = 100 n = 1000 n = 5000

λ(P ) moyenne (×10−4) 17 9.8 7.5médiane (×10−4) 9.2 5.4 4.8

λ(E) moyenne (×10−4) 14 8.8 7.2médiane (×10−4) 11 6.7 5.5

Table 4.4 – Moyenne et médiane de l’erreur de prévision pour β4

52

Page 56: Spécialité Mathématiques Avancées, 2ème année Parcours de

Chapitre 5

Intégration de fonctions à valeurs dansun espace de Banach et application àl’étude des projecteurs

Dans la partie 3, nous avons défini un estimateur de la fonction de pente β, en utilisantdes procédures de sélection de modèle, dans le cas où les fonctions propres ψjj≥1 del’opérateur de covariance Γ sont connues (et égales à la base de Fourier). Nous avons définiun estimateur dans l’espace Sm := Vectψ1, ..., ψDm.

Pour traiter le cas où les fonctions propres de l’opérateur Γ sont inconnues, on cher-chera à définir un estimateur de la fonction β dans un espace Sm engendré par les Dm pre-mières fonctions propres de l’opérateur de covariance empirique Γn. Pour pouvoir contrô-ler le risque de cet estimateur, il faut pouvoir contrôler la distance entre l’opérateur deprojection Πk sur Sm et l’opérateur de projection Πk sur Sm.

Parmi les travaux existant sur cette problématique, on peut citer, Dauxois, Pousse etRomain [15] qui ont établi la convergence p.s. de l’opérateur Πk vers Πk à k fixé quand lenombre d’observations tend vers l’infini. Certains auteurs (par exemple Dauxois, Pousse etRomain [15] ou Cardot, Mas et Sarda [9]) ont pu établir des résultats donnant une vitessede convergence à k fixé ou avec k dépendant du nombre d’observations, pour certainstypes de convergence. Ces résultats sont asymptotiques. Néanmoins, pour pouvoir établirune inégalité-oracle similaire aux inégalités 1.4 et 3.3, donnant un contrôle du risqued’un estimateur de la fonction β dans le cas où les fonctions propres de l’opérateur decovariance sont inconnues, il semble nécessaire de contrôler à n fixé (par des inégalitésde concentration) la distance entre ces deux opérateurs, ce qui est encore un problèmeouvert.

C’est la raison pour laquelle nous avons entamé un travail d’étude de ces opérateursde projection. L’idée principale consiste à écrire ces opérateurs sous une forme intégralepermettant de les relier directement aux opérateurs Γ et Γn plus faciles à étudier. Laforme obtenue permet ensuite de contrôler la distance entre Πk et Πk. On s’inspirera icides travaux de Cardot, Mas et Sarda [9] et Crambes et Mas [14].

53

Page 57: Spécialité Mathématiques Avancées, 2ème année Parcours de

5.1 Rappels sur l’intégration de fonctions à valeurs dansun espace de Banach complexe

Soit Ω un ouvert de C et E un espace de Banach complexe muni d’une norme ‖ · ‖E(par exemple E l’espace L(L2([0, 1])) des applications linéaires continues de L2([0, 1]) dansL2([0, 1]) vu comme C-espace vectoriel muni de la norme opérateur).

5.1.1 Notion d’holomorphie

Par analogie avec les fonctions à valeurs dans C, on peut définir une notion d’holo-morphie sur les fonctions à valeurs dans E.

Définition 1. On dira qu’une fonction f : Ω→ E est fortement holomorphe si pour toutz ∈ Ω,

limu→z

f(z)− f(u)

z − uexiste.

5.1.2 Intégration de fonctions à valeurs dans E

On peut définir l’intégrale de fonctions à valeurs dans un espace de Banach de manièreanalogue à celle de fonctions à valeurs réelles ou complexes, comme limite d’intégralesde fonctions étagées (voir Dunford-Schwarz [16], chapitre III). Cependant ces intégralessont difficiles à manipuler et l’on préfèrera se rapporter à l’intégration mieux connue defonctions à valeurs dans C au moyen de la proposition suivante qui est une applicationdu théorème donné dans la section III.6.20 du Dunford-Schwarz.

Proposition 8. Soit f : Ω → E une fonction continue. Alors pour toute forme linéaireΛ ∈ E∗, pour tout compact K de Ω :

Λ

∫K

f(z)dz =

∫K

Λf(z)dz.

Par la suite on s’intéressera à l’intégration sur des lacets de Ω et on notera plussimplement

∫γplutôt que

∫supp(γ)

.On remarque que par définition, si f est fortement holomorphe, on a, pour tout z, u :

‖f(z)− f(u)‖E ≤(C +

∥∥∥∥limu→z

f(z)− f(u)

z − u

∥∥∥∥E

)|z − u|,

avec C une constante. Toute fonction fortement holomorphe est donc continue et l’on peutdéfinir son intégrale sur tout compact de Ω.

Remarque : La proposition 8 nous permet d’étendre sans trop de difficultés lesthéorèmes classiques d’analyse complexe (formule de Cauchy, théorème des résidus) à desintégrales de fonctions définies sur C et à valeurs dans un espace de Banach.

5.2 Application à l’étude des projecteursOn rappelle que l’on note par (ψj)j≥1 la base hilbertienne formée des fonctions propres

de Γ et pour tout j par λj la valeur propre associée à ψj avec λ1 > λ2 > ....

54

Page 58: Spécialité Mathématiques Avancées, 2ème année Parcours de

Nous noterons également :

Γn :=1

n

n∑i=1

< Xi, · > Xi,

l’opérateur de covariance empirique qui est également compact auto-adjoint. On notera(ψj)j≥1 base hilbertienne formée de fonctions propres de Γn et λj les valeurs propresassociées rangées dans l’ordre décroissant.

On notera Πk (resp. Πk) l’opérateur de projection orthogonale sur Vectψ1, ..., ψk(resp. Vectψ1, ..., ψk). Nous allons essayer de contrôler Πk − Πk, pour cela nous allonsexprimer cette différence sous une forme plus exploitable.

5.2.1 Écriture de Πk et Πk sous forme intégrale

Posons, pour tout j ≥ 1, δj = (λj − λj+1)/2.Soit γk le contour défini par la figure suivante :

0 λk+1 λk · · · λ1 2λ1

-1

1

γk

δk

Nous avons pour tout j :Indγk(λj) = 1j≤k.

Nous pouvons redéfinir Πk comme l’unique opérateur tel que :

Πkψj = Indγk(λj)ψj, pour tout j ≥ 1.

On peut exprimer cette égalité en fonction de l’opérateur Γ. En effet soit z tel quezI − Γ est inversible, en multipliant l’égalité (zI − Γ)ψj = (z − λj)ψj des deux côtés par(zI − Γ)−1/(z − λj) on obtient :

(zI − Γ)−1ψj(x) =ψj(x)

z − λj,

d’où :Πkψj =

1

2iπ

∫γk

(zI − Γ)−1ψj(x)dz.

On aboutit donc à l’écriture suivante de l’opérateur de projection Πk :

Proposition 9.

Πk =1

2iπ

∫γk

(zI − Γ)−1 dz. (5.1)

Démonstration. Posons :σ(Γ) := λj, j ≥ 1 ∪ 0,

55

Page 59: Spécialité Mathématiques Avancées, 2ème année Parcours de

le spectre de Γ et :

f :C\σ(Γ) → L(L2([0, 1]))z 7→ (zI − Γ)−1 ,

cette fonction est bien définie et holomorphe, en effet :

(λI − T )− (µI − T ) = (λ− µ)I,

et en multipliant par f(λ)f(µ)/(λ− µ),

f(µ)− f(λ)

µ− λ= −f(λ)f(µ).

Nous obtenons ensuite :limλ→µ

f(µ)− f(λ)

µ− λ= −f(µ)2.

L’intégrale1

2iπ

∫γk

(zI − Γ)−1 dz

définit donc bien un élément de L(L2([0, 1])) que nous noterons Pk.Soit Λ ∈ L(L2([0, 1]))∗, par la proposition 8 :

ΛPk =1

2iπ

∫γk

Λ (zI − Γ)−1 dz.

Soient j ≥ 1 et x ∈ R, l’application Λj,x définie sur L(L2([0, 1])) par :

Λj,xT = Tψj(x),

définit bien une forme linéaire continue. Nous avons :

Pkψj(x) = Λj,xPk =1

2iπ

∫γk

Λj,x (zI − Γ)−1 =1

2iπ

∫γk

Λj,x (zI − Γ)−1 = Πkψj(x).

Nous pouvons écrire également Πk sous une forme intégrale, le raisonnement est lemême à condition de s’assurer que les k premières valeurs propres de Γn sont à l’intérieurde γk et que toutes les autres sont à l’extérieur.

Proposition 10. Soit Ωk l’ensemble suivant :

Ωk =λk+1 < λk − δk < λk, λ1 < 2λ1

.

On a :Πk1Ωk =

1

2iπ

∫γk

(zI − Γn)−1 dz1Ωk . (5.2)

56

Page 60: Spécialité Mathématiques Avancées, 2ème année Parcours de

5.2.2 Application au contrôle de Πk − Πk

Les propositions 9 et 10 nous permettent d’écrire :

(Πk − Πk)1Ωk =1

2iπ

∫γk

(zI − Γ)−1 − (zI − Γn)−1dz1Ωk .

Or :

(zI − Γ)−1 − (zI − Γn)−1 = (zI − Γn)−1 ((zI − Γn)− (zI − Γ)) (zI − Γ)−1 (5.3)= (zI − Γn)−1(Γ− Γn)(zI − Γ)−1.

D’où :(Πk − Πk)1Ωk = (Dk +Rk)1Ωk ,

avec :

Dk =1

2iπ

∫γk

(zI − Γ)−1(Γ− Γn)(zI − Γ)−1dz,

Rk =1

2iπ

∫γk

((zI − Γn)−1(Γ− Γn)(zI − Γ)−1 − (zI − Γ)−1(Γ− Γn)(zI − Γ)−1

)dz.

La proposition suivante nous donne une écriture explicite de Dk en fonction de Γn−Γ.

Proposition 11 ( de Dk).

Dk =k∑p=1

vp,k(Γn − Γ)πp + πp(Γn − Γ)vp,k,

où, πp est la projection sur Rψp et :

vp,k =∑q>k

1

λp − λqπq.

Démonstration. Soient j, l des entiers supérieurs à 1. L’application T 7→< Tψj, ψl >définit une forme linéaire sur l’espace des opérateurs L(L2([0, 1])). Nous avons donc parla proposition 8 :

< Dkψj, ψl >=1

2iπ

∫γk

< (zI − Γ)−1(Γ− Γn)(zI − Γ)−1ψj, ψl > dz,

or en multipliant par (zI−Γ)−1/(z−λj) les deux côtés de l’égalité (zI−Γ)ψj = (z−λj)ψj,on obtient :

(zI − Γ)−1ψj =ψj

z − λj,

d’où :< Dkψj, ψl >=

1

2iπ

∫γk

1

z − λj< (zI − Γ)−1(Γ− Γn)ψj, ψl > dz.

L’opérateur Γ est auto-adjoint, il en est donc de même de zI − Γ pour tout z ∈ C.Montrons que cela implique que (zI−Γ)−1 est auto-adjoint pour tout z ∈ C\σ(Γ). Soient

57

Page 61: Spécialité Mathématiques Avancées, 2ème année Parcours de

U et T des opérateurs, on peut voir que l’adjoint (UT )∗ du produit UT est T ∗U∗. Si Test inversible on a donc :

I = I∗ = (TT−1)∗ = (T−1)∗T ∗,

ce qui donne : (T−1)∗ = (T ∗)−1. Si T est auto-adjoint, il en est donc de même de T−1.Par conséquent :

< Dkψj, ψl > =1

2iπ

∫γk

1

z − λj< (Γ− Γn)ψj, (zI − Γ)−1ψl > dz

=1

2iπ

∫γk

1

(z − λj)(z − λl)< (Γ− Γn)ψj, ψl > dz

=< (Γ− Γn)ψj, ψl >1

2iπ

∫γk

dz

(z − λj)(z − λl).

Cas j 6= l ≤ k Nous avons :

1

(z − λj)(z − λl)=

1

(λj − λl)(z − λj)+

1

(λl − λj)(z − λl).

D’où :1

2iπ

∫γk

dz

(z − λj)(z − λl)=

1

λj − λl+

1

λl − λj= 0,

car Indγk(λj) = Indγk(λl) = 1.

Cas j = l ≤ k Par la formule des résidus :

1

2iπ

∫γk

dz

(z − λj)(z − λl)= Res

(1

(z − λj)2, λj

)Indγk(λj) = 0.

Cas j ≤ k < l Il existe un ouvert Ω simplement connexe contenant le support de γkmais tel que λl /∈ Ω.La fonction z 7→ 1

z−λlest holomorphe sur Ω et par la formule de Cauchy :

1

2iπ

∫γk

dz

(z − λj)(z − λl)=

1

λj − λl.

Cas l ≤ k < j Il se traite de la même façon que le cas précédent :

1

2iπ

∫γk

dz

(z − λj)(z − λl)=

1

λl − λj.

Cas k < j, l Il existe un ouvert Ω simplement connexe contenant le support de γkmais pas λj ni λl. La fonction z 7→ 1

(z−λj)(z−λl)est holomorphe sur Ω et par le théorème

de Cauchy :1

2iπ

∫γk

dz

(z − λj)(z − λl)= 0.

58

Page 62: Spécialité Mathématiques Avancées, 2ème année Parcours de

Nous avons donc :

< Dkψj, ψl >=< (Γn − Γ)ψj, ψl >

(1j≤k<l

1

λj − λl+ 1l≤k<j

1

λl − λj

).

La proposition précédente nous permet de réécrire la différence Πk−Πk sous une formeplus explicite, ce qui devrait permettre par la suite de pouvoir contrôler cette différence.On peut adopter un autre point de vue, c’est-à-dire exprimer Πk−Πk sous une autre forme,c’est ce qui sera fait dans la proposition suivante qui établit un contrôle de la différenceΠk − Πk sur un certain ensemble. Au préalable, nous rappelons quelques notions utilesdans la démonstration.

Soit T un opérateur tel qu’il existe une base hilbertienne (ej)j≥1 de L2([0, 1]) forméede vecteurs propres de T et pour tout j, notons µj la valeur propre associée à ej. On peutdéfinir l’opérateur suivant :

T 1/2f =∑j≥1

√µj < f, ej > ej, pour tout f ∈ L2([0, 1]).

La notation utilisée se justifie par le fait que T 1/2T 1/2 = T .Soit ||| · ||| la norme opérateur associée à la norme hilbertienne ‖ · ‖ c’est-à-dire, pour

tout opérateur linéaire T :|||T ||| = sup

‖f‖≤1

‖Tf‖.

Rappelons d’autre part la définition du rayon spectral de T :

ρ(T ) = supµ∈σ(T )

|µ|.

Soit T défini comme précédemment, nous avons, pour toute fonction f ∈ L2([0, 1]) telleque ‖f‖ ≤ 1 :

‖Tf‖2 =∑j≥1

µ2j < f, ej >

2≤ ρ(T )2‖f‖2 ≤ ρ(T )2.

D’autre part, soit jM = arg maxj≥1 |µj|, ‖TejM‖ = |µj| = ρ(T ). Nous avons donc :

|||T ||| = ρ(T ).

On utilisera également une autre écriture de la norme opérateur :

|||T ||| = sup‖f‖≤1,‖g‖≤1

| < Tf, g > |.

Proposition 12. On supposera ici qu’il existe une constante d telle que, pour tout j :λj = dj−2a, avec a > 1/2.

On suppose de plus qu’il existe une constante c > 0 telle que, pour tout j ≥ 1,

E[< X,ψj >

4

λ2j

]≤ c.

59

Page 63: Spécialité Mathématiques Avancées, 2ème année Parcours de

Soit c0, tel que δk2λ1+1

> c0 > 0 on notera :

Bk(c0) :=

||| sup

z∈supp(γk)

(zI − Γ)−1/2(Γn − Γ)(zI − Γ)−1/2||| < c0

∩ λ1 < 2λ1,

où l’on a noté par ||| · ||| la norme opérateur associée à la norme ‖ · ‖.Soit Xn+1 une variable aléatoire de même loi que X1 et indépendante de l’échantillon(Xi, Yi), i = 1, ..., n, alors, il existe une constante C > 0 telle que :

E[‖(Πk − Πk)Xn+1‖1Bk(c0)] ≤C(k log k)3/2

√n

.

Lemme 9. Pour tout c0 <δk

2λ1+1:

Bk(c0) ⊂ Ωk.

Démonstration. Pour tout z ∈ supp(γk) :

|||Γn − Γ|||1Bk(c0) = |||(zI − Γ)1/2(zI − Γ)−1/2(Γn − Γ)(zI − Γ)−1/2(zI − Γ)1/2|||1Bk(c0)

< |||(zI − Γ)1/2|||2c01Bk(c0).

D’où :

|||Γn − Γ|||1Bk(c0) ≤ c0 infz∈supp(γk)

ρ((zI − Γ)1/2)2 = c0 infz∈supp(γk)

supj≥1|z − λj|

On remarque que, pour tout z ∈ supp(γk), supj≥1 |z − λj| = max(|z − λ1|, |z − λk|). Cequi nous donne, comme δk < (λk + λk+1)/2 < λ1, infz∈supp(γk) supj≥1 |z − λj| = δk et :

|||Γn − Γ|||1Bk(c0) < c0δk <δ2k

2λ1 + 1.

Notons lk la longueur du contour γk, nous avons lk/(2π) = 2(δk+λ1−λk+1)/(2π) ≤ 2λ1+1.D’où :

|||Γn − Γ|||1Bk(c0) <δ2k

δk + lk2π

.

Par le théorème 3.1 p 14 de Gohberg et Kreın [18], le nombre de valeurs propres de Γ etΓn (comptées avec multiplicité) à l’intérieur de γk est le même. D’où le résultat.

Démonstration de la proposition 12. Notons, pour z ∈ supp(γk) :

Θ(z) := (zI − Γ)−1/2(Γn − Γ)(zI − Γ)−1/2,

R(z) := (zI − Γ)−1,

R(z) := (zI − Γn)−1

T (z) := R−1/2(z)R(z)R−1/2(z).

Le lemme 9 nous assure que, sur l’ensemble Bk(c0), supp(γk) ⊂ C\σ(Γn) et donc quel’opérateur R(z) est bien défini pour tout z ∈ supp(γk). Nous avons de plus, par lespropositions 9 et 10 :

(Πk − Πk)1Bk(c0) =1

2iπ

∫γk

R(z)− R(z)dz1Bk(c0). (5.4)

60

Page 64: Spécialité Mathématiques Avancées, 2ème année Parcours de

Commençons par exprimer R−R en fonction de Γ et Γn. Nous avons :

I −Θ(z) = (zI − Γ)−1/2(zI − Γ− (Γn − Γ))(zI − Γ)−1/2 = T (z)−1

Nous avons de plus, par (5.3) :

R(z)−R(z) = R(z)(Γn − Γ)R(z)

= R1/2R−1/2RR−1/2R1/2(Γn − Γ)R1/2R1/2

= R1/2T (z)Θ(z)R1/2

= R1/2(I −Θ(z))−1Θ(z)R1/2.

En injectant dans l’équation (5.4) nous avons :∥∥∥(Πk − Πk)X∥∥∥1Bk(c0) =

∥∥∥∥ 1

2iπ

∫γk

R1/2(z)(I −Θ(z))−1Θ(z)R1/2(z)Xdz

∥∥∥∥1Bk(c0)

≤ 1

∫γk

|||R1/2(z)||| |||(I −Θ(z))−1||| |||Θ(z)|||∥∥R1/2(z)X

∥∥ dz.Soit µ une valeur propre de Θ(z), alors 1

1−µ est une valeur propre de (I − Θ(z))−1.Inversement, si λ = 1

1−µ est une valeur propre de (I − Θ(z))−1 alors µ est une valeurpropre de Θ(z), d’où :

|||(I −Θ(z))−1||| = supλ∈Sp((I−Θ(z))−1)

|λ| = supµ∈Sp(Θ(z))

∣∣∣∣ 1

1− µ

∣∣∣∣ ≤ 1

1− c0

sur Bk(c0). Nous avons donc, en utilisant de plus l’inégalité de Cauchy-Schwarz :

E[∥∥∥(Πk − Πk)X

∥∥∥1Bk(c0)

]≤ 1

2π(1− c0)

∫γk

|||R1/2(z)|||E[|||Θ(z)|||2

]1/2 E [∥∥R1/2(z)X∥∥2]1/2

dz.

(5.5)Nous allons maintenant majorer chaque terme de la formule précédente.

Majoration de |||R1/2(z)||| Nous avons, pour tout z ∈ supp(γk) :

|||R1/2(z)||| = supj≥1|z − λj|−1/2.

Montrons qu’il existe une constante C1 (pouvant dépendre uniquement de λ1) telle que,pour tout z ∈ supp(γk) :

supj≥1|z − λj|−1/2 ≤ C1|z − λk|−1/2.

Si z = λk − δk + ti, −1 ≤ t ≤ 1 (arête verticale gauche du contour), alors :

supj≥1|z − λj|−1/2 = |z − λk|−1/2.

61

Page 65: Spécialité Mathématiques Avancées, 2ème année Parcours de

Si z = 2λ1 + ti, −1 ≤ t ≤ 1 (arête verticale droite du contour), alors :

|z − λk|2

|z − λj|2=

(2λ1 − λk)2 + t2

(2λ1 − λj)2 + t2≤ 4λ2

1 + 1

λ21

,

car 2λ1 − λj > λ1.Si z = t± i, λk − δk ≤ t ≤ 2λ1 (arêtes horizontales) :

|z − λk|2

|z − λj|2=

(t− λk)2 + 1

(t− λj)2 + 1≤ (2λ1 − λk)2 + 1 ≤ 4λ2

1 + 1.

Ce qui nous donne bien le résultat voulu avec C1 =(

max(

4λ21+1

λ21, λ2

1 + 1))1/4

.

Majoration de E [|||Θ(z)|||2]

E[|||Θ(z)|||2

]= sup‖f‖≤1,‖g‖≤1

< Θ(z)f, g >2,

≤∑j,k≥1

E[< (zI − Γ)−1/2(Γn − Γ)(zI − Γ)−1/2ψl, ψk >

2]

≤∑j,k≥1

E [< (Γn − Γ)ψl, ψk >2]

|z − λl||z − λk|

Remarquons que, par définition de Γn :

E[< Γnψj, ψk >] = E[< X,ψj >< X,ψk >] =< Γψj, ψk > .

D’où :

E[< (Γn − Γ)ψl, ψk >

2]

= Var(< Γnψj, ψk >) =1

nVar(< X,ψj >< X,ψk >)

≤ E[< X,ψj >

2< X,ψk >2]/n ≤ c

nλjλk,

par hypothèse. D’où :

E[|||Θ(z)|||2

]≤ c

n

∑j,k≥1

λjλk|z − λk||z − λk|

=c

n

(∑j≥1

λj|z − λj|

)2

.

Majoration de E[∥∥R1/2(z)X

∥∥]E[∥∥R1/2(z)X

∥∥2]

=∑j,k≥1

E[< X,ψj >< X,ψk >< (zI − Γ)−1/2ψj, (zI − Γ)−1/2ψl >

]=∑j≥1

E [< X,ψj >2]

|z − λj|=∑j≥1

λj|z − λj|

En injectant ensuite dans l’équation 5.5, nous obtenons, en remarquant que c0 < 1/4 :

E[∥∥∥(Πk − Πk)X

∥∥∥1Bk(c0)

]≤ C2√

nsup

z∈supp(γk)

(∑j≥1

λj|z − λj|

)3/2 ∫γk

|z − λk|−1/2dz,

avec C2 > 0 un réel dépendant uniquement de c et λ1.Pour conclure, il suffit donc maintenant de montrer les deux points suivants :

62

Page 66: Spécialité Mathématiques Avancées, 2ème année Parcours de

1. Montrer qu’il existe une constante C3 dépendant uniquement de λ1 telle que :

supz∈supp(γk)

∑j≥1

λj|z − λj|

≤ C3k log k;

2. Montrer qu’il existe une constante C4 telle que :∫γk

|z − λk|−1/2dz ≤ C4.

Démonstration du point 1 Soit z ∈ supp(γk), considérons séparément les quatresarêtes du contours.

Si z = λk − δk + it, −1 ≤ t ≤ 1, alors, pour j 6= k, |z − λj| > |λk − λj|. Nous avonsdonc : ∑

j≥1

λj|z − λj|

≤∑

j≥1,j 6=k

λj|λk − λj|

+λkδk

Si z = 2λ1 + it, −1 ≤ t ≤ 1, pour j 6= k :

|λk − λj|2

|z − λj|2=

(λk − λj)2

(2λ1 − λj)2 + t2≤ 4λ2

1

λ21

≤ 4.

Et |z − λk| > 1 > δk/λ1. D’où :∑j≥1

λj|z − λj|

≤ max(2, λ1)∑

j≥1,j 6=k

λj|λk − λj|

+λkδk.

Si z = t± i on obtient le même type de majoration en remarquant que :

|λk − λj|2

|z − λj|2=

(λk − λj)2

(t− λj)2 + 1≤ 4λ2

1.

Il reste donc à majorer la quantité∑j≥1,j 6=k

λj|λk − λj|

+λkδk.

Remarquons d’abord que

λkδk

=2λk

λk − λk+1

=2

1−(

kk+1

)2a <2

1− kk+1

= 2(k + 1),

car 2a > 1. Ensuite :k−1∑j=1

λj|λk − λj|

=k−1∑j=1

1

1−(jk

)2a ≤λk−1

λk−1 − λk+

∫ k−1

1

1

1−(xk

)2adx ≤ 2k +

∫ k−1

1

∑p≥1

(xk

)2ap

= 2k + k∑p≥1

(1− 1

k

)2ap+1 − (1− 1/k)2ap+1

2ap+ 1

≤ 2k + k

[−(

1− 1

k

)log (1/k)− (− log(1− 1/k))

]≤ 3k log k,

63

Page 67: Spécialité Mathématiques Avancées, 2ème année Parcours de

en effet, en remarquant que [2ap] ≤ 2ap ≤ [2ap] + 1, on retrouve le développement ensérie entière de log(1 + x). Par le même raisonnement on obtient :∑

j>k

λj|λk − λj|

≤ 3k log k.

Ce qui conclut le point 1.

Démonstration du point 2∫γk

|z − λk|−1/2dz =

∫ 2λ1

λk−δk(1 + t2)−1/4dt+

∫ 1

−1

((2λ1 − λk)2 + t2)−1/4dt−∫ 2λ1

λk−δk(1 + t2)−1/4dt

−∫ 1

−1

(δ2k + t2)−1/4dt

=

∫ 1

−1

((2λ1 − λk)2 + t2)−1/4dt−∫ 1

−1

(δ2k + t2)−1/4dt

≤ 2√λ1

,

en remarquant que (2λ1 − λk)2 + t2 ≥ λ21.

64

Page 68: Spécialité Mathématiques Avancées, 2ème année Parcours de

Conclusion

L’objectif du stage consistait à comprendre comment définir une procédure d’estima-tion non-asymptotique de la fonction de pente β du modèle linéaire fonctionnel.

La première partie du stage a permis de se familiariser avec les procédures d’estimationpar sélection de modèle : choix d’une famille d’estimateurs et sélection d’un estimateurdans cette famille à l’aide d’un critère du type contraste pénalisé ; ainsi qu’avec les tech-niques liées à ces procédures : utilisation de l’inégalité de Talagrand pour contrôler leprocessus empirique lié au contraste considéré, définition de la pénalité,...

Nous avons pu ensuite nous intéresser au problème d’estimation de la fonction de pentedu modèle linéaire fonctionnel dans le cas de données ”circulaires”. Le travail réalisé enamont a permis de définir assez rapidement un estimateur de cette fonction de pente etde montrer que cet estimateur vérifiait une inégalité-oracle pour le risque lié à l’erreurde prévision. Nous avons pu également montrer que la vitesse de convergence du risquemaximum de notre estimateur pour β suffisamment régulière était optimale dans le sensoù elle atteint la borne inférieure établie par Cardot et Johannes. Les simulations réaliséesont montré que le comportement de l’estimateur variait beaucoup suivant la fonction àestimer : la procédure définie permet d’estimer correctement des fonctions de pente ayantun comportement proche de celui d’une fonction sinusoïdale, en revanche l’estimationde polynôme s’est révélée un peu plus délicate. On constate néanmoins une décroissancerapide de la version empirique du risque lié à l’erreur de prévision quand la taille del’échantillon augmente.

La dernière partie du stage a été consacrée à la question du contrôle de la distance entrel’opérateur de projection sur l’espace engendré par les fonctions propres correspondantaux k plus grandes valeurs propres de l’opérateur de covariance et sa version empirique.Nous avons pour cela considéré des techniques issues de la théorie de la perturbation. Cetravail ouvre des perspectives pour l’estimation de la fonction de pente dans le cas oules valeurs et vecteurs propres de l’opérateur de covariance sont inconnus. Ces pistes derecherche devront être explorées dans des travaux futurs.

Remerciements Je tiens à remercier les membres de l’Institut de Mathématiques etde Modélisation de Montpellier (I3M) pour leur accueil, en particulier mes encadrants destage, Elodie Brunel et André Mas, pour l’attention qu’ils ont porté au bon déroulementde ce stage ainsi que Sophie Cazanave-Pin qui a fait en sorte que mon travail se dérouledans les meilleures conditions matérielles.

65

Page 69: Spécialité Mathématiques Avancées, 2ème année Parcours de

Bibliographie

[1] Ash R.B. et Gardner M.F. (1975). Topics in Stochastic Processes, Academic Press,New York.

[2] Baraud Y. (2002). Model selection for regression on random design, ESAIM Probab.Statist., 6 : 577-606.

[3] Baraud Y. (2000). Model selection for regression on a fixed design, Probab. TheoryRelated Fields 117 : 467–493.

[4] Birgé L. (2004). Model selection for Gaussian Regression with random design, Ber-nouilli, 10(6) : 1039-1051.

[5] Birgé L. et Massart P. (1998). Minimum contrast estimators on sieves : exponentialbounds and rates of convergence, Bernouilli 4(3) : 329-375.

[6] Brézis H.(2005). Analyse fonctionnelle, théorie et applications, éd. Dunod.[7] Cardot H., Ferraty F. et Sarda P. (1999). Functional linear model, Statist. & Prob.

Letters, 45 : 841-856.[8] Cardot H., Ferraty F. et Sarda P. (2003). Spline estimators for the functional linear

model, Statistica Sinica, 13, 571-591.[9] Cardot H., Mas A. et Sarda P. (2007). CLT in functional linear regression models,

Probability Theory and Related Fields, 138, 325-361.[10] Cardot H., Johannes J. (2010). Thresholding projection estimators in functional li-

near models, J. Multivariate Analysis, 101, 395-408.[11] Chagny G. (2010). Estimation non paramétrique d’une fonction de régression avec

des bases déformées : le point de vue de la sélection de modèle. Rapport de stage deM2.

[12] Comte F. et Johannes J.(2010). Adaptive Estimation in Circular Functional LinearModels, Math. Methods Statist. 19(1) : 42-63.

[13] Comte F., Rozenholc Y., et Taupin, M-L.(2006). Penalized contrast estimator fordensity deconvolution, Canad. J. Statist 37(3) : 431-452.

[14] Crambes C. et Mas A. (2011). Optimal prediction and dimension selection in linearmodels with functional output, under revision for Bernouilli.

[15] Dauxois J., Pousse A. et Romain Y. (1982). Asymptotic theory for the PrincipalComponent Analysis of a Vector Random Function : Some Applications to StatisticalInference, J. Multivariate Analysis, 12 : 136-154.

[16] Dunford, N. et Schwartz, J.T. (1958). Linear Operators Part I, Interscience Publisher,Inc., New York.

[17] Ferraty F. et Vieu P. (2006). Nonparametric Functional Data Analysis, Springer.

66

Page 70: Spécialité Mathématiques Avancées, 2ème année Parcours de

[18] Gohberg I. et Kreın M.G. (1969) Introduction to the theory of nonselfadjoint opera-tor, American Mathematical Soc.

[19] Hall P. et Horowitz J.L. (2007). Methodology and convergence rates for functionallinear regression, Ann. Stat., 35(1) : 70-91.

[20] Hall P. et Hosseini-Nasab M. (2006). On properties of functional principal compo-nents analysis, J.R. Statist. Soc., 68(1) : 109-126.

[21] Nadaraya E., (1964). On estimating regression, Theory of Probability and its Appli-cation, 9 : 141-142.

[22] Ramsay J.O. et Silverman B.W. (2006) Functional Data Analysis, Springer.[23] Rudin, W. (1970). Real and Complex Analysis, International Student Edition.[24] Tsybakov A. (2004). Introduction à l’estimation non-paramétrique, Springer-Verlag.[25] Watson G.S. (1964). Smooth regression analysis, SankhyaSer. A, 26 : 359-372.

67