these madani

146
                                               

Upload: mariawahiba

Post on 04-Oct-2015

17 views

Category:

Documents


0 download

DESCRIPTION

bon

TRANSCRIPT

  • Thse

    pour obtenir le grade de

    Docteur de l'Universit de Grenoble

    Spcialit Statistique

    Arrt ministriel : 7 aot 2006

    Prsente et soutenue publiquement par

    Fethi Madani

    le (//2012)

    Aspects thoriques et pratiques dans l'estimation

    non paramtrique de la densit conditionnelle

    pour des donnes fonctionnelles

    JURY

    Jacques Demongeot Univ. Joseph Fourier, Grenoble Prsident

    Pascal Sarda Universit Le Mirail, Toulouse Rapporteur

    Elias Ould-Sad Univ. du Littoral Cte d'Opale, France Rapporteur

    Mustapha Rachdi Univ. P. Mends France, Grenoble Directeur de thse

    Ali Laksaci Univ. D. Liabs Sidi Bel Abbs, Algrie Examinateur

    Idir Ouassou ENSA, Marrakech, Maroc Examinateur

    Sophie Lambert-Lacroix Univ. P. Mends France, Grenoble Examinateur

    Thse prpare au sein du laboratoire AGe Imagerie et Modlisation (AGIM) dans l'cole

    Doctorale Mathmatiques, Sciences et Technologies de l'Information, Informatique.

  • 2

  • Table des matires

    Table des matires 3

    0.1 Description et Contribution de cette thse . . . . . . . . . . . . . . . . . . . . 9

    0.2 Contexte bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1 Introduction aux donnes fonctionnelles et l'estimation de la densit

    conditionnelle 15

    1.1 Donnes fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1.2 Donnes fonctionnelles vs semi-mtrique . . . . . . . . . . . . . . . . . . . . . 18

    1.2.1 Probabilits des petites boules . . . . . . . . . . . . . . . . . . . . . . 21

    1.2.2 Champs d'application des donnes fonctionnelles . . . . . . . . . . . . 22

    1.3 Quelques rsultats sur l'estimation non-paramtrique pour des modles fonc-

    tionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.3.1 Notations et hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.3.2 Estimation de la loi conditionnelle . . . . . . . . . . . . . . . . . . . . 29

    1.3.3 Estimateur noyau de la densit conditionnelle . . . . . . . . . . . . . 30

    1.3.4 Estimation du mode conditionnel . . . . . . . . . . . . . . . . . . . . . 31

    2 Kernel conditional density estimation when the regressor is valued in a

    semi-metric space 35

    2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2.2 Global and local bandwidth selection rules . . . . . . . . . . . . . . . . . . . . 38

    2.3 Main Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    2.3.1 Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    2.3.2 Some interpretations and examples on our hypotheses . . . . . . . . . 41

    2.3.3 Two theorems on global and local criteria . . . . . . . . . . . . . . . . 43

    2.4 Discussion and applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    2.4.1 On the applicability of the method . . . . . . . . . . . . . . . . . . . . 44

    2.4.2 On the nite-sample performance of the method . . . . . . . . . . . . 47

    2.4.3 A real data application . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    2.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    2.6 Appendix : Proofs of technical lemmas . . . . . . . . . . . . . . . . . . . . . . 56

    3

  • 4Bibliography 62

    3 Functional data : Local linear estimation of the conditional density and

    its application 67

    3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.2 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.3 Pointwise almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 69

    3.4 Uniform almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 71

    3.5 Application : Conditional mode estimation . . . . . . . . . . . . . . . . . . . . 73

    3.6 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    Bibliography 85

    4 A fast functional locally modeled of the conditional density and mode in

    functional time series 87

    4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.2 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    4.3 Concludes remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    4.4 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    Bibliography 102

    5 On the quadratic error of the functional local linear estimate of the condi-

    tional density 107

    5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    5.2 The model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    5.3 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    5.4 Some comments and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    5.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    Bibliography 119

    6 Estimation locale linaire des paramtres conditionnels pour des donnes

    fonctionnelles : Application sur des donnes simules et relles 121

    6.1 Illustration du mode conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . 121

    6.2 Illustration de la densit conditionnelle . . . . . . . . . . . . . . . . . . . . . . 126

    6.3 Application sur des donnes relles . . . . . . . . . . . . . . . . . . . . . . . . 127

    7 Conclusion et Perspectives 133

    7.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

    7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    8 Bibliographie gnrale 135

  • 5Rsum

    Dans cette thse, nous nous intressons l'estimation non paramtrique de la den-

    sit conditionnelle d'une variable rponse relle conditionne par une variable explicative

    fonctionnelle de dimension ventuellement nie.

    Dans un premier temps, nous considrons l'estimation de ce modle par la mthode

    double noyaux. Nous proposons une mthode de slection pour le choix du paramtre de

    lissage (global ou local) des paramtres de lissage et nous montrons son optimalit asymp-

    totique dans le cas o les observations sont indpendantes et identiquement distribues. Le

    critre adopt est issu du principe de validations croises. Dans cette partie nous comparons

    galement les deux types de choix (local et global).

    Dans la deuxime partie, nous estimons la densit conditionnelle par la mthode des

    polynmes locaux. Sous certaines conditions, nous tablissons des proprits asymptotiques

    de cet estimateur tel la convergence presque complte et la convergence en moyenne quadra-

    tique dans le cas o les observations sont indpendantes et identiquement distribues. Nous

    traitons aussi le cas o les observations sont de type - mlangeantes, dont on montre laconvergence presque complte (avec vitesse) de l'estimateur propos. Les rsultats obtenus

    sont galement illustrs par des exemples sur des donnes simules montrant l'applicabilit

    rapide et facile de cette mthode d'estimation dans le cadre fonctionnel.

  • 6Summary

    In this thesis, we consider the problem of the nonparametric estimation of the conditional

    density when the response variable is real and the regressor is valued in a functional space.

    In the rst part, we use the double kernels method as a estimation method where we

    focus on the choice of the smoothing parameters. We construct data a driven method to select

    optimally bandwidths parameters. As main results, we study the asymptotic optimality

    of this selection's method in the case where observations are independent and identically

    distributed. Our selection rule is based on the classical cross-validation procedure and it

    deals with the both (global or local ) choice. The nite sample performance of our approach

    is illustrated by some simulation results where we give a comparison between the two types

    of choice (local or global).

    In the second part, we estimate the conditional density by the local linear method.

    Under some general conditions, we establish the almost complete convergence of the proposed

    estimator (with rate) in the both cases ( i.i.d. case and the -mixing case) . As application,we use the conditional density estimator to estimate the conditional mode estimation and

    we derive the same asymptotic proprieties.

    Further, we study the quadratic error of this estimator by giving the asymptotic ex-

    pansion of the exact expression involved in the leading in the bias and variance terms.

  • 7Liste des travaux

    Publications dans des revues comits de lecture

    1. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Local Linear estimation of the

    conditional density for functional data. C. R., Math., Acad. Sci. Paris, 348, Issues

    15-16, Pages 931-934, (2010).

    2. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Functional data : local linear esti-

    mation of the density and its application. Statistics, DOI : 10.1080/02331888.2011.568117

    ( paratre en 2012).

    3. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi (2011). A fast functional locally

    modeled conditional density and mode for functional time-series. Recent Advances in

    Functional Data Analysis and Related Topics Contributions to Statistics, Physica-

    Verlag/Springer, 2011, 85-90, DOI : 10.1007/978-3-7908-2736-1_13

    4. A. Laksaci, F. Madani and M. Rachdi. Kernel conditional density estimation when the

    regressor is valued in a semi-metric space. Accept pour publication dans : Communi-

    cations Statistics-Theory and Methods, 2012.

    Communications dans des congrs

    1. Local bandwidth selection for kernel conditional density estimation when the regressor

    is valued in a semi-metric space. Colloque international de Statistique des processus

    et Applications, CISPA 2008, Constantine : 18-19 octobre 2008.

    2. Local bandwidth selection for kernel conditional density estimation when the regressor

    is valued in a semi-metric space. Journes de Statistique, Modlisation et Application

    JSMA'08, Alger : 22-23-24 novembre 2008.

    3. Some asymptotics for conditional parameters when the data are curves. International

    Conference on Statistics, Theory and Practice, Sidi Bel-Abbs, 10-12 avril 2010.

  • 8

  • Introduction gnrale

    0.1 Description et Contribution de cette thse

    La statistique non paramtrique connat un grand essor chez de nombreux auteurs et dans

    dirents domaines. En eet, celle-ci possde un champ d'application trs large permettant,

    ainsi, l'explication de certains phnomnes mal modliss jusqu' prsent, tels que les sries

    chronologiques, et prdire les ralisations futures.

    Il faut mentionner, par ailleurs, que les progrs atteints dans les procds de recueil de don-

    nes ont permis d'orir la possibilit aux statisticiens de disposer de plus en plus souvent

    d'observations de variables dites fonctionnelles, c'est--dire de courbes. Ces donnes sont

    modlises comme tant des ralisations d'une variable alatoire prenant ses valeurs dans

    un espace abstrait de dimension ventuellement nie. Dans cette thse, nous nous intres-

    sons l'estimation non paramtrique de la densit conditionnelle et les paramtres qui en

    dcoulent, comme le mode conditionnel, pour des variables alatoires fonctionnelles.

    Dans le but de prsenter les travaux que nous avons ralis durant la ralisation de cette

    thse, celle-ci est organis comme suit :

    Le chapitre suivant, est un chapitre Introductif, qui prsente une tude bibliographique des

    problmes lis l'analyse statistique des variables fonctionnelles ainsi qu' l'estimation non

    paramtrique des paramtres conditionnels que ce soit dans le cadre de dimension nie ou

    innie. Ensuite, dans le chapitre 1, nous abordons l'tat de l'art des variables fonctionnelles

    et leurs champs d'application. De plus, an de rendre la lecture de cette thse simple, nous

    exposons les rsultats obtenus, dans la littrature, concernant l'estimation de la densit et

    du mode conditionnels, tout en fournissant et discutant les hypothses qui ont permis d'ob-

    tenir ces rsultats.

    Dans le chapitre 2, nous commenons par construire et tudier les proprits asymptotiques

    de l'estimateur noyau de la densit conditionnelle quand la variable explicative est va-

    leurs dans un espace norm. Ensuite, nous proposons deux critres (le premier global et

    le second local) de choix automatique du paramtre de lissage an de rendre ecace notre

    9

  • 10 Chapitre 0. Introduction gnrale

    estimation. Enn, nous tablissons les rsultats thoriques ainsi que pratiques d'optimalit

    asymptotique du paramtre slectionn.

    Une suite logique de ce chapitre veut que l'on amliore les rsultats obtenus. C'est pour-

    quoi le chapitre 3 est consacr l'tude d'une mthode d'estimation non paramtrique de

    la densit conditionnelle d'une variable scalaire Y sachant une variable fonctionnelle X i.e.,une variable valeurs dans un espace semi-mtrique. Cette mthode est base sur une esti-

    mation par polynmes locaux. Une fois la construction de notre estimateur, l'image de ce

    qui se fait en dimesnion nie, est acheve, nous nous sommes attel tablir sous certaines

    conditions, les convergences ponctuelle et uniforme presques compltes ainsi que les vitesses

    de convergence de cet estimateur. Nous avons utilis, ensuite, les rsultats obtenus an de

    dterminer les proprits asymptotiques de l'estimateur local linaire du mode conditionnel.

    Le chapitre 4 quant lui, est destin l'tude, sous certaines conditions de dpendance

    faible (mlange fort), de la convergence forte de l'estimateur du chapitre prcdent, ainsi

    qu' la prvision d'une srie temporelle par l'estimation du mode conditionnel.

    Tandis que dans le chapitre 5, nous avons tabli les vitesses de convergence dans l'estima-

    tion en moyenne quadratique de l'estimateur tudi dans les deux chapitres prcdents, le

    chapitre 6 est consacr la mise en application de ces rsultats pour des donnes simules

    puis pour des donnes relles.

    Enn, dans le chapitre 7 nous exposons des perspectives de recherche permettant d'tendre

    et parfois de gnraliser les rsultats de cette thse.

    0.2 Contexte bibliographique

    L'analyse statistique pour des variables fonctionnelles a pris une ampleur considrable ces

    dernires annes. Ce domaine de recherche en statistique connat actuellement un grand

    succs auprs de la commuaut des statisticiens. La preuve de cet intrt est la publication

    de nombreuses publications scientiques sur ce sujet ainsi que les nombreuses applications

    pratiques auquelles ces donnes s'y prtent. C'est le cas, notamment, lorsque l'on s'int-

    resse aux techniques d'estimation quand les donnes sont fonctionnelles (cf. Kneip et Gasser

    (1992), Ramsay et Li (1996), Rice et Silverman (1991)). Il existe, en fait, deux principales

    raisons l'engouement suscit par le traitement statistique des variables fonctionnelles : (1)

    cela permet d'utiliser et de dvelopper des outils thoriques performants, (2) cela ore un

    norme potentiel en terme d'applications, notamment, en imagerie, en agro-alimentaire, en

    reconnaissance de formes, en gophysique, en conomtrie, en environnement, : : :. De plus,cette thmatique de recherche couvre tous les domaines concerns par la comunaut de sta-

    tisticiens : des plus appliqus aux plus thoriques sans prdominance de l'une sur l'autre.

    D'abord, signalons les eorts considrables qui ont t dploys pour la gnralisation des

  • 0.2. Contexte bibliographique 11

    rsultats connus et tablis en dimension nie grce l'ouvrage de Ferraty et Vieu (2006).

    Celui-ci est devenu une rfrence en statistique non-paramtrique pour des donnes fonc-

    tionnelles. Notons que, l'analyse des donnes statistiques fait toujours intervenir le facteur

    dimension dans le comportement asymptotique des estimateurs tablis. D'autant plus qu'il

    est connu que les vitesses de convergence se dgradent au fur et mesure que la dimension

    augmente. Rappelons ici que les mthodes bases sur la dicrtisation des donnes fonction-

    nelles ont t adoptes pour adapter les rsultats de la statistique non-paramtrique au cas

    de donnes multivaries.

    Vu l'avance qu'a connu l'outil informatique dans la faon de rcolter les donnes, d'autres

    alternatives sont devenues obligatoires an de surmonter cette dicult et d'tudier les don-

    nes dans leurs propre dimensions.

    D'ailleurs, le traitement des donnes en tant que courbes remonte aux annes soixantes

    lorsque plusieurs tudes dans direntes disciplines se sont confrontes des observations

    sous forme de trajectoires (cf. entre autres, Holmstrom (1961) en climatologie, Deville (1974)

    en dmographie, Molenaar et Boomsma (1987) puis Kirkpatrick (1989) en gntique,...)

    Il est bien connu qu'en statistique, le modle de rgression (paramtrique ou non-paramtrique)

    en dimension nie, constitue un champ de recherche et d'application trs important, nous

    renvoyons ici aux travaux de Collomb (1981, 1985) qui ds le dbut des annes quatre-vingt

    font dj tat de nombreux dveloppements varis sur ce thme. Il convient, galement, de

    se rfrer aux ouvrages de Hrdle (1990), Bosq et Lecoutre (1987) et Schimek (2000) qui

    dressent un bilan presque exhaustif sur les diverses techniques en la matire. Ces champs

    de la recherche en statistique sont encore potentiellement porteurs la fois au niveau des

    dveloppements thoriques et cause des multiples possibilits d'application.

    Par ailleurs, les applications lies au modle de rgression ont une place trs importante

    dans la prvision des sries chronologiques issues de direntes disciplines telles que la com-

    munication, les systmes de contrle, la climatologie ainsi que l'conomtrie. Il s'agit, donc,

    de domaines de prvision pour lesquels les premiers rsultats consquents furent implants

    par Collomb (1981) et Robinson (1983). Ce domaine de la statistique connat des dvelop-

    pements continus, comme en tmoignent les nombreuses ralisations (cf. Gyet al. (1989),

    Yoshihara (1994), Hrdle et al. (1997) et Bosq (1991),...)

    Commenons par signaler que, l'estimation de la loi de probabilit ou de la fonction de

    distribution joue un rle important dans l'estimation d'autres paramtres fonctionnels. Les

    premiers travaux concernant l'estimation de la loi de probabilit des variables fonctionnelles

    ont t raliss par Geroy (1974), Gasser et al. (1998). Notons aussi que, Cadre (2001) s'est

    intress l'tude de la mdiane d'une distribution pour une variable fonctionnelle valeurs

    dans un espace de Banach.

  • 12 Chapitre 0. Introduction gnrale

    Nous faisons remarquer que les paramtres conditionnels, tels que la distribution condition-

    nelle, la densit conditionnelle, le mode conditionnel, le quantile conditionnel et la fonction

    de hasard conditionnelle, sont largement tudis en dimension nie. A travers ces para-

    mtres, la prvision dans les modles non-paramtriques ore une vritable alternative

    la rgression non paramtrique. Il faut dire qu'en dimension nie, il existe une litrature

    abondante pour ces paramtres conditionnels. Roussas (1968) fut le premier tablir des

    proprits asymptotiques pour l'estimateur noyau de la distribution conditionnelle, pour

    des donnes markoviennes, pour lesquelles il a montr la convergence en probabilit. Youndj

    (1993) quant lui, il s'est intress l'tude de la densit conditionnelle pour des donnes

    dpendantes ou indpendantes. On peut, notamment, citer le travail men par Laksaci et

    Yousfate (2002) et dans lequel ils ont tabli, pour un processus markovien stationnaire, la

    convergence en norme Lp de l'estimateur noyau de la densit conditionnelle.

    Vu l'intrt que revt l'estimation du mode et du mode conditionnel dans le domaine de

    la prvision, plusieurs auteurs s'en sont intresss. Nous pouvons citer par exemple, Perzen

    (1962) qui a t l'un des premiers considrer le probme de l'estimation du mode d'une

    densit de probabilit univarie. Il a montr que, sous certaines conditions, l'estimateur du

    mode obtenu en maximisant un estimateur noyau est convergent et est asymptotiquement

    normal quand les donnes sont indpendantes et identiquement distribues (i.i.d). Les tech-

    niques de base qu'il a developp pour cette tude ont t reprises par de nombreux auteurs

    dans le cas de la densit de probabilit ou de la rgression. Nous n'avons mentionn ici que

    les principales contributions, en ayant essentiellement en vue la normalit asymptotique.

    Notons aussi que Nadaraya (1965) et VanRyzin (1969) ont dmontr la convergente forte de

    l'estimateur du mode mis en place par Perzen, alors que Samanta (1973) et Konakov (1974)

    ont tudi des versions multivaries de cet estimateur. Les travaux d'Eddy (1980 et 1982),

    quant eux, ils ont permis d'aaiblir les conditions susantes de normali asymptotique qui

    aurait t donnes initialement. Par ailleurs, grce des conditions locales, Romano (1980),

    a aaibli les hypothses prcedentes. Notons aussi que Vieu (1996) a compar deux estima-

    teurs noyau du mode dont le premier est dni partir du maximun d'un estimateur de la

    densit de probabilit et le second partir du zero d'un estimateur de la drive de celle-ci.

    Ce travail a t repris par Rachdi et Sabre (2000) an d'estimer le mode de la densit de

    probabilit quand les donnes sont entaches d'erreurs additives (les problmes de dconvo-

    lution). Il y a aussi, entre autres, Louani (1998) qui a tabli la normalit asymptotique pour

    la densit et ses drives avec application au mode.

    Concernant le mode conditional, les proprits de convergence et de normalit asympto-

    tiques ont t tablies par Samanta et Thaavaneswaran (1990) dans le cadre de donnes

    indpendantes et identiquement distribues, alors que des conditions de convergence dans

    le cas de donnes -mlangeantes ont t tablies par Collomb et al. (1987), dans le casde donnes -mlangeantes par Ould-Sad (1993), dans le cas de donnes ergodiques parRosa (1993) et Ould-Sad (1997). De leur cot, Quintela et Vieu (1997) ont estim le mode

    conditionnel comme tant le point annulant la drive d'ordre un de l'estimateur de la den-

    sit conditionnelle et ils ont tabli la convergence presque complte de cet estimateur sous

  • 0.2. Contexte bibliographique 13

    la condition d'-mlangeance. Berlinet et al. (1998), quant eux, ils ont prsent des r-sultats sur la normalit asymptotique des estimateurs convergents du mode conditionnel,

    indpendamment de la structure de dpendance des donnes avec une application au cas

    d'un processus stationnaire -mlangeant. Tandis que Louani et Ould-Sad (1999) ont ta-bli la normalit asymptotique dans le cas de donnes fortement mlageantes et dans le cas

    de donnes censures. Ould-Sad et Cai (2005), quant eux, ils ont tabli la convergence

    uniforme sur un compact.

    Par ailleurs, dans le cadre de donnes valeurs dans un espace de dimension eventuellement

    nie, les travaux de Ramsay et Silverman (2002 et 2005) constituent un recueil important de

    mthodes statistiques, principalement du point de vue pratique, mais des dveloppements

    thoriques peuvent tre trouvs dans Bosq (2000) et Ferraty et Vieu (2006).

    Une contribution qui s'avre importante dans la construction de l'estimateur des paramtres

    dans le modle de rgression linaire est celle qui est due Cardot et al. (1999). Elle consiste

    en la construction d'un estimateur pour l'oprateur de rgression partir des proprits

    spectrales de l'estimateur empirique de l'oprateur de covariance de la variable explicative

    fonctionnelle. Ils ont tabli, galement, les convergences en probabilit et presque sre de

    l'estimateur construit. Ce travail a t revisit dans Cuevas et al. (2002). Dans celui-ci,

    une tude des proprits asymptotiques de l'estimateur de l'oprateur de rgression linaire

    quand la variable explicative est fonctionnelle dterministe et la rponse est fonctionnelle

    alatoire a t conduite. Cardot et al. (2004a, 2004b et 2005) ont propos et tudi des

    mthodes d'estimation linaire de l'oprateur de rgression par quantiles conditionnels. Une

    autre mthode d'estimation des quantiles conditionnels partir de l'estimation noyau de

    la fonction de rpartition conditionnelle a galement t propose et tudie par Ferraty et

    al. (2005), Ferraty et al. (2006), Ferraty et Vieu (2006a) et Ezzahrioui (2007). D'autres m-

    thodes ont t proposes an d'estimer la rgression par le mode conditionnel. Celles-ci sont

    bases sur l'estimation de la densi conditionnelle par des estimateurs noyau (cf. Ferraty

    et al. (2005), Ferraty et Vieu (2006a), Ferraty et al. (2006), Dabo-Niang et Laksaci (2006)

    et Ezzahrioui (2007)).

    Donc, l'estimation de la densit conditionnelle en dimension ventuellement nie a connu

    un grand intrt en statistique. Ce paramtre fonctionnel intervient pour l'estimation des

    quantiles, du mode ou de la fonction de hasard.

    Signalons, qu'en dimension innie, le mode conditionnel a connu tout rcemment un intrt

    croissant, malgr le peu de rsultats disponibles dans la littrature. Dans ce contexte, les

    premiers travaux ont t raliss par Ferraty et al. (2006). Ils ont montr, sous des conditions

    de rgularit de la densit conditionnelle, la convergence presque complte des estimateurs

    noyau de la densit conditionnelle et du mode conditionnel et ont tabli leurs vitesses de

    convergence. Notons aussi qu'une application de leurs rsultats aux donnes issues de l'in-

    dustrie agro-alimentaire a t prsente. Dans le mme contexte, Dabo-Niang et al. (2004)

    ont tudi un estimateur non paramtrique du mode de la densit d'une variable explicative

  • 14 Chapitre 0. Introduction gnrale

    valeurs dans un espace vectoriel semi-norm, de dimension eventuellement nie. Ils ont

    tabli la convergence presque sre avec une application de ce rsulat au cas o la mesure

    de probabilit de la variable explicative vrie une condition de concentration. On trouve

    aussi dans Dabo-Niang et Laksaci (2007) l'tude d'un estimateur noyau du mode de la

    distribution d'une variable relle Y conditionne par une variable explicative X, valeursdans un espace semi-mtrique. Ils ont tabli la convergence en norme Lp de l'estimateur etils ont montr que les rsultats asymptotiques tablis sont lis aux probabilits des petites

    boules de la loi de la variable explicative ainsi que la rgularit de la densit conditionnelle.

    Notons galement, qu'il y a deux autres paramtres fonctionnels qui sont d'une grande im-

    portance savoir, le quantile et le quantile conditionnel. Ces paramtres proposent une

    alternative majeure dans la prvision, grce leur caractre robuste (cf. par exemple, les

    travaux de Cardot et al. (2004a, 2004b, 2005 et 2006), Ferraty et al. (2005b) et (2006)).

    Pour terminer ce rapide tour d'horizon, non exhaustif, armons que d'un point de vue

    thorique, l'utilisation de variables alatoires fonctionnelles introduit une dicult

    supplmentaire puisqu'on ne peut plus se permettre de manipuler la fonction de densit

    de probabilit aussi facilement que dans le cas rel ou encore dans le cas vectoriel. On est

    donc amen donner une criture probabiliste qui nous conduit des hypothses agissant

    directement sur la distribution de la variable alatoire fonctionnelle plutt que sur la densit,

    comme dans le cas de dimension nie.

  • Chapitre 1

    Introduction aux donnes

    fonctionnelles et l'estimation de la

    densit conditionnelle

    Dans ce chapitre, nous prsentons, d'abord, quelques notions sur l'analyse des donnes fonc-

    tionnelles et son champ d'application, et puis, les rsultats existants dans la littrature sur

    l'estimation de la densit conditionnelle.

    1.1 Donnes fonctionnelles

    Au cours de ces dernires annes, la branche de la statistique consacre l'analyse des

    donnes fonctionnelles a connu un rel essor tant en termes des dveloppements thoriques

    et mthodologiques que de la diversication des domaines d'application. Ceci revient aux

    progrs qu' connu l'outil informatique au niveau des capacits de stockage qui permettent

    d'enregistrer des donnes de plus en plus volumineuses. Ainsi, un trs grand nombre de va-

    riables peuvent tre observes pour l'tude d'un mme phnomne.

    Une fois la ralit des variables fonctionnelles est prsente, on s'intresse aux aspects de

    modlisation les concernant. Dans ce but, nous donnons quelques dnitions permettant de

    xer un vocabulaire. Rappelons, tout d'abord, qu'une variable alatoire fonctionnelle est

    tout simplement une variable alatoire valeurs dans un espace de dimension ventuelle-

    ment nie que nous noterons F . Par exemple, cet espace F peut tre un espace de fonctions,d'oprateur linaires, : : :. Selon la terminologie en vigueur dans la littrature, on parle aussibien de variables alatoires fonctionnelles que de donnes fonctionnelles, ce qui englobe no-

    tamment tout ce qui concerne l'analyse statistique de courbes.

    15

  • 16 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Dnition 1.1.1. On appelle modle fonctionnels, tout modle prenant en compte au moins

    une variable alatoire fonctionnelle (v.a.f).

    Dnition 1.1.2. Un modle fonctionnel est dit paramtrique si C est indexable par un

    nombre ni de paramtres appartenant F , o C n'est qu'un sous-ensemble de IFF 0F (IFF0

    Fl'ensemble des fonctions dnies sur l'espace fonctionnel F et valeurs dans l'espace F 0).Un modle fonctionnel est dit non-paramtrique dans le cas contraire.

    De nombreux travaux ont t ddis l'tude des modles impliquant des variables ala-

    toires multivaries. Ce domaine de la statistique connait encore une activit de recherche

    soutenue. Cependant, les rcentes innovations ralises sur les appareils de mesure et les m-

    thodes d'acquisition ainsi que l'utilisation de moyens informatique perfectionns permettent

    souvent de rcolter des donnes discrtises sur des grilles de plus en plus nes, ce qui les

    rend fondamentalement fonctionnelles : c'est par exemple le cas en mtorologie, en m-

    decine, en imagerie satellite et dans de nombreux autre domaines d'tudes. C'est une des

    raisons pour lesquelles un nouveau champ de la statistique ddi l'tude de donnes fonc-

    tionnelles, a soulev un grand d au dbut des annes quatre-vingt, sous l'impulsion des

    travaux de Grennder (1981), Dauxois et al. (1982) et Ramsay (1982). En fait, ce domaine

    a t popularis par Ramsay et Silverman (1997), puis par les dirents ouvrages de Bosq

    (2000), Ramsay et Silverman (2002, 2005) et Ferraty et Vieu (2006). Notons que c'est un des

    domaines de la statistique qui est en plein essor comme en tmoignent les travaux publis

    et/ou cits dans des revues de premiers rangs, , etc.

    De plus, mme si les donnes dont dispose le statisticien ne sont pas de nature fonctionnelle,

    celui-ci peut tre amen tudier des variables fonctionnelles construites partir de son

    chantillon initial. Un exemple classique est celui o l'on observe plusieurs chantillons de

    donnes relles indpendantes et o l'on est ensuite amens comparer les densits de ces

    dirents chantillons ou bien considrer des modles o elles interviennent (cf. Ramsay et

    Silverman, 2002). Dans le contexte particulier de l'tude des sries temporelles, l'approche

    introduite par Bosq (1991) fait apparatre une suite de donnes fonctionnelles dpendantes

    qui modlisent la srie chronologique observe. Cette approche consiste tout d'abord consi-

    drer le processus non pas travers sa forme discrtise mais comme tant un processus

    temps continu puis le dcouper en un chantillon de courbes successives.

  • 1.1. Donnes fonctionnelles 17

    Remarquons que la principale source de dicult, que ce soit d'un point de vue thorique

    que pratique, provient du fait que les observations de ce type de variables sont supposes

    appartenir un espace de dimension innie.

    Les tous premiers travaux dans lesquels nous retrouvons l'ide de considrer les donnes

    fonctionnelles sont relativement anciens. Rao (1958) et Tucker (1958) ont envisag l'analyse

    en composantes principales et l'analyse factorielle pour des donnes fonctionnelles, en consi-

    drant explicitement les donnes fonctionnelles comme un type particulier de donnes. Par

    la suite, Ramsay (1982) a dgag la notion de donnes fonctionnelles et a soulev la question

    de l'adaptation des mthodes utilises en analyse statistique de donnes multivaries (en

    dimension nie) au cadre fonctionnel.

    A partir de l, les travaux portant sur la statistique des donnes fonctionnelles ont commenc

    se multiplier pour nalement aboutir, aujourd'hui, des ouvrages devenus des rfrences en

    la matire. Par exemple, les monographies de Ramsay et Silverman (2002 et 2005), Ferraty

    et Vieu (2006) prsentent une collection importante de mthodes statistiques spciques

    aux variables fonctionnelles dans les cadres linaire et non linaire. De mme, Bosq (1991)

    a contribu au dveloppement de mthodes statistiques permettant l'analyse de variables

    alatoires fonctionnelles dpendantes (processus autorgressifs hilbertiens). Citons aussi, les

    travaux de Cuevas et al. (2002) qui se sont intresss au problme de la rgression linaire

    d'une variable fonctionnelle sur un ensemble de donnes fonctionnelles dterministes xed

    functional design. D'autre part, Benhenni et al. (2010) ont considr le problme d'estima-

    tion de l'oprateur de rgression quand les donnes fonctionnelles sont dterministes et les

    erreurs sont corrles. Cardot et al. (2005) quant eux, ils ont propos un estimateur non

    paramtrique de l'oprateur de rgression quand le facteur prdictif est rel et la variable

    rponse est une courbe.

    Par ailleurs, l'tude du modle de rgression non linaire est beaucoup plus rcente que celle

    du cas linaire. Ferraty et Vieu (2000) ont tabli les premiers rsultats sur l'estimation non

    paramtrique de l'oprateur de rgression non linaire. Ces rsultats ont ensuite t prolon-

    gs par Ferraty et al. (2002) en traitant le cas de donnes dpendantes et en tablissant des

    convergences fortes de l'estimateur noyau de la rgression.

    A leur tour, Niang et Rhomari (2003) ont tudi la convergence en norme Lp de l'estimateurde l'oprateur de rgression et ont exprimont leur rsultats la discrimination et la

    classication de courbes. Rachdi et al. (2008) ont trait le problme d'estimation non pa-

    ramtrique de l'oprateur de rgression quand les erreurs vrient des proprits de longue

    mmoire. Ils ont tabli aussi la convergence en probablilit ponctuelle puis uniforme de l'es-

    timateur noyau opratoriel. Une autre contribution base sur la construction d'un critre

    de choix automatique et optimal du paramtre de lissage pour l'estimateur de la rgression

    quand le rgresseur est de type fonctionnel a t mene par Rachdi et Vieu (2005, 2007).

    Tandis qu'El Methni et Rachdi (2011) ont tabli l'estimation locale d'une moyenne pond-

    res de l'oprateur de rgression pour des donnes fonctionnelles dterministes. Ouassou et

  • 18 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Rachdi (2010) ont amlior ensuite cette estimation par l'estimateur de Stein.

    Rappelons que, le au de la dimension rend les vitesses de convergence trs faibles. Une

    manire de tenter de remdier cela est de chercher une topologie qui restitue de faon

    pertinente les proximits entre les donnes. Cela peut tre fait, par exemple, l'aide d'une

    semi-mtrique de projection base sur les composantes principales fonctionnelles, les dcom-

    positions selon une base de Fourier, d'ondelettes, de splines, : : :. Lorsque la variable expli-cative est valeurs dans un espace de Hilbert sparable, Ferraty et Vieu (2006a, Lemme

    13-6) ont montr que l'on peut dnir de manire gnrale une semi-mtrique de projec-

    tion qui permet de se ramener des probabilits de petites boules de type fractal (i.e.

    9C; > 0; Fx(h) Cxh quand h ! 0). On condense ainsi les donnes en rduisant leurdimension et on contourne ainsi le au de la dimension. En eet, on revient des vitesses

    de convergence en puissance de n. Dans d'autres situations, on peut tre confront desdonnes trs lisses (comme les courbes spectromtriques de masse donnes dans la Figure

    1.2). Dans ce cas de gure, il peut tre intressant d'utiliser plutt des semi-mtriques ba-

    ses sur les drives (cf. Ferraty et Vieu, 2006a). Ces semi-mtriques peuvent galement tre

    utiles lorsque les donnes prsentent un shift vertical articiel (i.e non informatif vis--vis

    des rponses). Elles ont alors pour eet d'liminer ces dcalages verticaux qui nuisent la

    qualit de la prdiction. Enn, on peut envisager d'autres types de phnomnes comme,

    titre d'exemple, les dcalages horizontaux (cf. Dabo-Niang et al., 2006).

    Face la grande diversit des semi-mtriques qu'on peut construire, on peut se poser la

    question sur comment choisir la semi-mtrique la mieux adapte au donnes. Ceci va motiver

    l'tude du problme de construction d'une semi-norme sur F .

    1.2 Donnes fonctionnelles vs semi-mtrique

    D'une faon gnrale, l'analyse de tout type de donnes ncessite la dnition de la notion

    de distance entre celles-ci. Il est bien connu que dans un espace vectoriel de dimension nie

    toutes les mtriques sont quivalentes. Ceci n'est plus le cas quand l'espace d'observations

    est de dimension innie. C'est pourquoi le choix de la mtrique (et donc de la topologie

    associe) est un lment crucial pour l'tude des variables alatoires fonctionnelles.

    De nombreux auteurs dnissent ou tudient les variables fonctionnelles comme tant des

    variables alatoires de carrs intgrables c'est--dire valeurs dans L2(0; 1) (cf. notamment,Crambes et al., 2007) ou plus gnralement dans un espace de Hilbert (cf. par exemple,

    Preda, 2007), ou de Banach (cf. Cuevas et Fraiman, 2004) ou mtrique (cf. Dabo-Niang et

    Rhomari, 2003). Notons d'ailleurs que Bosq (2000), quant lui, il a considr des chantillons

    de variables fonctionnelles dpendantes et valeurs dans un espace de Hilbert ou de Banach.

    Ces observations fonctionnelles ont t obtenues suite au dcoupage d'un mme processus

    temps continu. De plus, parmi les semi-mtriques, disponibles dans la littrature, il est

    souvent plus intressant de considrer des semi-mtriques permettant un ventail plus large

  • 1.2. Donnes fonctionnelles vs semi-mtrique 19

    de topologies possibles que l'on pourra choisir en fonction de la nature des donnes et du

    problme traiter.

    Signalons que, l'intrt d'utiliser une semi-mtrique plutt qu'une mtrique est que cela peut

    constituer une alternative aux problmes lis la grande dimension des donnes. En eet,

    on peut considrer une semi-mtrique qui soit dnie partir d'une projection de nos don-

    nes fonctionnelles sur un espace de dimension plus petite : (1) que ce soit en ralisant une

    analyse en composantes principales fonctionnelles de nos donnes (cf. Dauxois et al. (1982),

    Besse et Ramsay (1986), Hall et Hosseini-Nasab (2006) et Yao et Lee (2006)) ou (2) en les

    projetant sur une base de cardinal ni (ondelettes, splines, : : :). Cela permet de rduire ladimension des donnes et ainsi d'augmenter la vitesse de convergence des mthodes utilises

    tout en prservant la nature fonctionnelle des donnes. D'ailleurs, on peut choisir la base sur

    laquelle on projette en fonction des connaissances que l'on a de la nature de la donne fonc-

    tionnelle. Par exemple, on pourrait choisir la base de Fourier si on suppose que la variable

    fonctionnelle observe est priodique. On peut se rfrer, pour cela, Ramsay et Silverman

    (1997 et 2005) ou Rossi et al. (2005) pour une discussion plus complte sur les direntes

    mthodes d'approximation par projection de donnes fonctionnelles. Aussi, une discussion

    plus approfondie de l'intrt d'utiliser dirents types de semi-mtriques est prsente dans

    le livre de Ferraty et Vieu (2006) (paragraphes 3 et 4) ainsi que dans le travail ralis par

    Benhenni et al. (2007).

    Pour ces direntes raisons, nous prsentons ici quelque pistes (cf. Ferraty et Vieu, 2006)

    permettant de construire une semi-mtrique. En fait, nous prsentons, dans ce qui suit,

    seulement deux familles de semi-mtriques mais, naturellement, beaucoup d'autres peuvent

    tre construites : la premire est bien adapte aux courbes dites bruites et aux courbes

    irrgulires tandis que la deuxime sera plutt employe pour le traitement de courbes tout

    fait lisses (ou rgulires).

    Pour ce faire, nous commenons par considrer un chantillon de n courbes X1; : : : ; Xn in-dpendantes et identiquement distribues de la variable alatoire fonctionnelle

    X = fX(t); t 2 [0; 1]g.

    Notons que, l'analyse en composantes principales classique (ACP) est considre comme

    tant un outil trs utile pour la description et la visualisation des donnes dans un espace

    de dimension plus petite. Cette technique a t prolonge aux donnes fonctionnelles et plus

    rcemment employe pour dirents buts statistiques. Nous verrons que le FPCA (Functional

    Principal Components Analysis) est devenue un bon outil pour calculer des proximits entre

    les courbes dans un espace de dimension rduite. Ainsi, partir de la semi-mtrique classique

    L2, nous pouvons construire une classe paramtrique de semi-normes, que nous noteronsSMPCA (Semi-Mtrique base sur l'ACP), de la manire suivante :

    kxkACPq =vuut qX

    k=1

    Zx(t)vk(t)

    2dt pour tout x 2 F

  • 20 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    o v1; :::; vq sont les fonctions propres orthonormales de l'oprateur de covariance :

    X(s; t) = E(X(t)X(s))

    associes aux valeurs propres 1 2 q.

    Signalons aussi que, l'entier q n'est pas un paramtre de lissage, mais plutt un paramtrede rglage indiquant le niveau de rsolution auquel le problme est considr.

    On en dduit une famille de semi-mtriques comme suit :

    dACPq (Xi; x) =

    vuut qXk=1

    Z(Xi(t) x(t))vk(t) dt

    2(1)

    Notons que, l'approximation de l'intgrale dans la formule (1) peut se faire comme suit (cf

    Castro et al., 1986) :Z 10(Xi(t) x(t))vk(t)dt w

    JXj=1

    wj(Xi(tj) x(tj))vk(tj)

    o les poids wj = tj tj1 et la grille (t1; :::; tJ) est constitue de J valeurs quidistantesdans [0,1].

    Si nous discrtisons deux courbes xi et xi0 alors, la quantit dACPq (xi; xi0) sera approximepar sa version empirique :

    dACPq (xi; xi0) =

    vuuut qXk=1

    0@ JXj=1

    wj(xi(tj) xi0(tj))vk(tj)1A2

    o fxi = (xi(t1); :::; xi(tJ))t)gi=1;:::;n et fxi0 = (xi0(t1); :::; xi0(tJ))t)gi0=1;:::;n

    En eet, cette famille de semi-mtriques peut tre utilise seulement si les donnes sont

    quilibres (les courbes sont observes aux mmes points). Ceci pourrait apparatre comme

    un inconvnient pour l'usage d'un tel genre de semi-mtriques mais, leur principal avantage

    est d'tre utilis mme si les courbes son irrgulires. En prenant l'exemple de la prvision

    de la concentration maximale de l'ozone au ple nord pendant une journe sur quatre an-

    nes successives (de 2000 2004), tant donn la courbe de cette concentration pendant la

    journe prcdente (cf. Figure 1.4), nous avons choisi la norme L21;24 calcule, en utilisant cegenre de semi- mtriques.

    Une autre manire de construire une autre famille de semi-mtriques est base sur les dri-

    ves, que nous allons noter par SMD (Semi-Mtrique base sur la Drive). Elle est dnie

  • 1.2. Donnes fonctionnelles vs semi-mtrique 21

    de la manire suivante :

    dSMDq (xi; xi0) =

    sZ 10(x

    (q)i (t) x(q)i0 (t))2dt (2)

    pour deux courbes observes xi et xi0 , o x(q)dsigne la drive d'ordre q de x.Notons, par ailleurs, que dSMD0 (x; 0) concide avec la norme classique sur l'espace L

    2de x.

    De plus, on peut aussi utiliser l'approximation de chaque courbe par des B-splines (cf. De

    Boor (1978) ou Schumaker (1981)) et ainsi les drives successives seront directement cal-

    cules en direnciant plusieurs fois leurs formes analytiques. Ainsi, le calcul de l'intgrale

    dans (2) peut tre eectu en utilisant la mthode de Gauss (cf. Lanczoz, 1956). Dans la

    pratique, cette classe de semi-mtriques sera bien adapte et employe quand on a aaire

    des courbes lisses, comme les donnes spectromtriques de masse (cf. Figure 1.2).

    A ce stade, on pense que l'ensemble des donnes, lui-mme, devrait tre mis en avant an

    de choisir la semi-mtrique employer.

    En conclusion, chacune des deux familles discutes ci-dessus est adapte un certain genre

    de donnes : la SMPCA est prvue pour des donnes irrgulires, tandis que, la SMD est

    adapte aux donnes lisses.

    On peut donc armer, sans hsitation, que le choix de la semi-mtrique permet la fois

    de prendre en compte des situations plus varies et de pouvoir contourner le au de la

    dimension. Ce choix ne doit cependant pas tre pris la lgre mais, doit prendre en compte,

    non seulement la nature des donnes mais aussi la nature du problme tudi.

    1.2.1 Probabilits des petites boules

    Le problme du au de la dimension est un phnomne bien connu dans le cas de modles

    de rgression multivarie non paramtrique. Il est bien connu que ce problme provoque une

    dcroissance exponentielle des vitesses de convergence des estimateurs non paramtriques en

    fonction de la dimension (cf. Stone, 1982). Par consquent, il est lgitime de penser que les

    mthodes non paramriques dans l'tude des modles variables fonctionnelles risque d'avoir

    une vitesse de convergence trs lente. Dans le cas o la variable explicative est multivarie

    (i.e. valeurs dans un espace de dimension ventuellement nie (F ; d)), les vitesses deconvergence de l'estimateur noyau sont exprimes en fonction d'un terme de la forme hdn;provenant de la valeur de la probabilit que la variable explicative appartienne la boule

    de centre x et de rayon hn. Dans le cas d'une variable explicative fonctionnelle les rsultatsasymptotiques sont exprims partir de quantits plus gnrales appeles probabilits des

    petites boules et qui sont dnies par :

    Fx(hn) := IP(d(X;x) hn) o hn ! 0

  • 22 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Au travers des dirents rsultats de convergence concernant l'estimateur tudi dans ce m-

    moire (de type Nadaraya-Watson et/ou local linaire), on observe que la vitesse de conver-

    gence est fonction de la manire dont dcroissent ces probabilits de petite boules. Il existe

    dans la littrature un nombre assez important de rsultats probabilistes qui tudient la ma-

    nire dont ces probabilits des petites boules tendent vers 0 quand d est une norme (cf. parexemple, Li et Shao (2001), Lifshits et al. (2006) et Gao et Li (2007)). On pourra galement

    se rferer au travail de Dereich (2003, Chapitre 7) qui est consacr au comportement des

    probabilits des petites boules dont les centres sont alatoires. Au travers de ces travaux

    on peut voir, par exemple, que dans le cas de processus non-lisses tels que le mouvement

    brownien ou le processus d'Ornstein-Uhlenbeck, ces probabilits des petites boules sont de

    forme exponentielle (par rapport hn) et que par consquent la vitesse de convergence denos estimateurs est en puissance de ln(n) (cf. Ferraty et al. (2006), paragraphe 5 et Ferratyet Vieu (2006a), paragraphe 13.3.2, pour une discussion plus approfondie sur ce sujet).

    Dans ce qui suit, nous allons prsenter un aperu sur l'utilit de l'analyse des donnes

    fonctionnelles dans les applications.

    1.2.2 Champs d'application des donnes fonctionnelles

    Depuis plusieurs dcennies, nombreux sont les statisticiens qui ont dvelopp des applica-

    tions permettant le traitement de variables alatoires fonctionnelles. D'une part, ce traite-

    ment permet d'utiliser ou de dvelopper des outils thoriques performants, et d'autre part,

    il ore un norme potentiel en terme d'applications (en imagerie, agro-industrie, gologie,

    conomtrie,...). Nous exposons ci-dessous quelques exemples concrets.

    Dans le domaine de la linguistique : le problme de la reconnaissance vocale est un sujet

    d'actualit. L'objectif est de pouvoir retranscrire phontiquement des mots et des phrases

    prononcs par un individu. Les donnes sont des courbes correspondant des enregistrements

    de phonmes prononcs par dirents individus. Des travaux ont t, galement, raliss,

    notamment concernant la reconnaissance vocale. On peut citer par exemple Hastie et al.

    (1995), Berlinet et al. (2005) ou encore Ferraty et Vieu (2003).

    Etude du phnomne d'El Nio : il s'agit d'un jeu de donnes provenant de l'tude d'un

    phnomne climatologique assez important. Ce phnomne est couramment appel El Nio.

    C'est un grand courant marin qui survient de manire exceptionnelle (en moyenne une

    deux fois par dcennie) le long des ctes pruviennes la n de l'hiver. Ce courant

    provoque des drglements climatiques l'chelle de la plante. Le jeu de donnes est

    constitu de relevs de tempratures mensuelles de la surface ocanique eectus depuis

    1950 dans une zone situe au large du nord du Prou (de coordonnes 0-10

    Sud, 80-90

    Ouest) dans laquelle peut apparatre le courant marin El Nio. Ces donnes et leur des-

    cription sont disponibles sur le site internet du centre de prvision du climat amricain :

    http : ==www:cpc:ncep:noaa:gov=data=indices=. Il faut noter que l'volution des tempra-tures au cours du temps est rellement un phnomne continu. Le nombre de mesures permet

  • 1.2. Donnes fonctionnelles vs semi-mtrique 23

    Figure 1.1 Les courbes correspondant au courant d'El Nno

    de prendre en considration la nature fonctionnelle des donnes (cf. Figure 1.1). A partir de

    ces donnes, on peut s'intresser la prdiction de l'volution du phnomne partir des

    donnes recueillies lors des annes prcdentes.

    En industrie alimentaire : Ferraty et Vieu (2002, 2003) se sont intresss des donnes

    spectromtriques de masse. Ces donnes proviennent d'un problme de contrle de qualit

    en industrie alimentaire. Ils ont tudi la contenance en graisse dans les morceaux de viande

    tant donn les courbes d'absorption de ces morceaux de viande (cf. pour ceci Figure 1.2).

    Ces donnes relles ont t utilises dans le cas o les variables sont indpendantes.

    Consommation d'lectricit aux USA : dans le cadre des donnes dpendantes, on peut consi-

    drer l'exemple d'une srie chronologique qui concerne la consommation annuelle

  • 24 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    0 20 40 60 80 100

    2.02.5

    3.03.5

    4.04.5

    5.05.5

    Index

    CURVES

    [1, ]

    Figure 1.2 Les courbes spectromtriques

    d'lectricit, aux USA, par des secteurs rsidentiels et commerciaux de janvier 1973 jusqu'en

    fvrier 2001 (338 mois). Le but de cette tude est de prvoir la consommation d'lectricit de

    l'anne suivante sachant la consommation d'lectricit de toute l'anne prcdente. L'chan-

    tillon se compose de 28 donnes comme le montre la Figure 1.3. Cette srie chronologiquepeut tre regarde comme tant un ensemble de donnes fonctionnelles dpendantes (c'est-

    -dire, une population de 28 courbes : chaque anne correspond 1 courbe).

    Donnes de pollution : Un autre exemple de variables alatoires fonctionnelles dpendantes

    portant sur l'tude de phnomnes lis l'environnement est le problme de pollution. Il

    s'agit d'tudier la courbe de concentration d'ozone au Ple Nord sur quatre annes suc-

    cessives (de 2000 2004). L'objectif est de prvoir la concentration de l'ozone dans une

    journe tant donn la courbe de concentration de l'ozone de la veille. En procdant par

    un dcoupage journalier de la courbe de concentration annuelle de l'ozone, on obtient les

    courbes reprsentes dans Figure 1.4. Notons que plusieurs auteurs se sont intresss aux

    phnomnes lis l'environnement, on peut citer entre autres, Damon et Guillas (2002),

    Aneiros-Perez et al. (2004), Cardot et al. (2004, 2006), Meiring (2005).

    Bref, de nombreux autres domaines d'application o l'on peut tre confront des donnes

    de natures fonctionnelles existent et/sinon auent. Vu l'normit des exemples que l'on

    peut citer, nous sommes incapable de prsenter dans cette thse une liste exhaustive de ces

    applications. Sinon, nous nous contentons, dans la suite de ce paragraphe, d'un rapide tour

    d'horizon de ces champs d'application.

    En biologie : pour l'tude des variations des courbes de croissance (cf. Rao, 1958 et Figure

    1.5), et plus rcemment, pour l'tude des variations de l'angle du genou durant la marche

  • 1.2. Donnes fonctionnelles vs semi-mtrique 25

    2 4 6 8 10 12

    0.2

    0.1

    0.00.1

    0.2

    Index

    electr

    icityc

    onsu

    mptio

    n[1, ]

    Figure 1.3 Les courbes annuelles de consommation d'lectricit aux USA

    5 10 15 20

    020

    4060

    8010

    0

    20002004

    Heure

    pollu

    tion

    Figure 1.4 Les courbes de pollution au Ple Nord

  • 26 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Figure 1.5 Courbes de croissance

    (cf. Ramsay et Silverman, 2002). Notons qu'un norme nombre de donnes fonctionnelles est

    produit et ne demande qu' avoir la mthodologie adquate pour son traitement, notamment

    les donnes spectromtriques de masse (cf. pour le cancer Figure 1.6).

    En biologie animal : des tudes sur la ponte de mouches mditerranennes ont t eectues

    et rsumes par des courbes donnant, pour chaque mouche, la quantit d'oeufs pondus en

    fonction du temps (cf. Figure 1.7).

    En conomtrie : on est souvent confronts de nombreux phnomnes que l'on peut mo-

    dliser par des variables fonctionnelles. Parmi ces phnomnes on peut citer la volatilit des

    marchs nanciers (cf. Mller et al., 2007), le rendement d'une entreprise (cf. Kawassaki et

    Ando, 2004), le commerce lectronique (cf. Jank et Shmueli, 2006) ou l'intensit des tran-

    sactions nancires (cf. Laukaitis et Rackauskas, 2002). On peut se rferer Kneip et Utikal

    (2001), Benko (2006) et Benko et al. (2006) pour des rfrences supplmentaires. Par ailleurs,

    nous pouvons aussi citer un exemple qui consiste l'observation des uctuations d'un indice

    boursier en fonction du temps : il s'agit typiquement d'une srie temporelle qu'on dcoupe

    selon des sous-intervalles de l'espace temps (cf. Bosq, 2002).

    En graphologie : l'apport des techniques de la statistique fonctionnelle a aussi trouv une

    application en graphologie. Parmi les travaux raliss sur cette problmatique on peut citer,

    titre d'exemple, ceux de Hastie et al. (1995) et Ramsay (2000). Ce dernier a modlis

    la position du stylo (abscisses et ordonnes en fonction du temps) l'aide d'un systme

    d'quations direntielles de paramtres fonctionnels.

  • 1.2. Donnes fonctionnelles vs semi-mtrique 27

    Figure 1.6 Courbes spectromtriques de masse sur des cellules cancereuses

    Figure 1.7 Une courbe du nombre d'oeufs journaliers pondus par une mouche

  • 28 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Les mesures et notamment les images recueillies par satellites sont galement des donnes

    dont l'tude peut tre ectue partir des mthodologies de la statistique fonctionnelle. On

    peut citer, par exemple, les travaux de Vidakovic (2001) dans le domaine de la mtorologie

    ou ceux de Dabo-Niang et al. (2004b, 2007) dans le domaine de la gophysique. Dans ces

    travaux, on s'intresse la classication des courbes recueillies par le satellite dirents

    endroits de l'amazonie, ce qui permettrait d'identier la nature du sol. Enn, citons Cardot

    et al. (2003) et Cardot et Sarda (2006) qui ont tudi l'volution de la vgtation partir

    de donnes satellitaires.

    1.3 Quelques rsultats sur l'estimation non-paramtrique pour

    des modles fonctionnels

    Nous rappelons, dans ce paragraphe et dans un premier temps quelques hypothses

    et notations qui paraissent importantes pour la suite de ce travail de thse. Ensuite, les

    rsultats obtenus par Ferraty et al. (2006) et brivement ceux obtenus par Laksaci (2005)et

    Ezzahrioui (2007) sur l'estimation de quelques paramtres conditionnels.

    1.3.1 Notations et hypothses

    Considrons le couple de variables alatoire (X;Y ) o Y est valeurs dans R et Xest valeurs dans un espace semi-mtrique (F ; d) qui peut tre de dimension ventuellementnie. Pour x 2 F , la distribution de probabilit de Y sachant X est dnie par :

    8y 2 R; F x(y) = IP(Y yjX = x)

    ou cette distribution est absolument continue par rapport la mesure de Lebesgue sur R.Notons par fx (respectivement fx(j)) la densit conditionnelle (respectivement sa drived'ordre j) de Y sachant X = x. Par la suite on dsignera par x le point xe de F , Vx unvoisinage de x et SIR un sous-ensemble compact de R. Notons aussi par : B(x; h) = fx0 2Fjd(x0; x) < hg la boule de centre x et de rayon h.

    Voici quelques hypothses dont nous avons besoin dans les enoncs des rsultats prli-

    minaires.

    (H1) P (X 2 B(x; h)) = x(h) > 0

    Pour la fonction de rpartition conditionnelle, celle-ci sera suppose vrier la condition

    suivante :

    (H2) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jF x1(y1)F x2(y2)j Cxd(x1; x2)

    b1 + jy1 y2jb2

  • 1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels29

    et pour certain j 0;

    Concernant la densit conditionnelle fx, on la supposera de classe Cj et telle que :(H3) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jfx1(j)(y1)fx2(j)(y2)j Cx

    d(x1; x2)

    b1 + jy1 y2jb2La condition de concentration (H1) joue un rle important. Ce genre de condition est li

    la semi-mtrique d. Elle quantie et contrle les probabilites des petites boules.

    (H4) =

    8>>>:8(y1; y2) 2 R2; jH(y1)H(y2)j Cjy1 y2j

    RR jtjb2H(1)(t)dt < +1(H5) Le noyau K est support dans (0; 1), tel que, 0 < C1 < K(t) < C2, oC1 et C2 sont deux constantes strictement positives,

    (H6) limn!1hK = 0 et limn!1

    log n

    nx(hK)= 0,

    (H7)- limn!1hH = 0 et limn!1n

    hH =1, pour un certain rel > 0.

    o H est un noyau, hK = hK;n (respectivement, hH = hH;n) est une suite de nombresrels positifs tendant vers 0 quand n tend vers l'inni.

    1.3.2 Estimation de la loi conditionnelle

    Dans ce paragraphe, nous donnons un rsultat de convergence de l'estimateur noyau

    de la loi conditionnelle. tant donn un lment x x de F et soit (Xi; Yi)i=1;:::;n un chan-tillon de couples de variables alatoires indpendantes valeurs dans RF , l'estimateur noyau de la loi conditionelle F x(:) est dni par :

    F^ x(y) =

    Pni=1K

    d(x;Xi)hK

    HyYihH

    Pn

    i=1Kd(x;Xi)hK

    ; 8y 2 RLe thorme suivant donne la convergence

    1

    (p.co.) prsque complte de l'estimateur F^ x(y)

    1. soit (zn)n2N une suite de variables alatoires. On dit que zn converge presque compltement (p.co.)vers 0 si, et seulement si, 8 > 0, P1n=1 IP (jznj > 0) < 1. De plus, soit (un)n2N une suite de nombresrels positifs. On dit que zn = O(un) p.co. si, et seulement si, 9 > 0, P1n=1 IP (jznj > un) < 1 : ce typede convergence implique la convergence presque sure et la convergence en probabilit (cf. [13] pour plus de

    dtails).

  • 30 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Thorme 1.3.1. (Ferraty et al. 2006). Sous les hypothses H1-H6, ona :

    supy2S

    jIFxn(y) F x(y)j = Ohb1K

    +O

    hb2H

    +O

    slog n

    nx(hK)

    !; p:co:

    1.3.3 Estimateur noyau de la densit conditionnelle

    Dans ce pragraphe, nous prsentons un estimateur noyau de la drive d'ordre j dela densit conditionnelle et un rsultat sur le comportement asymptotique de cet estimateur.

    Cet estimateur f^x(j) de fx(j) est donn par :

    f^ (j)(yjx) =hj1H

    Pni=1K

    d(x;Xi)hK

    H(j+1)

    yYihH

    Pn

    i=1Kd(x;Xi)hK

    ; 8y 2 R

    Notons que, cet estimateur est analogue celui introduit par Rosenblatt (1969) dans le

    cas o X est une variable alatoire relle. Il est aussi largement tudi depuis ce temps (cf.Youndj, 1996). An d'tablir quelques rsultats de convergence, les hypothses suivantes

    seront ncessaires :

    (H8)

    8>>>>>>>>>>>>>>>:

    8(y1; y2) 2 R2; jH(j+1)(y1)H(j+1)(y2)j Cjy1 y2j

    9 > 0; 8j0 j + 1; limy!1 jyj

    1+ jH(j+1)(y)j = 0

    H(j+1) est born

    (H9) limn!1hK = 0 avec limn!1

    log n

    nh2j+1H x(hK)= 0:

    Le thorme suivant concerne le comportement asymptotique de l'estimateur fonctionnel

    noyau f^x(j).

  • 1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels31

    Thorme 1.3.2. (Ferraty et al., 2006). Sous les hypothses H1, H3, H4 et H6-H9,

    ona :

    supy2S

    jfx(j)n (y) fx(j)(y)j = Ohb1K

    +O

    hb2H

    +O

    slog n

    nh2j+1H x(hK)

    !; p:co:

    o S une sous-ensemble compact de R

    1.3.4 Estimation du mode conditionnel

    Cas o les donnes sont i.i.d.

    Ce paragraphe prsente un estimateur du mode conditionnel not par ^. Notons que,l'ensemble compact S est choisi de telle sorte qu'il n'y ait qu'un unique mode . Cet esti-mateur est bas sur la prcdente estimation fonctionnelle de la densit conditionnelle.

    Dans la suite de ce paragraphe, on utilise S = [ ; + ] comme ensemble compact.L'estimateur ^ du mode conditionnel est dnie comme.

    f^x(^) = supy2S

    f^x(y)

    Notons que, l'estimateur ^ n'est pas ncessairement unique, pour assur cette unicit et laconvergence de ^n, on suppose :

    (H10) 9 > 0, fx % dans [ ; ] et fx & dans [; + ].

    (H11) fx est j-fois continment direntiable par rapport y sur [ ; + ],

    et

    (H12)

    8>>>:fx(l)() = 0; si 1 l < j

    jfx(j)()j > 0 sinonSignalons que ces conditions ont une grande inuence sur la vitesse de convergence de l'es-

    timateur ^ (cf. le thorme ci-dessous). De plus la convergence de cet estimateur peut treobtenue par l'hypothse (H10) (cf. Laksaci (2005), Lemme 2.4.1).

  • 32 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

    Thorme 1.3.3. (Laksaci , 2005). Si les hypothses du Thorme 1.3.2 et H10-H12 sont

    vries, alors :

    ^ = Ohb1j

    K

    +O

    hb2j

    H

    +O

    logn

    nhHx(hK)

    12j

    ; p:co:

    Cas o les donnes sont -mlangeantes

    Les rsultats obtenus dans le cas des variables alatoires fonctionnelles indpendantes

    et identiquement distribues (i.i.d.) ont t prolongs au cas des variables fortement mlan-

    geantes. Un rsultat (cf. Thorme 1.3.4) s'annonce dans ce cadre grce des hypothses

    faites dans le cas i.i.d. Ces hypothses ont t renforces par des conditions de concentration

    de la loi conjointe des couples (X;Y ) et quelques hypothses sur les coecients de mlange.

    Deux exemples d'application sont tudis. Le premier correspond au cas i.i.d. Il concerne

    l'industrie agro-alimentaire (courbes spectromtriques de masse). L'autre exemple corres-

    pond au cas dpendant. Celui-ci concerne un problme de pollution (les courbes de la concen-

    tration de l'ozone sur le ple nord) (cf. Laksaci , 2005 pour plus de dtails).

    Les hypothses suivantes sont ncessaires dans l'enonc du Thorme 1.3.4 :

    (H13) supi6=j P ((Xi; Xj)) 2 B(x; r)XB(x; r) = x(r) x(r) > 0,

    (H14) Les coecients de -mlange de la suite (Xi; Yi) vrient la condition :

    9a > (5 +p17)=2; 9c > 0telsque8n; n cna

    ,

    (H15) limn!1hH = 0 et 91

    4

    (a+ 1)(a 2) tel que limn!1n1 hH =1,

    (H16)

    8>>>>>:limn!1hK = 0; limn!1

    logn

    nhH x(hK)= 0:

    et

    92 > 0; c1 > 0; c2 > 0; c2n(3aa+1

    )+2 x(hK) c1n1

    1a :

    o

    x(hK) dsigne le maximum de la concentration entre la loi marginale et les lois conjointesde chaque couple d'observations fonctionnelles dans la boules de centre x et de rayon hK .

  • 1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels33

    Thorme 1.3.4. (Laksaci, 2005). Si les hypothses (H1), (H3)-(H5) et (H10)-(H16) sont

    vries, alors :

    ^ = Ohb1j

    K

    +O

    hb2j

    H

    +O

    logn

    nhHx(hK)

    12j

    !; p:co:

    o b1 et b2 deux rels strictement positifs.

  • 34 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

  • Chapitre 2

    Kernel conditional density estimation

    when the regressor is valued in a

    semi-metric space

    Ali Laksaci

    1

    , Fethi Madani

    2and Mustapha Rachdi

    2; 3

    ( paratre dans Communications Statistics- Theory and Methods, 2012)

    Abstract.This paper deals with the conditional density estimation when the explanatory variable is

    functional. In fact, nonparametric kernel type estimator of the conditional density has been recently

    introduced when the regressor is valued in a semi-metric space. This estimator depends on a smoo-

    thing parameter which controls its behavior. Thus, we aim to construct and study the asymptotic

    properties of a data-driven criterion for choosing automatically and optimally this smoothing pa-

    rameter. This criterion can be formulated in terms of a functional version of cross-validation ideas.

    Under mild assumptions on the unknown conditional density, it is proved that this rule is asymp-

    totically optimal. Finally, a simulation study and an application on real data are carried out to

    illustrate, for nite samples, the behavior of our method. Finally, mention our results can also be

    considered as novel in the nite dimensional setting and several other open questions are raised in

    this article.

    Keywords. Cross-validation, functional data, kernel estimator, nonparametric model, band-

    width selection, small balls probability

    1. Universit Djillali Liabs, BP. 89, Sidi Bel-Abbs 22000, Algeria. E-mail : [email protected]

    2. Laboratoire AGIM FRE 3405 CNRS, Equipe TIMB, Universit P. Mends France (Grenoble 2),UFR SHS, BP. 47, 38040 Grenoble Cedex 09, France. E-mails : [email protected] and

    [email protected]

    3. Corresponding author

    35

  • 36 2. Choix de la largeur de fentre

    AMS Subject Classication. Primary : 62G05, Secondary : 62G07, 62G08, 62G35, 62G20.

    2.1 Introduction

    Conditional density estimation is a statistical technique that allows for a better understan-

    ding of the relationship between a response variable and a set of covariates, in comparison

    with usual regression methods. Therefore, this technique is of great importance in many

    scientic elds where knowledge about conditional means, obtained by regression methods,

    is not enough to draw valuable conclusions about the problem at hand. Moreover, conditio-

    nal density functions arise in a variety of areas. One of the more useful applications involves

    density forecasting, where the probability density of the forecast of a time series, such as the

    rate of ination, can be used to make probability statements regarding the future course of

    that series. However, the probability density, and its resulting interpretation, is conditional

    on the hypothesis that the model used to produce the forecasts is correctly specied.

    Recall that, if g(x; y) denotes the joint density of (X;Y ) and h(x) denotes the marginaldensity of X, then the conditional density of Y given X = x is obtained by f(x; y) =g(x; y)=h(x). The standard nonparametric regression does not allow the analysis of changesin modality, and standard density estimation does not allow conditioning on an explanatory

    variable. Notice also that conditional density estimation is, in some ways, a generalization

    of both nonparametric regression and standard univariate density estimation. The kernel

    conditional density estimation was rst considered by Rosenblatt (1969) who studied the

    problem of estimating the density of Y given X = x where X is an univariate randomvariable.

    On the other hand, estimators of the conditional mode, the conditional distribution and

    the conditional median can be derived directly from estimators of f(x; y). For instance inCollomb et al. (1987) it is shown how one can get an estimator of the conditional mode

    and how such an estimator can be used for forecasting problems (cf. to cite a few, Hrdle

    (1990), Gannoun (1990), Youndj (1993 and 1996) and the references therein). Moreover, It

    is important to mention that estimators of conditional modes are of particular interest for

    prediction (cf. Collomb et al. (1987) and Ferraty et al. (2005)).

    Furthermore, the problem of the conditional density estimation appears to have lain free of

    scrutiny until it was revisited and some improved estimators were proposed (cf. Hyndman

    et al. (1996), and references therein for some developments). Indeed, the following modied

    form of Rosenblatt's estimator was considered :

    bf(a;b)(x; y) = b1Pnj=1K(a1jjxXj jjx)K(b1jjy Yj jjy)Pnj=1K(a

    1jjxXj jjx) (1)

    where (X1; Y1); : : : ; (Xn; Yn) is a sample of independent observations from the distributionof (X;Y ) and jj:jjx and jj:jjy are metrics on the spaces values of X and Y , respectively.

  • 2.1. Introduction 37

    The kernel function, K(u), is assumed satisfying some specic conditions. Popular choicesof K(u) are dened in terms of univariate and unimodal probability density functions. Mo-reover, Youndj (1993 and 1996), Hyndman et al. (1996) and others give the bias, variance,

    mean squared error (MSE) and convergence properties of the estimator (1) and proposed

    also an alternative kernel estimator with smaller MSE than the standard estimator in some

    commonly occurring situations. On the other, we can not continue our introduction without

    mentioning the work by Fan et al. (1996), who proposed an alternative conditional density

    estimator by generalizing Rosenblatt's estimator using local polynomial techniques. Then,

    Hyndman and Yao (1998) introduced two further local parametric estimators which improve

    on the estimators given by Fan et al. (1996). Stone (1994), meanwhile, followed a dierent

    path by using tensor products of polynomial splines to obtain conditional log density es-

    timators. For other studies on the nonparametric estimation of the conditional density we

    refer also to Gannoun (1990), Youndj (1993 and 1996), Hall et al. (1999), Hrdle et al.

    (1991), Bashtannyk and Hyndman (2001), Gannoun et al. (2003), El Ghouch and Genton

    (2009) and the references therein.

    In this paper, we are interested in the ecient estimation of the conditional probability

    density when the explanatory variables are of functional type. It should be noticed that,

    these questions in the innite dimensional framework are particularly interesting, at once

    for the fundamental problems they formulate, but also for many applications they may allow

    (cf. Bosq (2000), Ramsay and Silverman (2005), Ferraty and Vieu (2006) and references

    therein). In fact, in this conditional context, the rst results were obtained by Ferraty and

    Vieu (2005) and Ferraty et al. (2006). They established the almost-complete consistency,

    in both cases i.i.d. and strongly mixing data, of the kernel estimators of the conditional

    distribution function and of the conditional probability density. Moreover, they presented

    some applications of their results on both the conditional mode and on conditional quantiles.

    Among the lot of papers which are concerned with the nonparametric modelization related

    to the conditional distribution of a real variable given a random variable taking values in

    innite dimensional spaces, we refer only to Dabo-Niang and Laksaci (2007) for the conditio-

    nal mode estimation, and to Laksaci (2007) for the asymptotic expression of leading terms

    in the quadratic error of conditional density kernel estimators.

    On the other hand, it is well known that kernel estimators have some nice asymptotic pro-

    perties when the curse of dimensionality is controlled by means of suitable considerations

    on the small ball probabilities of the functional variable (cf. Ferraty and Vieu 2006 and

    references therein). However it is also well-known that, as in the standard nite dimensional

    framework, the smoothing parameter has to be selected suitably for insuring good practical

    performances (cf. Laksaci, 2007). Notice that, some papers, (cf. for instance, Youndj et al.,

    1993), have treated the problem of the smoothing parameter selection in the nonparametric

    estimation of the conditional density, by using some techniques quite dierent from ours, but

    only in the nite dimensional setup. Furthermore, the selection of the smoothing parameter

    in the innite dimensional setting is much more complicated. In particular, the so-called

    scatterplot which is a graphical tool for exploring the relationship between the explanatory

    variables and the scalar response is not available, and hence it becomes very hard to have

    some informations on the shape of the relationship between the functional variable and the

  • 38 2. Choix de la largeur de fentre

    scalar response. Therefore, various areas with dierent (low/high) concentrations can appear

    in such a relationship even though it does not appear in the functional data sample (cf. for

    instance, the simulated curves in Section 2.4.2). It is also clear, in the innite dimensional

    setup, that the concentration of the distribution of the functional explanatory variable will

    have an inuence on the value of some appropriate bandwidth (the variance of the estimator

    increases when the concentration of the distribution of the functional covariates decreases

    which is the case when the bandwidth value's decreases (cf. conditions (17) and (14)). Mo-

    reover, in areas where the functional covariates have low concentration, the bandwidth has

    to be taken suciently large to include enough data curves, while a smaller bandwidth can

    be used in areas where the functional covariates have high concentration. It should, thus, be

    noted that Rachdi and Vieu (2007) (respectively Benhenni et al., 2007) proposed a global

    (respectively a local adaptive) cross-validation procedure for the regression operator estima-

    tion for functional data, which has inspired this work.

    The main aim of this paper is then the construction of both global and local functional cross-

    validation procedures. We remark that a local bandwidth choice can signicantly improve

    the precision of the prediction in the functional setting than the global one. In section 2, the

    data-driven methods are dened. The main hypotheses and results are enounced in section 3.

    In section 4, we propose a simulation study showing how an optimal local bandwidth choice

    improves the usual global selection rule for some irregular functional covariates. Finally,

    asymptotic theoretical support is given in section 5, and the proofs of the auxiliary results

    are relegated to the Appendix.

    2.2 Global and local bandwidth selection rules

    Let us introduce a sample of independent pairs (Xi; Yi)1in identically distributed as (X;Y )which is valued in FR, where (F ; d) is a semi-metric space equipped with a semi-metric d.Assume that there exists a regular version of the conditional probability of Y given X, whichis absolutely continuous with respect to the Lebesgue measure on the real line R. Let f(x; )denote the conditional probability density of the random variable Y given X = x 2 F ,which we have to estimate. For this aim, we dene the kernel estimator

    bf(a;b) of f as in (1),but by considering two dierent kernel functions as follows :

    8x 2 F and 8y 2 R; bf(a;b)(x; y) = b1Pni=1K(a1d(x;Xi))H(b1(y Yi))Pni=1K(a

    1d(x;Xi))(2)

    where K is a kernel and a = aK;n (respectively b = bH;n) is a sequence of positive realnumbers. Notice that the estimator (2) has been used by Roussas (1968) in the real case

    and by Ferraty et al. (2006) in the functional case.

    The main goal of this paper is to construct and study the asymptotic behavior of a data dri-

    ven method which optimally selects the smoothing parameters (a; b). To do that, we proposeto use a rule which is based on the classical leave-out-one-curve cross-validation procedure

    and to study its asymptotic behavior in the mean squared sense. Indeed, commonly with the

  • 2.2. Global and local bandwidth selection rules 39

    majority of the earlier works on the bandwidth selection, our rule is based on the minimiza-

    tion of the integrated squared error which is weighted by the probability measure, dPX(x),of the functional variable X and some nonnegative weight functions W1 and W2 :

    d1( bf(a;b); f) = Z Z bf(a;b)(x; y) f(x; y)2W1(x)W2(y) dPX(x) dy (3)A discrete approximation of (3) is the averaged squared error given by :

    d2( bf(a;b); f) = 1nnXi=1

    bf(a;b)(Xi; Yi) f(Xi; Yi)2 W1(Xi)W2(Yi)f(Xi; Yi) (4)or, also, the mean integrated squared error :

    d3( bf(a;b); f) = Z Z IE bf(a;b)(x; y) f(x; y)2W1(x)W2(y)dPX(x)dy (5)However, these loss functions depend on the conditional density f , so the smoothing para-meter that minimizes these errors is not computable in practice. Thus, we must nd another

    loss function which is asymptotically equivalent to the quadratic distances (3), (4) and (5).

    Following the same ideas as in Youndj (1996) for the real case, we can write that :

    d1( bf(a;b); f) = A+B 2Cwhere

    A =

    Z Z bf2(a;b)(x; y)W1(x)W2(y)dPX(x)dyB =

    Z Zf2(x; y)W1(x)W2(y)dPX(x)dy

    C =

    Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dySince the second termB is independent of (a; b), the problem of minimizing d1 is equivalent tothat of minimizing A2C. A straightforward way to construct a computational procedure toselect the optimal bandwidths (a; b) with respect to the error measure d1 is to estimator theboth quantities A and C. For this aim, as mentioned above, we adopt the standard leave-out-one-curve technique as in Rudemo (1982) for the probability density estimation and

    Rachdi and Vieu (2007) for the regression operator estimation, by considering the following

    criteria :

    GCV (a; b) =1

    n

    nXi=1

    W1(Xi)

    Z bfi2(a;b)(Xi; y)W2(y)dy 2nnXi=1

    bfi(a;b)(Xi; Yi)W1(Xi)W2(Yi) (6)and respectively, for a xed y 2 R :

    LCVx;y(a; b) =1

    n

    nXi=1

    W1;x(Xi)

    Z bfi2(a;b)(Xi; z)W2;y(z)dz 2nnXi=1

    bfi(a;b)(Xi; Yi)W1;x(Xi)W2;y(Yi)(7)

  • 40 2. Choix de la largeur de fentre

    where W2;x (respectively W2;y) is some positive local weight function around x (respectivelyy), and for any i = 1; : : : ; n :

    bfi(a;b)(x; y) = b1Pn

    j 6=iK(a1d(x;Xj))H(b1(y Yj))Pn

    j 6=iK(a1d(x;Xj)): (8)

    These criteria are obtained by using the fact that

    C =

    Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dy=

    Z Z bf(a;b)(x; y)W1(x)W2(y)dPY jX=x(y)dPX(x)=

    Z Z bf(a;b)(x; y)W1(x)W2(y)dP(X;Y )(x; y)= IE(X;Y )

    bf(a;b)(X;Y )W1(X)W2(Y )and

    A = IEX

    Z bf2(a;b)(X; y)W1(X)W2(y)dywhere IEZ denotes the expectation with respect to the distribution of the random variableZ.

    Finally, our global (respectively, local) cross-validation procedure consists in choosing the

    bandwidths (a; b) which minimize GCV (a; b) (respectively, LCVx;y(a; b)) on a given setHn IR+2 (respectively, Hn(x; y) IR+2).

    2.3 Main Results

    2.3.1 Assumptions

    In order to deduce the asymptotic optimality of the bandwidth selected by the rule GCV(respectively, LCVx;y), we will assume that the weight function W1 (respectively W2) isbounded with support in some subset SX of F (respectively on a compact subset SY of IR)and the conditional density f(; ) is bounded on SX SY . In the sequel of this paper, whenno confusion is possible, we will denote by C and C 0 some strictly positive generic constantsand we will make the following assumptions :

    The weight functions are taken, for each curve x, such that for some positive real w :

    w = a for 0 < < 1 and W1;x is bounded and supported in B(x;w) (9)

    where B(x; h) denotes the closed ball with center x and radius the real h > 0,

    8x 2 SX ; 0 < C(h) IP (X 2 B(x; h)) C 0(h) (10)

  • 2.3. Main Results 41

    where (h) is a positive real function such that limh!0

    (h) = 0.

    There exist some strictly positive constants b1, b2 and , such that : 8(x0; y0) 2 SX SY ,8(x1; x2) 2 SX SX and 8(y1; y2) 2 SY SY , we have :

    f(x0; y0) > and jf(x1; y1) f(x2; y2)j Cdb1(x1; x2) + jy1 y2jb2

    (11)

    The kernel K is a bounded and Lipschitzian kernel on its support (0; 1), and there existsome positive constants C and C 0 such that :

    0 < C < K(t) < C 0 >>:9C > 0; 90 > 0; 8 < 0; 0() < Cand if K(1) = 0; the function (:) has to fulll the additional condition :

    9C > 0; 90 > 0; 80 < < 0;Z 0(u) du > C ()

    (14)

    For n large enough, the Kolmogorov's -entropy of SX denoted by SX (cf. for instance,Kolmogorov and Tikhomiros (1959) and Theodoros and Yannis (1997)) satises, for some

    2 (0; 1) :1Xn=1

    n(3+1)=2 exp

    (1 ) SX

    log n

    n

    1 (15)

    and for all (a; b) 2 Hn we have :lim

    n!+1n

    b =1 and (a) Cn for some 2 (0; 2 2) (16)

    2.3.2 Some interpretations and examples on our hypotheses

    It is worth observing that these conditions are not very restrictive. The hypotheses (10)-(14)

    are very standard in the functional nonparametric setting. More precisely :

    The hypothesis (10) is a simple uniformization of the concentration property of the

    probability measure on the small balls. This assumption is satised for a large family

    of random functional variables. Indeed, in many examples, the small ball probability

    function IP (X 2 B(x; h)) can be written approximatively as the product of two inde-pendent functions g(x) and (h), as in the following examples, which can be found inFerraty et al. (2007) :

  • 42 2. Choix de la largeur de fentre

    (i) IP (X 2 B(x; h)) = g(x)h for some > 0(ii) IP (X 2 B(x; h)) = g(x)h exp

    Chp

    for some > 0 and p > 0

    (iii) IP (X 2 B(x; h)) = g(x)j log(h)jThus, condition (10) is automatically veried if the function g satises :

    0 < C < infx2SX

    g(x) supx2SX

    g(x) < C 0

  • 2.3. Main Results 43

    2. The unit ball of the Cameron-Martin space associated to the standard stationary

    Ornstein-Uhlenbeck process viewed as a map in the Sobolev space W 12 (0; 1) withthe covariance operator :

    C(s; t) = exp (ajs tj) ; for a > 0

    For this subset, we have :

    SX

    log n

    n

    = O(log n)

    3. The closed ball B(0; r) in the Sobolev space dened by the class of functions x(t)on T = [0; 2p), such that :

    1

    2

    Z 20

    x2(t)dt+1

    2

    Z 20

    x(m)2(t)dt r

    where x(m)() denotes the mth derivative of x. In this case :

    SX

    log n

    n

    = O(n1=m)

    4. The compact subsets in the nite dimensional spaces, or in the projection semi-

    metric in Hilbert spaces where :

    SX

    log n

    n

    = O(log n)

    Notice that, the inequality (H5b) in Ferraty et al. (2010) is not necessary here because

    such assumption is used to precise the convergence rate of the uniform consistency

    which is not necessary. In other words, the uniform consistency of the kernel estimator

    of the conditional density (without any precision on the convergence rate) is sucient

    to show our results.

    Conditions (9) and (16) are equivalent to those used by Rachdi and Vieu (2007) and

    Benhenni et al. (2007) for the global and local cross-validation procedures in the

    operatorial regression estimation. In fact, these hypotheses are the functional versions

    of those used by Hrdle and Marron (1985) and Youndj (1996) in the usual real case.

    The condition (9) on the weight function is similar to that in Vieu (1991), and allows

    to give more importance to observations around the curve x.

    2.3.3 Two theorems on global and local criteria

    Theorem 2.3.1. Under hypotheses (10)-(16), if the set Hn of bandwidths (a; b) is nitewith :

    #(Hn) = O(n) for some > 0; where # denotes the cardinality (17)

  • 44 2. Choix de la largeur de fentre

    then, we have for k = 1; 2; 3, that :

    dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1 almost surely (a.s.), as n! +1 (18)where

    (a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn

    dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf

    (a;b)2HnGCV (a; b)

    On the local framework, we suppose that (15) is veried for SX = B(x;w) and we deducethe same optimality results, for the local criterion.

    Theorem 2.3.2. Under hypotheses (9)-(16), if the set Hn(x; y) of bandwidths (a; b) is nitewith :

    #(Hn(x; y)) = O(n(x;y)) for some (x; y) > 0; (19)

    then, we have for k = 1; 2; 3, that :

    dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1; a.s., as n! +1 (20)where

    (a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn(x;y)

    dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf

    (a;b)2Hn(x;y)LCVx;y(a; b)

    2.4 Discussion and applications

    2.4.1 On the applicability of the method

    It is well know that, the estimation of the conditional probability density is an important

    tool permitting the analysis of the input-output relation in nonparametric statistics. Such

    nonparametric model provides a broader range of relevant information on the covariation

    between two random variables. Moreover, if a conditional density estimator is available, it is

    easy to make the prediction via the conditional mode estimator, to derive prediction intervals

    or to determine the probabilities of extreme values. So, the optimality of all these statistical

    studies is closely linked to the construction of the optimal estimator of the conditional

    density. In order to emphasize the practical aspects of our study, we discuss in the rest of

    this section the applicability of our bandwidth selection approach on some nonparametric

    models, frequently used in practice, for which this question of the bandwidth selection is

    inherent to derive their best properties.

  • 2.4. Discussion and applications 45

    The conditional mode estimation : often, the prediction of the values of the response variable

    knowing an explained one is obtained by estimating the conditional expectation. However,

    the latter may not be suciently informative, when the conditional distribution possesses

    mu