statistique avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

STATISTIQUES AVEC LE LOGICIEL R

M. BOUTAHAR

FST-Fès Février 2013

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R



PLAN:

Chapitre 1: Simulation des lois de probabilités

Chapitre 2: Estimation paramétrique

Chapitre 3: Estimation non-paramétrique




Simulation des lois de probabilités

Les distributions courantes sont programmées: Normale,

Uniforme, Weibull...

Plusieurs fonctions pour chaque distribution. Par exemple,

pour la loi normale :

dnorm() : fonction densité (density)

pnorm() : fonction de répartition (probability)

qnorm() : fonction quantile (quantile)

rnorm() : générateur aléatoire (random)




Distribution Nom sur R Arguments

beta beta shape1, shape2, ncp

binomial binom size, prob

Cauchy cauchy location, scale

chi-squared chisq df, ncp

exponential exp rate

F (Fisher) f df1, df2, ncp

gamma gamma shape, scale

geometric geom prob

hypergeometric hyper m, n, k

log-normal lnorm meanlog, sdlog

logistic logis location, scale

negative binomial nbinom size, prob

normal norm mean, sd

Poisson pois lambda

Student's t t df, ncp

uniform unif min, max

Weibull weibull shape, scale




1. Loi de Bernoulli:

De�nition 1

On dit que X suit une loi de Bernoulli de paramètre p, notéX B(p), si E = {0, 1} avec P(X = 1) = p, etP(X = 0) = 1− p.

Programme sur R

B= table(Ni = stats::rbinom(100,1,0.25))r = barplot(B, col=rainbow(20))




2. Loi de PoissonDe�nition 2

On dit que X suit une loi de Poisson de paramètre λ, notéX P(λ), si E = N et P(X = k) = e−λ λ

k

k!, λ est un réel

positif.

Programme sur R

P = table(Ni = stats::rpois(100, lambda=5)r = barplot(P, col=rainbow(20))summary(Ni)




Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 3.00 5.00 4.93 7.00 12.00




3. Loi UniformeDe�nition 3

On dit que X suit une loi uniforme sur [a, b], notéX U[a, b], si elle admet la densité

f (x) =1

b − a1[a,b](x) =

1

b−a si x ∈ [a, b]

0 sinon.(1)




Programme sur R

x = runif(400) génère une loi uniforme sur [0,1]summary(x)

Min. 1st Qu. Median Mean 3rd Qu.

Max.

0.007657 0.2617 0.5306 0.5135 0.7578

0.9983




Programme sur R

boxplot(x,col="green")




Programme sur R

x= runif(400) plot(x,type="l", col="blue", lwd=3)abline(h=0.5, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques:




4. Loi NormaleDe�nition 4

On dit que X suit une loi de Gauss de moyenne m et devariance σ2, noté X N(m, σ2), si elle admet la densité

f (x) =1

σ√2π

e−(x−m)2

2σ2 ,∀x ∈ R (2)




Programme sur R

x = rnorm(100,0,1) génère une suite normale de moyenne 0 etde variance 1.summary(x)


Max.

-2.4020 -0.7267 -0.2680 -0.1827 0.5006

2.6830




Programme sur R

boxplot(x,col="green")




Programme sur R

x= rnorm(400,0,1)plot(x,type="l", col="blue", lwd=3)abline(h=0, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques




5. Loi Exponentielle

De�nition 5

On dit que X suit une loi exponentielle de paramètre λ > 0,noté X E (λ), si elle admet la densité

f (x) =

λe−λx si x ≥ 0

0 sinon.(3)




Programme sur R

x = rexp(400,1) génère une loi exponentielle de moyenne 1.summary(x)


Max.

0.004039 0.290900 0.701300 0.974800

1.354000 7.277000




Programme sur R

x= rexp(400,1)plot(x,type="l", col="blue", lwd=3)abline(h=1, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques




Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Estimation paramétrique

Supposons que l'on veut estimer θ ∈ Θ en se basant sur la

suite (Xi , 1 ≤ i ≤ n).

De�nition 6

On appelle Estimateur de θ toute statistiqueθ = F (X1, ...,Xn), où F est une fonction de Rn dans R.

On dé�nit le biais et l'erreur quadratique de l'estimateur θ

respectivement par

Biais = E (θ)− θ,EQ = E(| θ − θ |2

).

EQ = var(θ) + Biais2





Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique





De�nition 7

Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, avec Q est une famille de lois de probabilités sur unespace (E , E). On dé�nit la loi empirique de X par

Pn =1

n

n∑k=1

δXk(4)

où δXkest la mesure de Dirac au point Xk .





De�nition 8

Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, et de loi empirique Pn.

Soit Pn l'ensemble des mesures de probabilités sur (E , E) de laforme 1

n

∑n

k=1δxk , xk ∈ E , k = 1, ..., n.

Soit F une fonctionnelle dé�nie sur Q∩ Pn.

L'estimateur empirique de F (Q) est la v.a.r. F (Pn).





• Estimateur d'une loi à support �ni

On suppose qu'il existe {x1, ..., xr} ∈ E tel que∑r

k=1Q({xk}) = 1 et on veut estimer

qk = Fk(Q) = Q({xk}) = P(X1 = xk).

L'estimateur empirique de qk n'est autre que la fréquence

observée de la valeur xk .

qk = Fk(Pn) =1

n

n∑j=1

1{Xj=xk}.

Biais = 0,EQ = var(qk) = qk(1− qk)/n.





• Estimateurs des moments

On suppose que (E , E) = (R,B) et que Xi a son moment

d'ordre k �ni, et on souhaite l'estimer.

mk = Fk(Q) = E (X k1 ) =

∫xkdQ(x), donc l'estimateur

empirique de mk est donné par

mk = Fk(Pn) =1

n

n∑j=1

X kj .

Biais = 0,EQ = var(mk) = var(X k1 )/n.





En particulier les estimateurs empiriques de la moyenne m1 et

la variance σ2 = m2 −m21 de X1 sont respectivement

m1 = X n =1

n

n∑j=1

Xj

et

σ2 = m2 − m21 =

1

n

n∑j=1

X 2j − (X n)2 =

1

n

n∑j=1

(Xj − X n)2.












Convergence en loi








Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loi

Qθ de fonction de répartition Fθ(x).

Si Qθ est discrète posons fθ(x) = Qθ(x ) = P(X1 = x).

Si Qθ est continue posons fθ(x) = ∂Fθ(x)∂x

.

La vraisemblance de X est dé�nie par

L(θ,X ) =n∏

i=1

fθ(Xi).





L'estimateur du maximum de vraisemblance θ est tel que

L(θ,X ) = supθ∈Θ

n∏i=1

fθ(Xi)

n∑i=1

∇θ log fθ(Xi)∣∣θ=θ = 0.





1. Loi de Bernoulli :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi de

Bernoulli B(p) de paramètre inconnu p.

fp(x) = Qθ({x}) = P(X = x) = exp(x log(p/(1−p))+log(1−p))),

log L(p,X ) =n∑

i=1

log(fp(Xi)

= n log(1− p) + log(p/(1− p))n∑

i=1

Xi

∂ log L(p,X )

∂p= 0 =⇒ p = X n =

1

n

n∑i=1

Xi .





1. Loi de Gauss :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi

N(m, σ2), m et σ2 sont inconnues.

La log-vraisemblance est donnée par

log L(m, σ2,X ) = −n2log σ2 − n

2log 2π − 1

2σ2

n∑i=1

(Xi −m)2

∂ log L(m, σ2,X )

∂m=

1

σ2

n∑i=1

(Xi −m) = 0;

∂ log L(θ, σ2,X )

∂σ2= − n

2σ2+

1

2σ4

n∑i=1

(Xi −m)2 = 0;

m = X n, σ2 =

1

n

n∑i=1

(Xi − X n)2.





Matrice d'information de FisherDe�nition 9

On appelle Score la quantité

S(θ) =∂ log L(θ,X )

∂θ. (5)





De�nition 10

On appelle matrice d'information de Fisher la quantité

I (θ) = Eθ (S(θ) tS(θ))

= Eθ

(∂ log L(θ,X )

∂θi

∂ log L(θ,X )

∂θj

)1≤i ,j≤d

= −Eθ(∂2 log L(θ,X )

∂θi∂θj

)1≤i ,j≤d

.





1. Loi de Gauss :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi

N(m, σ2), θ = (m, σ2).

S(θ) =

(1

σ2

∑n

i=1(Xi −m)

− n2σ2

+ 1

2σ4

∑n

i=1(Xi −m)2

)

∂2 log L(θ,X )

∂θ∂θ′=

(− nσ2

(m−Xn)σ4

(m−Xn)σ4

− n2σ4

+ 1

σ6

∑n

i=1(Xi −m)2

)

I (θ) =

(nσ2

00 n

2σ4

)M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




Theorem 11

(Borne de Cramer-Rao) On suppose que:i. L(θ,X ) > 0 P .p.s.ii. θ → L(θ,X ) est presque sûrement di�érentiable sur Θ etque le vecteur Score S(θ) est centré et de carré intégrablepour Pθ.iii. I (θ) est inversible.Alors pour toute variable aléatoire T de carré Pθ-intégrablevéri�ant

∇E (L(θ,X )T ) = E (∇L(θ,X )T ),

on a

var θ(T ) ≥ BCR = t(∇Eθ(T ))I−1(θ)(∇Eθ(T )). (6)





Corollaire 12

Si T est un estimateur sans biais de g(θ) ∈ R et si g estdi�érentiable, alors

var θ(T ) ≥ BCR = t(∇g(θ))I−1(θ)(∇g(θ)). (7)

De�nition 13

Si l'estimateur T sans biais de g(θ) ∈ R atteint la borne deCramer-Rao (i.e il y a égalité dans (7), alors il est dit e�cace.





E�cacité du maximum de vraisemblance de la

moyenne pour un échantillon Gaussien

1. E�cacité de m :

var(m) = var(X n) =σ2

n,

g(θ) = m,∇g(θ) = (1, 0)′,

BCR = t(∇g(θ))I−1(θ)(∇g(θ)) =σ2

n.












Convergence en loi








Modèle de régression linéaire:

Xt , t = 1, ..., n véri�ent l'équation de régression suivante:

Xt = θ1Zt,1 + .... + θpZt,p + ut , t = 1, ..., n. (8)

• Les Zt,k sont les variables explicatives et sont connues,

• θ = t(θ1, ..., θp) est le vecteur des paramètres inconnus,

• ut est un bruit blanc c'est à dire une suite de variables

aléatoires réelles telles que:

• (H.1): E (ut) = 0, 1 ≤ t ≤ n,





• (H.2): E (utus) =

σ2 si t = s

0 si t 6= s, σ2 inconnue.

On peut écrire le modèle de régression (8) sous la forme

vectorielle suivante:

X = Zθ + σU, (9)

Z = (Zt,j)1≤t≤n,1≤j≤p est une matrice de taille(n,p) connue, U

est un v.a. centré réduit, θ = t(θ1, ..., θp) ∈ Rp, et σ ∈ R∗+sont inconnus.

• On suppose que rang(Z ) = p.





On considère le modèle de régression (9), l'estimateur des

moindres carrés θ de θ est solution du problème de

minimisation :

θ = argminθ∈Θ||X − Zθ||2 ,

et dont la solution est donnée par

θ = ( tZZ)−1 tZX (10)





Theorem 14

σ2 =

∣∣∣∣∣∣X − X∣∣∣∣∣∣2

n − p(11)

est un estimateur sans biais de la variance inconnue σ2, avecX = Zθ





Theorem 15

i) E (θ) = θ ( estimateur sans biais )

ii) Var(θ) = σ2 ( tZZ)−1 ( matrice de covariance ).

Hypothèse de normalité (conséquence)

En plus des hypothèses (H.1) et (H.2) on ajoute une

hypothèse (H.3) de normalité du vecteur aléatoire u :

u ∼ N(0, σ2In).





Theorem 16

i) θ ∼ N(θ, σ2 ( tZZ)−1

),

ii) (n−p)σ2

σ2∼ χ2(n − p),

iii) θ et σ2 sont des statistiques indépendantes.

Corollary 17

θj − θj√σ2ajj

∼ t(n − p), 1 ≤ j ≤ p;

ajj est le jieme élément diagonal de ( tZZ)−1.





Construction des tests d'hypothèses au seuil α:

H0 : θj = 0région critique−→

∣∣∣ θj ∣∣∣√σ2ajj

≥ t1−α/2(n−p) (12)

où t1−α(n − p) désigne le quantile d'ordre 1− α de la loi de

Student à (n − p) degrés de liberté.





Construction de région de con�ance (au niveau α)pour θj , (1 ≤ j ≤ p):

θj ±√σ2ajj t1−α/2(n − p)





Prévision

Comment, à l'instant n, prévoir la réalisation de Xn+1

disposant de Zn+1 = t(Zn+1,1, ...,Zn+1,p) ?

Les hypothèses sont (H.1), (H.2) etXn+1 = tZn+1θ + un+1,

E (un+1) = 0,

E (un+1u′t) = 0, 1 ≤ t ≤ n.





On a deux incertitudes:

i) Celle due à un+1 (perturbation aléatoire),

ii) Celle due au fait que θ est inconnu.

Prévision optimale

Xn+1 = tZn+1θ.

L'intervalle de con�ance au niveau (1− α) est donné par

Xn+1 ± σt1−α/2(n − p)

√1 + tZn+1 ( tZZ)−1 Zn+1.





Exemples de modélisation. 1. Modèle linéaire simple.

Programme sur R

data(cars), plot(cars)

Figure: Distance de freinageM. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




• On cherche la relation qui lie la variable dist (distance de

freinage) et la variable speed (vitesse).

• On propose le modèle distt = θ1 + θ2speedt + ut ,

Programme sur R

�t < − lm(cars$dist ~ cars$speed), summary(�t)

Call:lm(formula = cars$dist ~cars$speed)

Residuals:

Min 1Q Median 3Q Max

-29.069 -9.525 -2.272 9.215 43.201





Coe�cients:

Estimate Std. Error t value Pr(> |t|)

(Intercept) -17.5791 6.7584 -2.601 0.0123 *

cars$speed 3.9324 0.4155 9.464 1.49e-12

***

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 15.38 on 48 degrees of freedom

Multiple R-Squared: 0.6511, Adjusted R-squared: 0.6438

F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12





Interprétation des résultats:

Residuals: En premier lieu R a�che les statistiques

descriptives des résidus de la régression.

Coe�cients: Les estimations θ1 =-17.5791, θ2 =3.9324.

Std. Error désigne l'écart type estimé.

t. value est la statistique de Student.

Pr(> |t|) est la p-value associée à la statistique de Student t

value, une valeur plus petite que 0.01 nous conduit au rejet de

H0 c'est à dire que le paramètre est signi�catif. Pour notre

modèle le paramètre θ1 n'est pas signi�catif alors que θ2 l'est.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




Residual standard error =√||u||2n−p .

Multiple R-Squared:

De�nition 18

Lorsqu'il y'a une constante dans le modèle de régressionmultiple, on appelle coe�cient de détermination le scalaire

R2 =

∣∣∣∣∣∣X − X δn

∣∣∣∣∣∣2∣∣∣∣X − X δn∣∣∣∣2

où X = 1

n

∑n

t=1Xt et δn = t(1, ..., 1), vecteur (n, 1).

Plus R2 est proche de 1, plus l'ajustement est meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




Adjusted R-squared: R2a = 1− (1− R2) n−1

n−p−1 , où p est le

nombre de paramètres sans compter la constante. R2a ne croit

que si la nouvelle variable explicative ajoutée améliore

l'ajustement, elle peut être négative, et R2a ≤ R2.

F-statistic désigne la statistique de Fisher qui correspond à

l'hypothèse nulle H0 : θ1 = ... = θp = 0; elle est donnée par

F = ||u||2−||u||2

||u||2 avec u : résidus sous H0 et u : résidus sous H1.

On a sous H0 la statistique F suit une loi de Fisher F (p, n−p).





Programme sur R

�t1 < − lm(cars$dist ~cars$speed-1), summary(�t1)

Call: lm(formula = cars$dist ~cars$speed -1)

Residuals:


-26.183 -12.637 -5.455 4.590 50.181





Coe�cients:

Estimate Std. Error t value Pr(> |t|)

cars$speed 2.9091 0.1414 20.58 < 2e-16 ***

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 16.26 on 49 degrees of freedom

Multiple R-Squared: 0.8963, Adjusted R-squared: 0.8942

F-statistic: 423.5 on 1 and 49 DF, p-value: < 2.2e − 16.

Le R2 s'approche de 1, donc l'ajustement est meilleur.





Programme sur R

plot(cars,col="blue"), z < − lm(dist ~ speed, data = cars),abline(z,col="red")





Analyse des résidus de la régression





Exemple 2. Régression multiple: On considère l'évolution de

l'ozone en fonction de la température, du vent et de la

radiation solaire.





Programme sur R

�t3 < − lm(air$Ozone ~ air$Temp + air$wind + air$Solar.R),summary(�t3)

Call: lm(formula = air$Ozone air$Temp + air$Wind +

air$Solar.R)

Residuals:


-40.485 -14.219 -3.551 10.097 95.619





Coe�cients:

Estimate Std. Error t value Pr(>| t |)(Intercept) -64.34208 23.05472 -2.791 0.00623 **

air$Temp 1.65209 0.25353 6.516 2.42e-09 ***

air$Wind -3.33359 0.65441 -5.094 1.52e-06

***

air$Solar.R 0.05982 0.02319 2.580 0.01124 *

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 21.18 on 107 degrees of freedom (42

observations deleted due to missingness)

Multiple R-squared: 0.6059, Adjusted R-squared: 0.5948

F-statistic: 54.83 on 3 and 107 DF, p-value: < 2.2e − 16





Les résidus de la régression sont donnés par





Conclusion: L'ajustement est assez bon.




Consistance de L'estimateurConvergence en loi

Estimation : Théorie asymptotique

θn = F (X1, ...,Xn) est un estimateur de θ.

But : Décrire le comportement asymptotique de θn lorsque la

taille n tends vers +∞.












Convergence en loi








De�nition 19

On dit que θn est un estimateur fortement consistant de θsi θn converge presque sûrement vers θ:

θnp.s→ θ. (13)

De�nition 20

On dit que θn est un estimateur faiblement consistant de θsi θn converge en probabilité vers θ:

θnP→ θ. (14)





Theorem 21

Si θn est un estimateur de θ, posons bn = E (θn)− θ, (i.e. lebiais de θn), vn = var(θn); on suppose quei. bn → 0 ( c'est à dire θn est asymptotiquement sans biais),ii. vn → 0.Alors θn est un estimateur consistant de θ.





On suppose que (Xi) est une suite i.i.d suivant une loi N(5, 1)

Figure: Evolution de la moyenne empirique












Convergence en loi








On s'intéresse ici à étudier la distribution asymptotique de

l'estimateur θn lorsque n tends vers l'in�ni.

De�nition 22

Supposons qu'il existe deux suites réelles mn(θ) et σn(θ) > 0telles que

θn −mn(θ)

σn(θ)L→ N(0, 1); (15)

on dit que θn est asymptotiquement normal.• limn→∞mn(θ) est l'espérance asymptotique de θn,• limn→∞ σ

2n(θ) est la variance asymptotique de θn.





Theorem 23

On suppose quei. L'application θ → log fθ(x) est deux fois continûmentdi�érentiable sur Θ, µ.p.s. et θ → ∂2

∂θ2log fθ(x) est continue

en θ uniformément par rapport à x .

ii. Eθ(∂∂θ

log fθ(X1)) = 0,Eθ(∂2

∂θ2fθ(X1)/fθ(X1)) = 0,

iii. 0 < I1(θ) = Eθ(( ∂∂θ

log fθ(X1))2) <∞.Alors √

nI1(θ)(θn − θ)L→ N(0, 1). (16)





Exemple 1. Loi de Bernoulli

log(fp(X1) = n log(1− p) + log(p/(1− p))X1,

∂

∂plog fp(X1) =

1

p(1− p)(X1 − p),

I1(p) =1

p2(1− p)2E ((X1 − p)2) =

1

p(1− p),

donc √n

p(1− p)(pn − p)

L→ N(0, 1).

On a aussi √n

pn(1− pn)(pn − p)

L→ N(0, 1).





Exemple 2. Normalité asymptotique du maximum de

vraisemblance de la moyenne pour un échantillon

Gaussien

On suppose que θ = m.

∂

∂θlog fθ(X1) = X1 − θ, I1(θ) = E ((X1 − θ)2) = σ2.

donc

√nσ2(mn −m)

L→ N(0, 1).

On a aussi

√nσ2(mn −m)

L→ N(0, 1).




Estimation de la densité de probabilitéRégression non-paramétrique








Convergence en loi








Estimation non-paramétrique

But : Estimer la loi des observations X1, ...,Xn.

1. Estimation par histogramme

f (x) =k∑

i=1

ωi1[ai ,ai+1[(x), a1 < ... < ak+1. (17)





∑k

i=1ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai , ai+1[).

ωi(ai+1 − ai) =1

n

n∑j=1

1[ai ,ai+1[(Xj)

est un estimateur convergent de PF (X ∈ [ai , ai+1[).

hist(x)$density donne les valeurs des ωi

et hist(x)$breaks les valeurs des ai .





Programme sur R

x < − rnorm(500)hist(x,breaks=50,col="blue")





Inconvénients:

� L'estimateur dépend du choix de la partition (ai), souvent

construite en fonction des données (comme dans R).

� Problème des extrémités a1 et ak+1 : ils ne peuvent pas être

in�nis mais doivent su�samment approcher le support de f.

� k et (ai) doivent dépendre de n pour que f converge vers f

mais... ai+1 − ai ne doit pas décroître trop vite vers 0 pour

que l'estimation soit convergente : il faut su�samment

d'observations par intervalle [ai , ai+1[

� L'histogramme est une fonction discontinue.





2.Estimateur à noyau

Au lieu de considérer une approximation uniforme autour de

chaque Xi , on peut utiliser une fonction plus lisse :

f (x) =1

nh

n∑i=1

K

(x − Xi

h

), (18)

où K est un noyau (par exemple une densité de probabilité) et

h un facteur d'échelle.





Programme sur R

par(bg="lightblue")x=rnorm(500)plot(density(x), col="red", lwd=3)





Sur R on peut utiliser les noyaux suivants

1) Le noyau normal [kernel=�gaussian� ou �g�]

2) Le noyau d'Epanechnikov [kernel=�epanechnikov� ou �e�]

K (y) = C (1− y 2)21[−1,1](y)

3) Le noyau triangulaire [kernel=�triangular� ou �t�]

K (y) = (1 + y)I1[−1,0](y) + (1− y)1[0,1](y).

4) Les noyaux "rectangular", "biweight", "cosine",

"optcosine".





Exemple: Pour la série simulée précédemment on obtient





Le choix de la fenêtre h est crucial:

Si h grand, un grand nombre des Xi contribuent à

l'estimation de f (x), on obtient un estimateur avec un

biais très grand et une variance très petite.

Si h petit, peu de Xi contribuent à l'estimation de f (x),

on obtient un estimateur avec un biais très petit et une

variance très grande





Le choix hn = n−1/5 (en bas à droite) semble être meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




Fenêtre optimale

En étudiant l'erreur moyenne intégrée

d(f , f ) = E

∫ (f (x)− f (x)

)2dx ,

on peut trouver un choix optimal pour la fenêtre h.

De la décomposition

d(f , f ) =

∫ (f (x)− E f (x)

)2dx+

∫varf (x)dx =(biais^2+var)

et les approximations

f (x)− E f (x) ' f ”(x)

2h2n





E

[exp

(−(Xi − x)2

2h2n

)]' f (x)

√2πhn,

on en déduit que le biais est de l'ordre de(f ”(x)

2

)2

h4n,

et que le terme de variance est approximativement 1

nhn√2π

Par conséquent, l'erreur tend vers 0 quand n tend vers l'in�ni si

� hn tend vers 0 et

� nhn tend vers l'in�ni.





La fenêtre optimale est donnée par

hopt =(n√2π (f ”(x))2 dx

)−1/5.

hopt dépend de la dérivée seconde qui elle même inconnue.

Pour résoudre ce problème il existe plusieurs méthodes:

La fenêtre optimale basée sur "rule of thumb", avec le noyau

de Gauss, a la forme

hopt =0.9min(σ, q75 − q25)

1.34n1/5,

où σ est l'écart-type estimé et q25 et q75 sont les quantiles à

25% et à 75% estimés (Silverman (1986, page 48, eqn (3.31)).M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R




Sur R il y a les méthodes suivantes:

-bw.nrd0 implémente la "rule-of-thumb" de Silverman.

-bw.nrd une variation de la précédente, Scott (1992).

-bw.ucv et bw.bcv utilisent la validation croisée non biaisée et

biaisée respectivement.

-bw.SJ implémente la méthode de Sheather & Jones (1991).





Exemple 1: On considère la série des poids des poulets





Exemple 2: On considère la série des poids des souris





Exemple 3: On considère la série des précipitations annuelles

"precip", la densité estimée avec les 6 choix possibles est

donnée par





Exemple 4. La distribution des salaires annuels dans une

population contenant n = 14890442 actifs, ( le nombre

d'individus Ni touchant le salaire si exprimé en euros) est

distribuée comme suit:

si (en euro ) Ni

10000 1158326520000 204537230000 68324040000 34974050000 183280100000 36250200000 7975500000 10151000000 305M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R











Convergence en loi








• Le modèle (8) exprime le variable Xt comme une

combinaison linéaire en fonction des variables explicatives Zt,j .

• Le modèle (8) est incapable de décrire une relation non

linéaire entre Xt et Zt,j si celle-ci existe.

• La régression non-paramétrique o�re l'avantage d'être plus

�exible: ce sont les données qui déterminent la relation

fonctionnelle entre Xt et Zt,j .

Xt = r(Zt,1, ...,Zt,p) + ut , 1 ≤ t ≤ n, (19)

où ut est un bruit blanc.





La fonction r peut être estimée par plusieurs méthodes: 1) le

réssogramme 2) la méthode des k voisins les plus proches 3) la

méthode basée sur les splines 4) la méthode du noyau entre

autre. On se contente ici de présenter la méthode du noyau.

Estimateur à noyau

Posons Zi = (Zi ,1, ...,Zi ,p). On dispose d'un échantillon

(Xi ,Zi)1≤i≤n et on cherche à identi�er la fonction r telle que

Xi = r(Zi) + ui , 1 ≤ i ≤ n, (20)





7.Régression non-paramétrique

Watson (1964) et Nadaraya (1964) ont proposé,

indépendamment et simultanément, l'estimateur

r(x) =

{ ∑ni=1 XiK((x−Zi )/hn)∑ni=1 K((x−Zi )/hn)

si∑n

i=1K ((x − Zi)/hn) 6= 0

0 sinon





Collomb (1976 ou 1977a) donne une évaluation asymptotique

du biais et de la variance: ∃ deux fonctions a(x) et b(x) telles

que:

f (x)− E f (x) ' h2n2a(x),

E(

(f (x)− E f (x))2)' 1

nhpnb(x)





Ces formules permettent de montrer que

minhn∈R+

E(f (x)− f (x))2

)' cn−4/(p+4).

Comme pour l'estimation de la densité le choix de la fenêtre

hn est crucial.

Sur R la fonction glkerns permet l'estimation de la fonction r

et ses dérivées avec un choix adaptatif pour la fenêtre hn .





Exemple: On reprend les données sur la distance de freinage:

Programme sur R

data(cars)library(lokern)plot(dist~speed, data = cars, main = "Fenêtre adaptative")�t13 < − glkerns(cars$speed, cars$dist)lines(�t13$x.out,�t13$est, col=2)





on obtient


statistique avec r 6

Documents