statistique avec r 6

107

Upload: hamza-saffaj

Post on 11-Aug-2015

89 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

STATISTIQUES AVEC LE LOGICIEL R

M. BOUTAHAR

FST-Fès Février 2013

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 2: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

PLAN:

Chapitre 1: Simulation des lois de probabilités

Chapitre 2: Estimation paramétrique

Chapitre 3: Estimation non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 3: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Simulation des lois de probabilités

Les distributions courantes sont programmées: Normale,

Uniforme, Weibull...

Plusieurs fonctions pour chaque distribution. Par exemple,

pour la loi normale :

dnorm() : fonction densité (density)

pnorm() : fonction de répartition (probability)

qnorm() : fonction quantile (quantile)

rnorm() : générateur aléatoire (random)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 4: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Distribution Nom sur R Arguments

beta beta shape1, shape2, ncp

binomial binom size, prob

Cauchy cauchy location, scale

chi-squared chisq df, ncp

exponential exp rate

F (Fisher) f df1, df2, ncp

gamma gamma shape, scale

geometric geom prob

hypergeometric hyper m, n, k

log-normal lnorm meanlog, sdlog

logistic logis location, scale

negative binomial nbinom size, prob

normal norm mean, sd

Poisson pois lambda

Student's t t df, ncp

uniform unif min, max

Weibull weibull shape, scale

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 5: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

1. Loi de Bernoulli:

De�nition 1

On dit que X suit une loi de Bernoulli de paramètre p, notéX B(p), si E = {0, 1} avec P(X = 1) = p, etP(X = 0) = 1− p.

Programme sur R

B= table(Ni = stats::rbinom(100,1,0.25))r = barplot(B, col=rainbow(20))

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 6: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

2. Loi de PoissonDe�nition 2

On dit que X suit une loi de Poisson de paramètre λ, notéX P(λ), si E = N et P(X = k) = e−λ λ

k

k!, λ est un réel

positif.

Programme sur R

P = table(Ni = stats::rpois(100, lambda=5)r = barplot(P, col=rainbow(20))summary(Ni)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 7: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 3.00 5.00 4.93 7.00 12.00

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 8: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

3. Loi UniformeDe�nition 3

On dit que X suit une loi uniforme sur [a, b], notéX U[a, b], si elle admet la densité

f (x) =1

b − a1[a,b](x) =

1

b−a si x ∈ [a, b]

0 sinon.(1)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 9: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x = runif(400) génère une loi uniforme sur [0,1]summary(x)

Min. 1st Qu. Median Mean 3rd Qu.

Max.

0.007657 0.2617 0.5306 0.5135 0.7578

0.9983

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 10: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

boxplot(x,col="green")

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 11: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x= runif(400) plot(x,type="l", col="blue", lwd=3)abline(h=0.5, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques:

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 12: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 13: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

4. Loi NormaleDe�nition 4

On dit que X suit une loi de Gauss de moyenne m et devariance σ2, noté X N(m, σ2), si elle admet la densité

f (x) =1

σ√2π

e−(x−m)2

2σ2 ,∀x ∈ R (2)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 14: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x = rnorm(100,0,1) génère une suite normale de moyenne 0 etde variance 1.summary(x)

Min. 1st Qu. Median Mean 3rd Qu.

Max.

-2.4020 -0.7267 -0.2680 -0.1827 0.5006

2.6830

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 15: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

boxplot(x,col="green")

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 16: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x= rnorm(400,0,1)plot(x,type="l", col="blue", lwd=3)abline(h=0, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 17: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 18: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

5. Loi Exponentielle

De�nition 5

On dit que X suit une loi exponentielle de paramètre λ > 0,noté X E (λ), si elle admet la densité

f (x) =

λe−λx si x ≥ 0

0 sinon.(3)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 19: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x = rexp(400,1) génère une loi exponentielle de moyenne 1.summary(x)

Min. 1st Qu. Median Mean 3rd Qu.

Max.

0.004039 0.290900 0.701300 0.974800

1.354000 7.277000

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 20: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Programme sur R

x= rexp(400,1)plot(x,type="l", col="blue", lwd=3)abline(h=1, col="red", lwd=3)hist(x,col="blue")

on obtient les deux graphiques

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 21: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 22: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Estimation paramétrique

Supposons que l'on veut estimer θ ∈ Θ en se basant sur la

suite (Xi , 1 ≤ i ≤ n).

De�nition 6

On appelle Estimateur de θ toute statistiqueθ = F (X1, ...,Xn), où F est une fonction de Rn dans R.

On dé�nit le biais et l'erreur quadratique de l'estimateur θ

respectivement par

Biais = E (θ)− θ,EQ = E(| θ − θ |2

).

EQ = var(θ) + Biais2

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 23: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 24: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

De�nition 7

Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, avec Q est une famille de lois de probabilités sur unespace (E , E). On dé�nit la loi empirique de X par

Pn =1

n

n∑k=1

δXk(4)

où δXkest la mesure de Dirac au point Xk .

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 25: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

De�nition 8

Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, et de loi empirique Pn.

Soit Pn l'ensemble des mesures de probabilités sur (E , E) de laforme 1

n

∑n

k=1δxk , xk ∈ E , k = 1, ..., n.

Soit F une fonctionnelle dé�nie sur Q∩ Pn.

L'estimateur empirique de F (Q) est la v.a.r. F (Pn).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 26: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

• Estimateur d'une loi à support �ni

On suppose qu'il existe {x1, ..., xr} ∈ E tel que∑r

k=1Q({xk}) = 1 et on veut estimer

qk = Fk(Q) = Q({xk}) = P(X1 = xk).

L'estimateur empirique de qk n'est autre que la fréquence

observée de la valeur xk .

qk = Fk(Pn) =1

n

n∑j=1

1{Xj=xk}.

Biais = 0,EQ = var(qk) = qk(1− qk)/n.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 27: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

• Estimateurs des moments

On suppose que (E , E) = (R,B) et que Xi a son moment

d'ordre k �ni, et on souhaite l'estimer.

mk = Fk(Q) = E (X k1 ) =

∫xkdQ(x), donc l'estimateur

empirique de mk est donné par

mk = Fk(Pn) =1

n

n∑j=1

X kj .

Biais = 0,EQ = var(mk) = var(X k1 )/n.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 28: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

En particulier les estimateurs empiriques de la moyenne m1 et

la variance σ2 = m2 −m21 de X1 sont respectivement

m1 = X n =1

n

n∑j=1

Xj

et

σ2 = m2 − m21 =

1

n

n∑j=1

X 2j − (X n)2 =

1

n

n∑j=1

(Xj − X n)2.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 29: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 30: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loi

Qθ de fonction de répartition Fθ(x).

Si Qθ est discrète posons fθ(x) = Qθ(x ) = P(X1 = x).

Si Qθ est continue posons fθ(x) = ∂Fθ(x)∂x

.

La vraisemblance de X est dé�nie par

L(θ,X ) =n∏

i=1

fθ(Xi).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 31: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

L'estimateur du maximum de vraisemblance θ est tel que

L(θ,X ) = supθ∈Θ

n∏i=1

fθ(Xi)

n∑i=1

∇θ log fθ(Xi)∣∣θ=θ = 0.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 32: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

1. Loi de Bernoulli :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi de

Bernoulli B(p) de paramètre inconnu p.

fp(x) = Qθ({x}) = P(X = x) = exp(x log(p/(1−p))+log(1−p))),

log L(p,X ) =n∑

i=1

log(fp(Xi)

= n log(1− p) + log(p/(1− p))n∑

i=1

Xi

∂ log L(p,X )

∂p= 0 =⇒ p = X n =

1

n

n∑i=1

Xi .

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 33: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

1. Loi de Gauss :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi

N(m, σ2), m et σ2 sont inconnues.

La log-vraisemblance est donnée par

log L(m, σ2,X ) = −n2log σ2 − n

2log 2π − 1

2σ2

n∑i=1

(Xi −m)2

∂ log L(m, σ2,X )

∂m=

1

σ2

n∑i=1

(Xi −m) = 0;

∂ log L(θ, σ2,X )

∂σ2= − n

2σ2+

1

2σ4

n∑i=1

(Xi −m)2 = 0;

m = X n, σ2 =

1

n

n∑i=1

(Xi − X n)2.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 34: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Matrice d'information de FisherDe�nition 9

On appelle Score la quantité

S(θ) =∂ log L(θ,X )

∂θ. (5)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 35: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

De�nition 10

On appelle matrice d'information de Fisher la quantité

I (θ) = Eθ (S(θ) tS(θ))

= Eθ

(∂ log L(θ,X )

∂θi

∂ log L(θ,X )

∂θj

)1≤i ,j≤d

= −Eθ(∂2 log L(θ,X )

∂θi∂θj

)1≤i ,j≤d

.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 36: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

1. Loi de Gauss :

X = (X1, ...,Xn) un échantillon de taille n suivant une loi

N(m, σ2), θ = (m, σ2).

S(θ) =

(1

σ2

∑n

i=1(Xi −m)

− n2σ2

+ 1

2σ4

∑n

i=1(Xi −m)2

)

∂2 log L(θ,X )

∂θ∂θ′=

(− nσ2

(m−Xn)σ4

(m−Xn)σ4

− n2σ4

+ 1

σ6

∑n

i=1(Xi −m)2

)

I (θ) =

(nσ2

00 n

2σ4

)M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 37: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Theorem 11

(Borne de Cramer-Rao) On suppose que:i. L(θ,X ) > 0 P .p.s.ii. θ → L(θ,X ) est presque sûrement di�érentiable sur Θ etque le vecteur Score S(θ) est centré et de carré intégrablepour Pθ.iii. I (θ) est inversible.Alors pour toute variable aléatoire T de carré Pθ-intégrablevéri�ant

∇E (L(θ,X )T ) = E (∇L(θ,X )T ),

on a

var θ(T ) ≥ BCR = t(∇Eθ(T ))I−1(θ)(∇Eθ(T )). (6)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 38: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Corollaire 12

Si T est un estimateur sans biais de g(θ) ∈ R et si g estdi�érentiable, alors

var θ(T ) ≥ BCR = t(∇g(θ))I−1(θ)(∇g(θ)). (7)

De�nition 13

Si l'estimateur T sans biais de g(θ) ∈ R atteint la borne deCramer-Rao (i.e il y a égalité dans (7), alors il est dit e�cace.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 39: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

E�cacité du maximum de vraisemblance de la

moyenne pour un échantillon Gaussien

1. E�cacité de m :

var(m) = var(X n) =σ2

n,

g(θ) = m,∇g(θ) = (1, 0)′,

BCR = t(∇g(θ))I−1(θ)(∇g(θ)) =σ2

n.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 40: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 41: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Modèle de régression linéaire:

Xt , t = 1, ..., n véri�ent l'équation de régression suivante:

Xt = θ1Zt,1 + .... + θpZt,p + ut , t = 1, ..., n. (8)

• Les Zt,k sont les variables explicatives et sont connues,

• θ = t(θ1, ..., θp) est le vecteur des paramètres inconnus,

• ut est un bruit blanc c'est à dire une suite de variables

aléatoires réelles telles que:

• (H.1): E (ut) = 0, 1 ≤ t ≤ n,

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 42: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

• (H.2): E (utus) =

σ2 si t = s

0 si t 6= s, σ2 inconnue.

On peut écrire le modèle de régression (8) sous la forme

vectorielle suivante:

X = Zθ + σU, (9)

Z = (Zt,j)1≤t≤n,1≤j≤p est une matrice de taille(n,p) connue, U

est un v.a. centré réduit, θ = t(θ1, ..., θp) ∈ Rp, et σ ∈ R∗+sont inconnus.

• On suppose que rang(Z ) = p.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 43: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

On considère le modèle de régression (9), l'estimateur des

moindres carrés θ de θ est solution du problème de

minimisation :

θ = argminθ∈Θ||X − Zθ||2 ,

et dont la solution est donnée par

θ = ( tZZ)−1 tZX (10)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 44: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Theorem 14

σ2 =

∣∣∣∣∣∣X − X∣∣∣∣∣∣2

n − p(11)

est un estimateur sans biais de la variance inconnue σ2, avecX = Zθ

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 45: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Theorem 15

i) E (θ) = θ ( estimateur sans biais )

ii) Var(θ) = σ2 ( tZZ)−1 ( matrice de covariance ).

Hypothèse de normalité (conséquence)

En plus des hypothèses (H.1) et (H.2) on ajoute une

hypothèse (H.3) de normalité du vecteur aléatoire u :

u ∼ N(0, σ2In).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 46: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Theorem 16

i) θ ∼ N(θ, σ2 ( tZZ)−1

),

ii) (n−p)σ2

σ2∼ χ2(n − p),

iii) θ et σ2 sont des statistiques indépendantes.

Corollary 17

θj − θj√σ2ajj

∼ t(n − p), 1 ≤ j ≤ p;

ajj est le jieme élément diagonal de ( tZZ)−1.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 47: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Construction des tests d'hypothèses au seuil α:

H0 : θj = 0région critique−→

∣∣∣ θj ∣∣∣√σ2ajj

≥ t1−α/2(n−p) (12)

où t1−α(n − p) désigne le quantile d'ordre 1− α de la loi de

Student à (n − p) degrés de liberté.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 48: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Construction de région de con�ance (au niveau α)pour θj , (1 ≤ j ≤ p):

θj ±√σ2ajj t1−α/2(n − p)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 49: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Prévision

Comment, à l'instant n, prévoir la réalisation de Xn+1

disposant de Zn+1 = t(Zn+1,1, ...,Zn+1,p) ?

Les hypothèses sont (H.1), (H.2) etXn+1 = tZn+1θ + un+1,

E (un+1) = 0,

E (un+1u′t) = 0, 1 ≤ t ≤ n.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 50: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

On a deux incertitudes:

i) Celle due à un+1 (perturbation aléatoire),

ii) Celle due au fait que θ est inconnu.

Prévision optimale

Xn+1 = tZn+1θ.

L'intervalle de con�ance au niveau (1− α) est donné par

Xn+1 ± σt1−α/2(n − p)

√1 + tZn+1 ( tZZ)−1 Zn+1.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 51: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Exemples de modélisation. 1. Modèle linéaire simple.

Programme sur R

data(cars), plot(cars)

Figure: Distance de freinageM. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 52: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

• On cherche la relation qui lie la variable dist (distance de

freinage) et la variable speed (vitesse).

• On propose le modèle distt = θ1 + θ2speedt + ut ,

Programme sur R

�t < − lm(cars$dist ~ cars$speed), summary(�t)

Call:lm(formula = cars$dist ~cars$speed)

Residuals:

Min 1Q Median 3Q Max

-29.069 -9.525 -2.272 9.215 43.201

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 53: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Coe�cients:

Estimate Std. Error t value Pr(> |t|)

(Intercept) -17.5791 6.7584 -2.601 0.0123 *

cars$speed 3.9324 0.4155 9.464 1.49e-12

***

� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 15.38 on 48 degrees of freedom

Multiple R-Squared: 0.6511, Adjusted R-squared: 0.6438

F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 54: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Interprétation des résultats:

Residuals: En premier lieu R a�che les statistiques

descriptives des résidus de la régression.

Coe�cients: Les estimations θ1 =-17.5791, θ2 =3.9324.

Std. Error désigne l'écart type estimé.

t. value est la statistique de Student.

Pr(> |t|) est la p-value associée à la statistique de Student t

value, une valeur plus petite que 0.01 nous conduit au rejet de

H0 c'est à dire que le paramètre est signi�catif. Pour notre

modèle le paramètre θ1 n'est pas signi�catif alors que θ2 l'est.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 55: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Residual standard error =√||u||2n−p .

Multiple R-Squared:

De�nition 18

Lorsqu'il y'a une constante dans le modèle de régressionmultiple, on appelle coe�cient de détermination le scalaire

R2 =

∣∣∣∣∣∣X − X δn

∣∣∣∣∣∣2∣∣∣∣X − X δn∣∣∣∣2

où X = 1

n

∑n

t=1Xt et δn = t(1, ..., 1), vecteur (n, 1).

Plus R2 est proche de 1, plus l'ajustement est meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 56: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Adjusted R-squared: R2a = 1− (1− R2) n−1

n−p−1 , où p est le

nombre de paramètres sans compter la constante. R2a ne croit

que si la nouvelle variable explicative ajoutée améliore

l'ajustement, elle peut être négative, et R2a ≤ R2.

F-statistic désigne la statistique de Fisher qui correspond à

l'hypothèse nulle H0 : θ1 = ... = θp = 0; elle est donnée par

F = ||u||2−||u||2

||u||2 avec u : résidus sous H0 et u : résidus sous H1.

On a sous H0 la statistique F suit une loi de Fisher F (p, n−p).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 57: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Programme sur R

�t1 < − lm(cars$dist ~cars$speed-1), summary(�t1)

Call: lm(formula = cars$dist ~cars$speed -1)

Residuals:

Min 1Q Median 3Q Max

-26.183 -12.637 -5.455 4.590 50.181

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 58: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Coe�cients:

Estimate Std. Error t value Pr(> |t|)

cars$speed 2.9091 0.1414 20.58 < 2e-16 ***

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 16.26 on 49 degrees of freedom

Multiple R-Squared: 0.8963, Adjusted R-squared: 0.8942

F-statistic: 423.5 on 1 and 49 DF, p-value: < 2.2e − 16.

Le R2 s'approche de 1, donc l'ajustement est meilleur.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 59: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Programme sur R

plot(cars,col="blue"), z < − lm(dist ~ speed, data = cars),abline(z,col="red")

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 60: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Analyse des résidus de la régression

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 61: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 62: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Exemple 2. Régression multiple: On considère l'évolution de

l'ozone en fonction de la température, du vent et de la

radiation solaire.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 63: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 64: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Programme sur R

�t3 < − lm(air$Ozone ~ air$Temp + air$wind + air$Solar.R),summary(�t3)

Call: lm(formula = air$Ozone air$Temp + air$Wind +

air$Solar.R)

Residuals:

Min 1Q Median 3Q Max

-40.485 -14.219 -3.551 10.097 95.619

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 65: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Coe�cients:

Estimate Std. Error t value Pr(>| t |)(Intercept) -64.34208 23.05472 -2.791 0.00623 **

air$Temp 1.65209 0.25353 6.516 2.42e-09 ***

air$Wind -3.33359 0.65441 -5.094 1.52e-06

***

air$Solar.R 0.05982 0.02319 2.580 0.01124 *

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 21.18 on 107 degrees of freedom (42

observations deleted due to missingness)

Multiple R-squared: 0.6059, Adjusted R-squared: 0.5948

F-statistic: 54.83 on 3 and 107 DF, p-value: < 2.2e − 16

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 66: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 67: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 68: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Les résidus de la régression sont donnés par

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 69: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés

Conclusion: L'ajustement est assez bon.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 70: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Estimation : Théorie asymptotique

θn = F (X1, ...,Xn) est un estimateur de θ.

But : Décrire le comportement asymptotique de θn lorsque la

taille n tends vers +∞.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 71: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 72: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

De�nition 19

On dit que θn est un estimateur fortement consistant de θsi θn converge presque sûrement vers θ:

θnp.s→ θ. (13)

De�nition 20

On dit que θn est un estimateur faiblement consistant de θsi θn converge en probabilité vers θ:

θnP→ θ. (14)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 73: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Theorem 21

Si θn est un estimateur de θ, posons bn = E (θn)− θ, (i.e. lebiais de θn), vn = var(θn); on suppose quei. bn → 0 ( c'est à dire θn est asymptotiquement sans biais),ii. vn → 0.Alors θn est un estimateur consistant de θ.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 74: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

On suppose que (Xi) est une suite i.i.d suivant une loi N(5, 1)

Figure: Evolution de la moyenne empirique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 75: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 76: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

On s'intéresse ici à étudier la distribution asymptotique de

l'estimateur θn lorsque n tends vers l'in�ni.

De�nition 22

Supposons qu'il existe deux suites réelles mn(θ) et σn(θ) > 0telles que

θn −mn(θ)

σn(θ)L→ N(0, 1); (15)

on dit que θn est asymptotiquement normal.• limn→∞mn(θ) est l'espérance asymptotique de θn,• limn→∞ σ

2n(θ) est la variance asymptotique de θn.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 77: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Theorem 23

On suppose quei. L'application θ → log fθ(x) est deux fois continûmentdi�érentiable sur Θ, µ.p.s. et θ → ∂2

∂θ2log fθ(x) est continue

en θ uniformément par rapport à x .

ii. Eθ(∂∂θ

log fθ(X1)) = 0,Eθ(∂2

∂θ2fθ(X1)/fθ(X1)) = 0,

iii. 0 < I1(θ) = Eθ(( ∂∂θ

log fθ(X1))2) <∞.Alors √

nI1(θ)(θn − θ)L→ N(0, 1). (16)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 78: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Exemple 1. Loi de Bernoulli

log(fp(X1) = n log(1− p) + log(p/(1− p))X1,

∂plog fp(X1) =

1

p(1− p)(X1 − p),

I1(p) =1

p2(1− p)2E ((X1 − p)2) =

1

p(1− p),

donc √n

p(1− p)(pn − p)

L→ N(0, 1).

On a aussi √n

pn(1− pn)(pn − p)

L→ N(0, 1).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 79: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Consistance de L'estimateurConvergence en loi

Exemple 2. Normalité asymptotique du maximum de

vraisemblance de la moyenne pour un échantillon

Gaussien

On suppose que θ = m.

∂θlog fθ(X1) = X1 − θ, I1(θ) = E ((X1 − θ)2) = σ2.

donc

√nσ2(mn −m)

L→ N(0, 1).

On a aussi

√nσ2(mn −m)

L→ N(0, 1).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 80: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 81: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Estimation non-paramétrique

But : Estimer la loi des observations X1, ...,Xn.

1. Estimation par histogramme

f (x) =k∑

i=1

ωi1[ai ,ai+1[(x), a1 < ... < ak+1. (17)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 82: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

∑k

i=1ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai , ai+1[).

ωi(ai+1 − ai) =1

n

n∑j=1

1[ai ,ai+1[(Xj)

est un estimateur convergent de PF (X ∈ [ai , ai+1[).

hist(x)$density donne les valeurs des ωi

et hist(x)$breaks les valeurs des ai .

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 83: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Programme sur R

x < − rnorm(500)hist(x,breaks=50,col="blue")

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 84: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Inconvénients:

� L'estimateur dépend du choix de la partition (ai), souvent

construite en fonction des données (comme dans R).

� Problème des extrémités a1 et ak+1 : ils ne peuvent pas être

in�nis mais doivent su�samment approcher le support de f.

� k et (ai) doivent dépendre de n pour que f converge vers f

mais... ai+1 − ai ne doit pas décroître trop vite vers 0 pour

que l'estimation soit convergente : il faut su�samment

d'observations par intervalle [ai , ai+1[

� L'histogramme est une fonction discontinue.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 85: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

2.Estimateur à noyau

Au lieu de considérer une approximation uniforme autour de

chaque Xi , on peut utiliser une fonction plus lisse :

f (x) =1

nh

n∑i=1

K

(x − Xi

h

), (18)

où K est un noyau (par exemple une densité de probabilité) et

h un facteur d'échelle.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 86: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Programme sur R

par(bg="lightblue")x=rnorm(500)plot(density(x), col="red", lwd=3)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 87: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Sur R on peut utiliser les noyaux suivants

1) Le noyau normal [kernel=�gaussian� ou �g�]

2) Le noyau d'Epanechnikov [kernel=�epanechnikov� ou �e�]

K (y) = C (1− y 2)21[−1,1](y)

3) Le noyau triangulaire [kernel=�triangular� ou �t�]

K (y) = (1 + y)I1[−1,0](y) + (1− y)1[0,1](y).

4) Les noyaux "rectangular", "biweight", "cosine",

"optcosine".

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 88: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple: Pour la série simulée précédemment on obtient

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 89: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Le choix de la fenêtre h est crucial:

Si h grand, un grand nombre des Xi contribuent à

l'estimation de f (x), on obtient un estimateur avec un

biais très grand et une variance très petite.

Si h petit, peu de Xi contribuent à l'estimation de f (x),

on obtient un estimateur avec un biais très petit et une

variance très grande

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 90: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Le choix hn = n−1/5 (en bas à droite) semble être meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 91: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Fenêtre optimale

En étudiant l'erreur moyenne intégrée

d(f , f ) = E

∫ (f (x)− f (x)

)2dx ,

on peut trouver un choix optimal pour la fenêtre h.

De la décomposition

d(f , f ) =

∫ (f (x)− E f (x)

)2dx+

∫varf (x)dx =(biais^2+var)

et les approximations

f (x)− E f (x) ' f ”(x)

2h2n

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 92: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

E

[exp

(−(Xi − x)2

2h2n

)]' f (x)

√2πhn,

on en déduit que le biais est de l'ordre de(f ”(x)

2

)2

h4n,

et que le terme de variance est approximativement 1

nhn√2π

Par conséquent, l'erreur tend vers 0 quand n tend vers l'in�ni si

� hn tend vers 0 et

� nhn tend vers l'in�ni.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 93: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

La fenêtre optimale est donnée par

hopt =(n√2π (f ”(x))2 dx

)−1/5.

hopt dépend de la dérivée seconde qui elle même inconnue.

Pour résoudre ce problème il existe plusieurs méthodes:

La fenêtre optimale basée sur "rule of thumb", avec le noyau

de Gauss, a la forme

hopt =0.9min(σ, q75 − q25)

1.34n1/5,

où σ est l'écart-type estimé et q25 et q75 sont les quantiles à

25% et à 75% estimés (Silverman (1986, page 48, eqn (3.31)).M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 94: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Sur R il y a les méthodes suivantes:

-bw.nrd0 implémente la "rule-of-thumb" de Silverman.

-bw.nrd une variation de la précédente, Scott (1992).

-bw.ucv et bw.bcv utilisent la validation croisée non biaisée et

biaisée respectivement.

-bw.SJ implémente la méthode de Sheather & Jones (1991).

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 95: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple 1: On considère la série des poids des poulets

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 96: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple 2: On considère la série des poids des souris

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 97: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple 3: On considère la série des précipitations annuelles

"precip", la densité estimée avec les 6 choix possibles est

donnée par

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 98: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple 4. La distribution des salaires annuels dans une

population contenant n = 14890442 actifs, ( le nombre

d'individus Ni touchant le salaire si exprimé en euros) est

distribuée comme suit:

si (en euro ) Ni

10000 1158326520000 204537230000 68324040000 34974050000 183280100000 36250200000 7975500000 10151000000 305M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 99: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 100: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Contenu1 Simulation des lois de probabilités

2 Estimation paramétrique

Estimateurs empiriques

Estimateur du maximum de vraisemblance

Estimateur des moindres carrés

3 Estimation : Théorie asymptotique

Consistance de L'estimateur

Convergence en loi

4 Estimation non-paramétrique

Estimation de la densité de probabilité

Régression non-paramétrique

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 101: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

• Le modèle (8) exprime le variable Xt comme une

combinaison linéaire en fonction des variables explicatives Zt,j .

• Le modèle (8) est incapable de décrire une relation non

linéaire entre Xt et Zt,j si celle-ci existe.

• La régression non-paramétrique o�re l'avantage d'être plus

�exible: ce sont les données qui déterminent la relation

fonctionnelle entre Xt et Zt,j .

Xt = r(Zt,1, ...,Zt,p) + ut , 1 ≤ t ≤ n, (19)

où ut est un bruit blanc.

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 102: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

La fonction r peut être estimée par plusieurs méthodes: 1) le

réssogramme 2) la méthode des k voisins les plus proches 3) la

méthode basée sur les splines 4) la méthode du noyau entre

autre. On se contente ici de présenter la méthode du noyau.

Estimateur à noyau

Posons Zi = (Zi ,1, ...,Zi ,p). On dispose d'un échantillon

(Xi ,Zi)1≤i≤n et on cherche à identi�er la fonction r telle que

Xi = r(Zi) + ui , 1 ≤ i ≤ n, (20)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 103: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

7.Régression non-paramétrique

Watson (1964) et Nadaraya (1964) ont proposé,

indépendamment et simultanément, l'estimateur

r(x) =

{ ∑ni=1 XiK((x−Zi )/hn)∑ni=1 K((x−Zi )/hn)

si∑n

i=1K ((x − Zi)/hn) 6= 0

0 sinon

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 104: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Collomb (1976 ou 1977a) donne une évaluation asymptotique

du biais et de la variance: ∃ deux fonctions a(x) et b(x) telles

que:

f (x)− E f (x) ' h2n2a(x),

E(

(f (x)− E f (x))2)' 1

nhpnb(x)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 105: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Ces formules permettent de montrer que

minhn∈R+

E(f (x)− f (x))2

)' cn−4/(p+4).

Comme pour l'estimation de la densité le choix de la fenêtre

hn est crucial.

Sur R la fonction glkerns permet l'estimation de la fonction r

et ses dérivées avec un choix adaptatif pour la fenêtre hn .

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 106: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

Exemple: On reprend les données sur la distance de freinage:

Programme sur R

data(cars)library(lokern)plot(dist~speed, data = cars, main = "Fenêtre adaptative")�t13 < − glkerns(cars$speed, cars$dist)lines(�t13$x.out,�t13$est, col=2)

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R

Page 107: Statistique Avec r 6

Simulation des lois de probabilitésEstimation paramétrique

Estimation : Théorie asymptotiqueEstimation non-paramétrique

Estimation de la densité de probabilitéRégression non-paramétrique

on obtient

M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R