statistique avec r 6
TRANSCRIPT
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
STATISTIQUES AVEC LE LOGICIEL R
M. BOUTAHAR
FST-Fès Février 2013
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
PLAN:
Chapitre 1: Simulation des lois de probabilités
Chapitre 2: Estimation paramétrique
Chapitre 3: Estimation non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Simulation des lois de probabilités
Les distributions courantes sont programmées: Normale,
Uniforme, Weibull...
Plusieurs fonctions pour chaque distribution. Par exemple,
pour la loi normale :
dnorm() : fonction densité (density)
pnorm() : fonction de répartition (probability)
qnorm() : fonction quantile (quantile)
rnorm() : générateur aléatoire (random)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Distribution Nom sur R Arguments
beta beta shape1, shape2, ncp
binomial binom size, prob
Cauchy cauchy location, scale
chi-squared chisq df, ncp
exponential exp rate
F (Fisher) f df1, df2, ncp
gamma gamma shape, scale
geometric geom prob
hypergeometric hyper m, n, k
log-normal lnorm meanlog, sdlog
logistic logis location, scale
negative binomial nbinom size, prob
normal norm mean, sd
Poisson pois lambda
Student's t t df, ncp
uniform unif min, max
Weibull weibull shape, scale
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
1. Loi de Bernoulli:
De�nition 1
On dit que X suit une loi de Bernoulli de paramètre p, notéX B(p), si E = {0, 1} avec P(X = 1) = p, etP(X = 0) = 1− p.
Programme sur R
B= table(Ni = stats::rbinom(100,1,0.25))r = barplot(B, col=rainbow(20))
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
2. Loi de PoissonDe�nition 2
On dit que X suit une loi de Poisson de paramètre λ, notéX P(λ), si E = N et P(X = k) = e−λ λ
k
k!, λ est un réel
positif.
Programme sur R
P = table(Ni = stats::rpois(100, lambda=5)r = barplot(P, col=rainbow(20))summary(Ni)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 3.00 5.00 4.93 7.00 12.00
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
3. Loi UniformeDe�nition 3
On dit que X suit une loi uniforme sur [a, b], notéX U[a, b], si elle admet la densité
f (x) =1
b − a1[a,b](x) =
1
b−a si x ∈ [a, b]
0 sinon.(1)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x = runif(400) génère une loi uniforme sur [0,1]summary(x)
Min. 1st Qu. Median Mean 3rd Qu.
Max.
0.007657 0.2617 0.5306 0.5135 0.7578
0.9983
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
boxplot(x,col="green")
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x= runif(400) plot(x,type="l", col="blue", lwd=3)abline(h=0.5, col="red", lwd=3)hist(x,col="blue")
on obtient les deux graphiques:
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
4. Loi NormaleDe�nition 4
On dit que X suit une loi de Gauss de moyenne m et devariance σ2, noté X N(m, σ2), si elle admet la densité
f (x) =1
σ√2π
e−(x−m)2
2σ2 ,∀x ∈ R (2)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x = rnorm(100,0,1) génère une suite normale de moyenne 0 etde variance 1.summary(x)
Min. 1st Qu. Median Mean 3rd Qu.
Max.
-2.4020 -0.7267 -0.2680 -0.1827 0.5006
2.6830
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
boxplot(x,col="green")
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x= rnorm(400,0,1)plot(x,type="l", col="blue", lwd=3)abline(h=0, col="red", lwd=3)hist(x,col="blue")
on obtient les deux graphiques
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
5. Loi Exponentielle
De�nition 5
On dit que X suit une loi exponentielle de paramètre λ > 0,noté X E (λ), si elle admet la densité
f (x) =
λe−λx si x ≥ 0
0 sinon.(3)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x = rexp(400,1) génère une loi exponentielle de moyenne 1.summary(x)
Min. 1st Qu. Median Mean 3rd Qu.
Max.
0.004039 0.290900 0.701300 0.974800
1.354000 7.277000
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Programme sur R
x= rexp(400,1)plot(x,type="l", col="blue", lwd=3)abline(h=1, col="red", lwd=3)hist(x,col="blue")
on obtient les deux graphiques
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Estimation paramétrique
Supposons que l'on veut estimer θ ∈ Θ en se basant sur la
suite (Xi , 1 ≤ i ≤ n).
De�nition 6
On appelle Estimateur de θ toute statistiqueθ = F (X1, ...,Xn), où F est une fonction de Rn dans R.
On dé�nit le biais et l'erreur quadratique de l'estimateur θ
respectivement par
Biais = E (θ)− θ,EQ = E(| θ − θ |2
).
EQ = var(θ) + Biais2
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
De�nition 7
Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, avec Q est une famille de lois de probabilités sur unespace (E , E). On dé�nit la loi empirique de X par
Pn =1
n
n∑k=1
δXk(4)
où δXkest la mesure de Dirac au point Xk .
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
De�nition 8
Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loiQ ∈ Q, et de loi empirique Pn.
Soit Pn l'ensemble des mesures de probabilités sur (E , E) de laforme 1
n
∑n
k=1δxk , xk ∈ E , k = 1, ..., n.
Soit F une fonctionnelle dé�nie sur Q∩ Pn.
L'estimateur empirique de F (Q) est la v.a.r. F (Pn).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
• Estimateur d'une loi à support �ni
On suppose qu'il existe {x1, ..., xr} ∈ E tel que∑r
k=1Q({xk}) = 1 et on veut estimer
qk = Fk(Q) = Q({xk}) = P(X1 = xk).
L'estimateur empirique de qk n'est autre que la fréquence
observée de la valeur xk .
qk = Fk(Pn) =1
n
n∑j=1
1{Xj=xk}.
Biais = 0,EQ = var(qk) = qk(1− qk)/n.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
• Estimateurs des moments
On suppose que (E , E) = (R,B) et que Xi a son moment
d'ordre k �ni, et on souhaite l'estimer.
mk = Fk(Q) = E (X k1 ) =
∫xkdQ(x), donc l'estimateur
empirique de mk est donné par
mk = Fk(Pn) =1
n
n∑j=1
X kj .
Biais = 0,EQ = var(mk) = var(X k1 )/n.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
En particulier les estimateurs empiriques de la moyenne m1 et
la variance σ2 = m2 −m21 de X1 sont respectivement
m1 = X n =1
n
n∑j=1
Xj
et
σ2 = m2 − m21 =
1
n
n∑j=1
X 2j − (X n)2 =
1
n
n∑j=1
(Xj − X n)2.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Soit X = (X1, ...,Xn) un échantillon de taille n suivant une loi
Qθ de fonction de répartition Fθ(x).
Si Qθ est discrète posons fθ(x) = Qθ(x ) = P(X1 = x).
Si Qθ est continue posons fθ(x) = ∂Fθ(x)∂x
.
La vraisemblance de X est dé�nie par
L(θ,X ) =n∏
i=1
fθ(Xi).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
L'estimateur du maximum de vraisemblance θ est tel que
L(θ,X ) = supθ∈Θ
n∏i=1
fθ(Xi)
n∑i=1
∇θ log fθ(Xi)∣∣θ=θ = 0.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
1. Loi de Bernoulli :
X = (X1, ...,Xn) un échantillon de taille n suivant une loi de
Bernoulli B(p) de paramètre inconnu p.
fp(x) = Qθ({x}) = P(X = x) = exp(x log(p/(1−p))+log(1−p))),
log L(p,X ) =n∑
i=1
log(fp(Xi)
= n log(1− p) + log(p/(1− p))n∑
i=1
Xi
∂ log L(p,X )
∂p= 0 =⇒ p = X n =
1
n
n∑i=1
Xi .
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
1. Loi de Gauss :
X = (X1, ...,Xn) un échantillon de taille n suivant une loi
N(m, σ2), m et σ2 sont inconnues.
La log-vraisemblance est donnée par
log L(m, σ2,X ) = −n2log σ2 − n
2log 2π − 1
2σ2
n∑i=1
(Xi −m)2
∂ log L(m, σ2,X )
∂m=
1
σ2
n∑i=1
(Xi −m) = 0;
∂ log L(θ, σ2,X )
∂σ2= − n
2σ2+
1
2σ4
n∑i=1
(Xi −m)2 = 0;
m = X n, σ2 =
1
n
n∑i=1
(Xi − X n)2.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Matrice d'information de FisherDe�nition 9
On appelle Score la quantité
S(θ) =∂ log L(θ,X )
∂θ. (5)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
De�nition 10
On appelle matrice d'information de Fisher la quantité
I (θ) = Eθ (S(θ) tS(θ))
= Eθ
(∂ log L(θ,X )
∂θi
∂ log L(θ,X )
∂θj
)1≤i ,j≤d
= −Eθ(∂2 log L(θ,X )
∂θi∂θj
)1≤i ,j≤d
.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
1. Loi de Gauss :
X = (X1, ...,Xn) un échantillon de taille n suivant une loi
N(m, σ2), θ = (m, σ2).
S(θ) =
(1
σ2
∑n
i=1(Xi −m)
− n2σ2
+ 1
2σ4
∑n
i=1(Xi −m)2
)
∂2 log L(θ,X )
∂θ∂θ′=
(− nσ2
(m−Xn)σ4
(m−Xn)σ4
− n2σ4
+ 1
σ6
∑n
i=1(Xi −m)2
)
I (θ) =
(nσ2
00 n
2σ4
)M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Theorem 11
(Borne de Cramer-Rao) On suppose que:i. L(θ,X ) > 0 P .p.s.ii. θ → L(θ,X ) est presque sûrement di�érentiable sur Θ etque le vecteur Score S(θ) est centré et de carré intégrablepour Pθ.iii. I (θ) est inversible.Alors pour toute variable aléatoire T de carré Pθ-intégrablevéri�ant
∇E (L(θ,X )T ) = E (∇L(θ,X )T ),
on a
var θ(T ) ≥ BCR = t(∇Eθ(T ))I−1(θ)(∇Eθ(T )). (6)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Corollaire 12
Si T est un estimateur sans biais de g(θ) ∈ R et si g estdi�érentiable, alors
var θ(T ) ≥ BCR = t(∇g(θ))I−1(θ)(∇g(θ)). (7)
De�nition 13
Si l'estimateur T sans biais de g(θ) ∈ R atteint la borne deCramer-Rao (i.e il y a égalité dans (7), alors il est dit e�cace.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
E�cacité du maximum de vraisemblance de la
moyenne pour un échantillon Gaussien
1. E�cacité de m :
var(m) = var(X n) =σ2
n,
g(θ) = m,∇g(θ) = (1, 0)′,
BCR = t(∇g(θ))I−1(θ)(∇g(θ)) =σ2
n.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Modèle de régression linéaire:
Xt , t = 1, ..., n véri�ent l'équation de régression suivante:
Xt = θ1Zt,1 + .... + θpZt,p + ut , t = 1, ..., n. (8)
• Les Zt,k sont les variables explicatives et sont connues,
• θ = t(θ1, ..., θp) est le vecteur des paramètres inconnus,
• ut est un bruit blanc c'est à dire une suite de variables
aléatoires réelles telles que:
• (H.1): E (ut) = 0, 1 ≤ t ≤ n,
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
• (H.2): E (utus) =
σ2 si t = s
0 si t 6= s, σ2 inconnue.
On peut écrire le modèle de régression (8) sous la forme
vectorielle suivante:
X = Zθ + σU, (9)
Z = (Zt,j)1≤t≤n,1≤j≤p est une matrice de taille(n,p) connue, U
est un v.a. centré réduit, θ = t(θ1, ..., θp) ∈ Rp, et σ ∈ R∗+sont inconnus.
• On suppose que rang(Z ) = p.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
On considère le modèle de régression (9), l'estimateur des
moindres carrés θ de θ est solution du problème de
minimisation :
θ = argminθ∈Θ||X − Zθ||2 ,
et dont la solution est donnée par
θ = ( tZZ)−1 tZX (10)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Theorem 14
σ2 =
∣∣∣∣∣∣X − X∣∣∣∣∣∣2
n − p(11)
est un estimateur sans biais de la variance inconnue σ2, avecX = Zθ
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Theorem 15
i) E (θ) = θ ( estimateur sans biais )
ii) Var(θ) = σ2 ( tZZ)−1 ( matrice de covariance ).
Hypothèse de normalité (conséquence)
En plus des hypothèses (H.1) et (H.2) on ajoute une
hypothèse (H.3) de normalité du vecteur aléatoire u :
u ∼ N(0, σ2In).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Theorem 16
i) θ ∼ N(θ, σ2 ( tZZ)−1
),
ii) (n−p)σ2
σ2∼ χ2(n − p),
iii) θ et σ2 sont des statistiques indépendantes.
Corollary 17
θj − θj√σ2ajj
∼ t(n − p), 1 ≤ j ≤ p;
ajj est le jieme élément diagonal de ( tZZ)−1.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Construction des tests d'hypothèses au seuil α:
H0 : θj = 0région critique−→
∣∣∣ θj ∣∣∣√σ2ajj
≥ t1−α/2(n−p) (12)
où t1−α(n − p) désigne le quantile d'ordre 1− α de la loi de
Student à (n − p) degrés de liberté.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Construction de région de con�ance (au niveau α)pour θj , (1 ≤ j ≤ p):
θj ±√σ2ajj t1−α/2(n − p)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Prévision
Comment, à l'instant n, prévoir la réalisation de Xn+1
disposant de Zn+1 = t(Zn+1,1, ...,Zn+1,p) ?
Les hypothèses sont (H.1), (H.2) etXn+1 = tZn+1θ + un+1,
E (un+1) = 0,
E (un+1u′t) = 0, 1 ≤ t ≤ n.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
On a deux incertitudes:
i) Celle due à un+1 (perturbation aléatoire),
ii) Celle due au fait que θ est inconnu.
Prévision optimale
Xn+1 = tZn+1θ.
L'intervalle de con�ance au niveau (1− α) est donné par
Xn+1 ± σt1−α/2(n − p)
√1 + tZn+1 ( tZZ)−1 Zn+1.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Exemples de modélisation. 1. Modèle linéaire simple.
Programme sur R
data(cars), plot(cars)
Figure: Distance de freinageM. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
• On cherche la relation qui lie la variable dist (distance de
freinage) et la variable speed (vitesse).
• On propose le modèle distt = θ1 + θ2speedt + ut ,
Programme sur R
�t < − lm(cars$dist ~ cars$speed), summary(�t)
Call:lm(formula = cars$dist ~cars$speed)
Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Coe�cients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
cars$speed 3.9324 0.4155 9.464 1.49e-12
***
� Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-Squared: 0.6511, Adjusted R-squared: 0.6438
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Interprétation des résultats:
Residuals: En premier lieu R a�che les statistiques
descriptives des résidus de la régression.
Coe�cients: Les estimations θ1 =-17.5791, θ2 =3.9324.
Std. Error désigne l'écart type estimé.
t. value est la statistique de Student.
Pr(> |t|) est la p-value associée à la statistique de Student t
value, une valeur plus petite que 0.01 nous conduit au rejet de
H0 c'est à dire que le paramètre est signi�catif. Pour notre
modèle le paramètre θ1 n'est pas signi�catif alors que θ2 l'est.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Residual standard error =√||u||2n−p .
Multiple R-Squared:
De�nition 18
Lorsqu'il y'a une constante dans le modèle de régressionmultiple, on appelle coe�cient de détermination le scalaire
R2 =
∣∣∣∣∣∣X − X δn
∣∣∣∣∣∣2∣∣∣∣X − X δn∣∣∣∣2
où X = 1
n
∑n
t=1Xt et δn = t(1, ..., 1), vecteur (n, 1).
Plus R2 est proche de 1, plus l'ajustement est meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Adjusted R-squared: R2a = 1− (1− R2) n−1
n−p−1 , où p est le
nombre de paramètres sans compter la constante. R2a ne croit
que si la nouvelle variable explicative ajoutée améliore
l'ajustement, elle peut être négative, et R2a ≤ R2.
F-statistic désigne la statistique de Fisher qui correspond à
l'hypothèse nulle H0 : θ1 = ... = θp = 0; elle est donnée par
F = ||u||2−||u||2
||u||2 avec u : résidus sous H0 et u : résidus sous H1.
On a sous H0 la statistique F suit une loi de Fisher F (p, n−p).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Programme sur R
�t1 < − lm(cars$dist ~cars$speed-1), summary(�t1)
Call: lm(formula = cars$dist ~cars$speed -1)
Residuals:
Min 1Q Median 3Q Max
-26.183 -12.637 -5.455 4.590 50.181
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Coe�cients:
Estimate Std. Error t value Pr(> |t|)
cars$speed 2.9091 0.1414 20.58 < 2e-16 ***
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 16.26 on 49 degrees of freedom
Multiple R-Squared: 0.8963, Adjusted R-squared: 0.8942
F-statistic: 423.5 on 1 and 49 DF, p-value: < 2.2e − 16.
Le R2 s'approche de 1, donc l'ajustement est meilleur.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Programme sur R
plot(cars,col="blue"), z < − lm(dist ~ speed, data = cars),abline(z,col="red")
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Analyse des résidus de la régression
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Exemple 2. Régression multiple: On considère l'évolution de
l'ozone en fonction de la température, du vent et de la
radiation solaire.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Programme sur R
�t3 < − lm(air$Ozone ~ air$Temp + air$wind + air$Solar.R),summary(�t3)
Call: lm(formula = air$Ozone air$Temp + air$Wind +
air$Solar.R)
Residuals:
Min 1Q Median 3Q Max
-40.485 -14.219 -3.551 10.097 95.619
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Coe�cients:
Estimate Std. Error t value Pr(>| t |)(Intercept) -64.34208 23.05472 -2.791 0.00623 **
air$Temp 1.65209 0.25353 6.516 2.42e-09 ***
air$Wind -3.33359 0.65441 -5.094 1.52e-06
***
air$Solar.R 0.05982 0.02319 2.580 0.01124 *
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 21.18 on 107 degrees of freedom (42
observations deleted due to missingness)
Multiple R-squared: 0.6059, Adjusted R-squared: 0.5948
F-statistic: 54.83 on 3 and 107 DF, p-value: < 2.2e − 16
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Les résidus de la régression sont donnés par
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimateurs empiriquesEstimateur du maximum de vraisemblanceEstimateur des moindres carrés
Conclusion: L'ajustement est assez bon.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Estimation : Théorie asymptotique
θn = F (X1, ...,Xn) est un estimateur de θ.
But : Décrire le comportement asymptotique de θn lorsque la
taille n tends vers +∞.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
De�nition 19
On dit que θn est un estimateur fortement consistant de θsi θn converge presque sûrement vers θ:
θnp.s→ θ. (13)
De�nition 20
On dit que θn est un estimateur faiblement consistant de θsi θn converge en probabilité vers θ:
θnP→ θ. (14)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Theorem 21
Si θn est un estimateur de θ, posons bn = E (θn)− θ, (i.e. lebiais de θn), vn = var(θn); on suppose quei. bn → 0 ( c'est à dire θn est asymptotiquement sans biais),ii. vn → 0.Alors θn est un estimateur consistant de θ.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
On suppose que (Xi) est une suite i.i.d suivant une loi N(5, 1)
Figure: Evolution de la moyenne empirique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
On s'intéresse ici à étudier la distribution asymptotique de
l'estimateur θn lorsque n tends vers l'in�ni.
De�nition 22
Supposons qu'il existe deux suites réelles mn(θ) et σn(θ) > 0telles que
θn −mn(θ)
σn(θ)L→ N(0, 1); (15)
on dit que θn est asymptotiquement normal.• limn→∞mn(θ) est l'espérance asymptotique de θn,• limn→∞ σ
2n(θ) est la variance asymptotique de θn.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Theorem 23
On suppose quei. L'application θ → log fθ(x) est deux fois continûmentdi�érentiable sur Θ, µ.p.s. et θ → ∂2
∂θ2log fθ(x) est continue
en θ uniformément par rapport à x .
ii. Eθ(∂∂θ
log fθ(X1)) = 0,Eθ(∂2
∂θ2fθ(X1)/fθ(X1)) = 0,
iii. 0 < I1(θ) = Eθ(( ∂∂θ
log fθ(X1))2) <∞.Alors √
nI1(θ)(θn − θ)L→ N(0, 1). (16)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Exemple 1. Loi de Bernoulli
log(fp(X1) = n log(1− p) + log(p/(1− p))X1,
∂
∂plog fp(X1) =
1
p(1− p)(X1 − p),
I1(p) =1
p2(1− p)2E ((X1 − p)2) =
1
p(1− p),
donc √n
p(1− p)(pn − p)
L→ N(0, 1).
On a aussi √n
pn(1− pn)(pn − p)
L→ N(0, 1).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Consistance de L'estimateurConvergence en loi
Exemple 2. Normalité asymptotique du maximum de
vraisemblance de la moyenne pour un échantillon
Gaussien
On suppose que θ = m.
∂
∂θlog fθ(X1) = X1 − θ, I1(θ) = E ((X1 − θ)2) = σ2.
donc
√nσ2(mn −m)
L→ N(0, 1).
On a aussi
√nσ2(mn −m)
L→ N(0, 1).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Estimation non-paramétrique
But : Estimer la loi des observations X1, ...,Xn.
1. Estimation par histogramme
f (x) =k∑
i=1
ωi1[ai ,ai+1[(x), a1 < ... < ak+1. (17)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
∑k
i=1ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai , ai+1[).
ωi(ai+1 − ai) =1
n
n∑j=1
1[ai ,ai+1[(Xj)
est un estimateur convergent de PF (X ∈ [ai , ai+1[).
hist(x)$density donne les valeurs des ωi
et hist(x)$breaks les valeurs des ai .
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Programme sur R
x < − rnorm(500)hist(x,breaks=50,col="blue")
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Inconvénients:
� L'estimateur dépend du choix de la partition (ai), souvent
construite en fonction des données (comme dans R).
� Problème des extrémités a1 et ak+1 : ils ne peuvent pas être
in�nis mais doivent su�samment approcher le support de f.
� k et (ai) doivent dépendre de n pour que f converge vers f
mais... ai+1 − ai ne doit pas décroître trop vite vers 0 pour
que l'estimation soit convergente : il faut su�samment
d'observations par intervalle [ai , ai+1[
� L'histogramme est une fonction discontinue.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
2.Estimateur à noyau
Au lieu de considérer une approximation uniforme autour de
chaque Xi , on peut utiliser une fonction plus lisse :
f (x) =1
nh
n∑i=1
K
(x − Xi
h
), (18)
où K est un noyau (par exemple une densité de probabilité) et
h un facteur d'échelle.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Programme sur R
par(bg="lightblue")x=rnorm(500)plot(density(x), col="red", lwd=3)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Sur R on peut utiliser les noyaux suivants
1) Le noyau normal [kernel=�gaussian� ou �g�]
2) Le noyau d'Epanechnikov [kernel=�epanechnikov� ou �e�]
K (y) = C (1− y 2)21[−1,1](y)
3) Le noyau triangulaire [kernel=�triangular� ou �t�]
K (y) = (1 + y)I1[−1,0](y) + (1− y)1[0,1](y).
4) Les noyaux "rectangular", "biweight", "cosine",
"optcosine".
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple: Pour la série simulée précédemment on obtient
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Le choix de la fenêtre h est crucial:
Si h grand, un grand nombre des Xi contribuent à
l'estimation de f (x), on obtient un estimateur avec un
biais très grand et une variance très petite.
Si h petit, peu de Xi contribuent à l'estimation de f (x),
on obtient un estimateur avec un biais très petit et une
variance très grande
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Le choix hn = n−1/5 (en bas à droite) semble être meilleur.M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Fenêtre optimale
En étudiant l'erreur moyenne intégrée
d(f , f ) = E
∫ (f (x)− f (x)
)2dx ,
on peut trouver un choix optimal pour la fenêtre h.
De la décomposition
d(f , f ) =
∫ (f (x)− E f (x)
)2dx+
∫varf (x)dx =(biais^2+var)
et les approximations
f (x)− E f (x) ' f ”(x)
2h2n
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
E
[exp
(−(Xi − x)2
2h2n
)]' f (x)
√2πhn,
on en déduit que le biais est de l'ordre de(f ”(x)
2
)2
h4n,
et que le terme de variance est approximativement 1
nhn√2π
Par conséquent, l'erreur tend vers 0 quand n tend vers l'in�ni si
� hn tend vers 0 et
� nhn tend vers l'in�ni.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
La fenêtre optimale est donnée par
hopt =(n√2π (f ”(x))2 dx
)−1/5.
hopt dépend de la dérivée seconde qui elle même inconnue.
Pour résoudre ce problème il existe plusieurs méthodes:
La fenêtre optimale basée sur "rule of thumb", avec le noyau
de Gauss, a la forme
hopt =0.9min(σ, q75 − q25)
1.34n1/5,
où σ est l'écart-type estimé et q25 et q75 sont les quantiles à
25% et à 75% estimés (Silverman (1986, page 48, eqn (3.31)).M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Sur R il y a les méthodes suivantes:
-bw.nrd0 implémente la "rule-of-thumb" de Silverman.
-bw.nrd une variation de la précédente, Scott (1992).
-bw.ucv et bw.bcv utilisent la validation croisée non biaisée et
biaisée respectivement.
-bw.SJ implémente la méthode de Sheather & Jones (1991).
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple 1: On considère la série des poids des poulets
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple 2: On considère la série des poids des souris
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple 3: On considère la série des précipitations annuelles
"precip", la densité estimée avec les 6 choix possibles est
donnée par
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple 4. La distribution des salaires annuels dans une
population contenant n = 14890442 actifs, ( le nombre
d'individus Ni touchant le salaire si exprimé en euros) est
distribuée comme suit:
si (en euro ) Ni
10000 1158326520000 204537230000 68324040000 34974050000 183280100000 36250200000 7975500000 10151000000 305M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Contenu1 Simulation des lois de probabilités
2 Estimation paramétrique
Estimateurs empiriques
Estimateur du maximum de vraisemblance
Estimateur des moindres carrés
3 Estimation : Théorie asymptotique
Consistance de L'estimateur
Convergence en loi
4 Estimation non-paramétrique
Estimation de la densité de probabilité
Régression non-paramétrique
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
• Le modèle (8) exprime le variable Xt comme une
combinaison linéaire en fonction des variables explicatives Zt,j .
• Le modèle (8) est incapable de décrire une relation non
linéaire entre Xt et Zt,j si celle-ci existe.
• La régression non-paramétrique o�re l'avantage d'être plus
�exible: ce sont les données qui déterminent la relation
fonctionnelle entre Xt et Zt,j .
Xt = r(Zt,1, ...,Zt,p) + ut , 1 ≤ t ≤ n, (19)
où ut est un bruit blanc.
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
La fonction r peut être estimée par plusieurs méthodes: 1) le
réssogramme 2) la méthode des k voisins les plus proches 3) la
méthode basée sur les splines 4) la méthode du noyau entre
autre. On se contente ici de présenter la méthode du noyau.
Estimateur à noyau
Posons Zi = (Zi ,1, ...,Zi ,p). On dispose d'un échantillon
(Xi ,Zi)1≤i≤n et on cherche à identi�er la fonction r telle que
Xi = r(Zi) + ui , 1 ≤ i ≤ n, (20)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
7.Régression non-paramétrique
Watson (1964) et Nadaraya (1964) ont proposé,
indépendamment et simultanément, l'estimateur
r(x) =
{ ∑ni=1 XiK((x−Zi )/hn)∑ni=1 K((x−Zi )/hn)
si∑n
i=1K ((x − Zi)/hn) 6= 0
0 sinon
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Collomb (1976 ou 1977a) donne une évaluation asymptotique
du biais et de la variance: ∃ deux fonctions a(x) et b(x) telles
que:
f (x)− E f (x) ' h2n2a(x),
E(
(f (x)− E f (x))2)' 1
nhpnb(x)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Ces formules permettent de montrer que
minhn∈R+
E(f (x)− f (x))2
)' cn−4/(p+4).
Comme pour l'estimation de la densité le choix de la fenêtre
hn est crucial.
Sur R la fonction glkerns permet l'estimation de la fonction r
et ses dérivées avec un choix adaptatif pour la fenêtre hn .
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
Exemple: On reprend les données sur la distance de freinage:
Programme sur R
data(cars)library(lokern)plot(dist~speed, data = cars, main = "Fenêtre adaptative")�t13 < − glkerns(cars$speed, cars$dist)lines(�t13$x.out,�t13$est, col=2)
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R
Simulation des lois de probabilitésEstimation paramétrique
Estimation : Théorie asymptotiqueEstimation non-paramétrique
Estimation de la densité de probabilitéRégression non-paramétrique
on obtient
M. BOUTAHAR STATISTIQUES AVEC LE LOGICIEL R