noise: statistiques exploratoires avec r

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Nouveaux outils informatiquespour la Statistique exploratoire

(=NOISE)

Christian P. Robert

Universite Paris Dauphinehttp://www.ceremade.dauphine.fr/~xian

L3 MI2E, 2009–2010

Outline

1 Simulation de variables aleatoires

2 Methodes de Monte Carlo

3 Methode du bootstrap

4 Statistique non–parametrique

Simulation de variables aleatoires

Chapitre 1 :Simulation de variables aleatoires

IntroductionGenerateur pseudo-aleatoireDistributions non-uniformes (1)Distributions non-uniformes (2)

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Introduction

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Introduction

Validation d’un modele probabiliste

Introduction

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Introduction

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Maximiser une fonction/vraisemblance faiblement reguliere

Introduction

Example (TCL pour la loi binomiale)

SiXn ∼ B(n, p) ,

Xn converge en loi vers la loi normale :

√n (Xn − p)

n→∞ N

p(1 − p)

Introduction

0.0 0.2 0.4 0.6 0.8 1.0

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0.2 0.3 0.4 0.5 0.6 0.7 0.8

0.3 0.4 0.5 0.6

n= 128

0.35 0.40 0.45 0.50 0.55 0.60 0.65

n= 256

0.40 0.45 0.50 0.55 0.60

n= 512

0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58

n= 1024

0.46 0.48 0.50 0.52 0.54

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser.

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser. (On sait que le minimum global vaut 0 en(x, y) = (0, 0).)

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

⋄ les ζj sont uniformes sur le cercle unite x2 + y2 = 1;

⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);

⋄ (αj) et (βj) tendent vers 0

Introduction

-0.2 0.0 0.2 0.4 0.6

Cas ou αj = 1/10 log(1 + j) et βj = 1/j

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Introduction

Couts de voyages entre deuxvilles fixes [et differents]

Introduction

Recherche du cout globalminimum

Introduction

Recherche du cout globalminimum

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifs

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)Probleme a nombreusesapplications (reseaux,conception de circuitsimprimes, sequencage degenome, etc.) Concours Procter & Gamble

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Resolution pour les 24, 978 villessuedoises en 2004 en 84.8 anneesCPU

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Introduction

Evaluation du cout C du nouveau circuit

Introduction

Acceptation du nouveau circuit avec probabilite

{C0 − C

}∧ 1

Introduction

Acceptation du nouveau circuit avec probabilite

{C0 − C

}∧ 1

T , temperature, est reduite progressivement.[Metropolis, 1953]

Introduction

Illustration

Example (400 villes)

T = 1.2

Introduction

Illustration

T = 0.8

Introduction

Illustration

T = 0.4

Introduction

Illustration

T = 0.0

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Introduction

Pricing d’options

Example (Options europeennes)

Cas ouCT = (ST − K)+

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Introduction

Pricing d’options

Example (Options europeennes)

Cas ouCT = (ST − K)+

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Resolution par simulation des binomiales Yi

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

0S(t)dt − K

S(n) − K

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

0S(t)dt − K

S(n) − K

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Resolution par simulation des normales ∆Xi

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

¡Paradoxe!

Sans appel au “hasard”, la suite deterministe(u0, u1 = Ψ(u0), . . . , un = Ψ(un−1))doit ressembler a une suite aleatoire

En R, appel a la procedure

runif( )

Description:‘runif’ generates random deviates.Example:u = runif(20)‘Random.seed’ is an integer vector, containing the random numbergenerator (RNG) state for random number generation in R. It canbe saved and restored, but should not be altered by the user.

500 520 540 560 580 600

uniform sample

0.0 0.2 0.4 0.6 0.8 1.0

En C, appel a la procedure

rand() / random()

SYNOPSIS# include <stdlib.h>long int random(void);DESCRIPTIONThe random() function uses a non-linear additive feedback randomnumber generator employing a default table of size 31 longintegers to return successive pseudo-random numbers in the rangefrom 0 to RAND MAX. The period of this random generator isvery large, approximately 16*((2**31)-1).RETURN VALUErandom() returns a value between 0 and RAND MAX.

En Scilab, appel a la procedure

rand()

rand() : with no arguments gives a scalar whose value changeseach time it is referenced. By default, random numbers areuniformly distributed in the interval (0,1). rand(’normal’) switchesto a normal distribution with mean 0 and variance 1.rand(’uniform’) switches back to the uniform distributionEXAMPLEx=rand(10,10,’uniform’)

Example (Generateur usuel)

Le generateur congruenciel

D(x) = (ax + b) mod (M + 1).

est de periode M pour les bons choix de (a, b) et se transforme engenerateur sur ]0, 1[ par division par M + 2.

v = u*69069069 (1)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Conclusion :

Utiliser la fonction appropriee sur l’ordinateur ou le logiciel enservice plutot que de construire un generateur aleatoire demauvaise qualite

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Note. Si FX n’est pas strictement croissante, on prend

F−1X (u) = inf {x; FX(x) ≥ u}

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Applications...

FX(x) =∑

)pi(1 − p)n−i

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Applications...

FX(x) =∑

)pi(1 − p)n−i

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Loi de Cauchy, C (0, 1),

FX(x) =1

πarctan(x)+

2et F−1

X (u) = tan(π(u−1/2))

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Example (Transformation de Box-Muller)

Pour la loi normale N (0, 1), si X1, X2i.i.d.∼ N (0, 1),

X21 + X2

2 ∼ χ22, arctan(X1/X2) ∼ U ([0, 2π])

[Jacobien]Comme χ2

2 est identique a E xp(1/2), il vient par inversion

X1 =√−2 log(U1) sin(2πU2) X2 =

√−2 log(U1) cos(2πU2)

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Example

La loi de Cauchy se deduit de la loi normale par : si

X1, X2i.i.d.∼ N (0, 1), X1/X2 ∼ C (0, 1)

Example

La loi Beta B(α, β), de densite

fX(x) =Γ(α + β)

Γ(α)Γ(β)xα−1(1 − x)β−1 ,

s’obtient a partir de la loi gamma par: si X1 ∼ G a(α, 1),X2 ∼ G a(β, 1), alors

X1 + X2∼ B(α, β)

Lois multidimensionnelles

Soit a generer dans Rp

(X1, . . . , Xp) ∼ f(x1, . . . , xp)

dont les composantes ne sont pas necessairement independantes

Cascade rule

f(x1, . . . , xp) = f1(x1) × f2|1(x2|x1) . . . × fp|−p(xp|x1, . . . , xp−1)

Implementation

Simuler pour t = 1, . . . , T

1 X1 ∼ f1(x1)

2 X2 ∼ f2|1(x2|x1)

p. Xp ∼ fp|−p(xp|x1, . . . , xp−1)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

lemme d’inversion ne s’applique qu’en dimension 1

nouvelle distribution demandant resolution rapide

Methode d’acceptation–rejet

Distribution de densite f a simuler

Methode d’acceptation–rejet

Distribution de densite f a simuler

Theorem (fondamental de la simulation)

La loi uniforme sur le sous-graphe

Sf = {(x, u); 0 ≤ u ≤ f(x)}

a comme loi marginale en x la loide densite f .

0 2 4 6 8 100.0

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Example

Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans

{(u, x); 0 ≤ u ≤ exp(−x2/2)}

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

3 Prendre X = Yk ou

k = inf{n ; Un ≤ f(Yn)/Mg(Yn)}

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Preuve (1) : On a

P (X ≤ x) =∞∑

P (X = Yk , Yk ≤ x)

=∞∑

(1 − 1

)k−1

P (Uk ≤ f(Yk)/Mg(Yk) , Yk ≤ x)

=∞∑

(1 − 1

)k−1 ∫ x

−∞

∫ f(y)/Mg(y)

0du g(y)dy

=∞∑

(1 − 1

)k−1 1

−∞f(y)dy

Preuve (2)

Si (X, U) est uniforme surA ⊃ B, la distribution de (X, U)retreinte a B est uniforme sur B.

−4 −2 0 2 4

Proprietes

Fonctionne sans constante de normalisation

Proprietes

Ne necessite pas une borne exacte M

Proprietes

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Proprietes

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Demande en moyenne M va Yk pour un X (mesured’efficacite)

Example

Soit f(x) = exp(−x2/2) et g(x) = 1/(1 + x2)

g(x)= (1 + x2) e−x2/2 ≤ 2/

Probabilite d’acceptation√

e/2π = 0.66

Theorem (Enveloppe)

S’il existe une densite gm, une fonction gl et une constante Mtelles que

gl(x) ≤ f(x) ≤ Mgm(x) ,

1 Generer X ∼ gm(x), U ∼ U[0,1];

2 Accepter X si U ≤ gl(X)/Mgm(X);

3 sinon, accepter X si U ≤ f(X)/Mgm(X)

donne des variables aleatoires suivant la loi f .

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Raison :

Changement de variable (u, v) → (x, u) de Jacobien u et loimarginale de x donnee par

x ∼∫ √

0u du =

√2f(x)

2= f(x)

Example

Pour une loi normale, simuler(u, v) au hasard dans

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

{(u, v); 0 ≤ u ≤√

2 e−v2/4u2} = {(u, v); v2 ≤ −4 u2 log(u/√

Methodes de Monte Carlo

Chapitre 2 :Methodes de Monte Carlo

IntroductionIntegration par la methode de Monte CarloFonctions d’importanceMethodes d’acceleration

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

Introduction

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

Introduction

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

3 optimisation

arg minx

h(x) = arg maxx

exp{−βh(x)} β > 0

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.

Introduction

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.

Introduction

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.La probabilite de guerir de la maladie est

Qx,y =exp(δ + γ · nx,y)

1 + exp(δ + γ · nx,y)

Introduction

Example (Propagation d’une epidemie (2))

Question

En fonction de (α, β, γ, δ), quelle est la vitesse de propagation decette epidemie ? la duree moyenne ? le nombre de personnesinfectees ?

Integration par la methode de Monte Carlo

Integration par Monte Carlo

Loi des grands nombres

Si X1, . . . , Xn simules suivant f ,

h(Xi) −→ I

Theoreme Central Limit

Evaluation de l’erreur par

σ2n =

(h(Xi) − I)2

etIn ≈ N (I, σ2

Example (Normale)

Pour une loi normale, E[X4] = 3. Par la methode de Monte Carlo,n 5 50 500 5000 50,000 500,000

In 1.65 5.69 3.24 3.13 3.038 3.029

5 10 50 100 500 1000 5000 10000 50000

0.00.5

1.01.5

2.02.5

Example (Cauchy / Normale)

On considere le modele joint

X|θ ∼ N (θ, 1), θ ∼ C(0, 1)

Apres observation de X, on estime θ par

δπ(x) =

∫ ∞

−∞

1 + θ2e−(x−θ)2/2dθ

∫ ∞

−∞

1 + θ2e−(x−θ)2/2dθ

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

1 + θ2i

∑mi=1

1 + θ2i

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

1 + θ2i

∑mi=1

1 + θ2i

Par la Loi des Grands Nombres,

δπm(x) −→ δπ(x) quand m −→ ∞.

Example (FdR normale)

Approximation de la fonction de repartition de la loi normale

Φ(t) =

−∞

1√2π

e−y2/2dy

Φ(t) =1

IXi≤t,

ayant genere un echantillon de taille n, (X1, . . . , Xn), vial’algorithme de Box-Muller.

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

• Plus grande precision [absolue] dans les queues

n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72

0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1

0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1

0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999

0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999

0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999

0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999

0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999

Evaluation de quantiles normaux par Monte Carlo fondee surn generations normales.

Fonctions d’importance

Representation alternative :

∫h(x)f(x)dx =

∫h(x)

g(x)g(x)dx

Representation alternative :

∫h(x)f(x)dx =

∫h(x)

g(x)g(x)dx

Donc, si Y1, . . . , Yn simules suivant g,

h(Yi)f(Yi)

g(Yi)−→ I

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Interet

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Interet

supp(g) ⊃ supp(f)

Recyclage de simulations Yi ∼ g pour d’autres densites f

Interet

supp(g) ⊃ supp(f)

Recyclage de simulations Yi ∼ g pour d’autres densites f

Utilisation de lois simples g

Example (Normale)

Pour la loi normale et l’approximation de E[X4],

∫ ∞

−∞x4e−x2/2dx

[y=x2]= 2

∫ ∞

0y3/2 1

2e−y/2dy

suggere d’utiliser g(y) = exp(−y/2)/2n 5 50 500 5000 50000

In 3.29 2.89 3.032 2.97 3.041

5 10 50 100 500 1000 5000 10000 50000

−0.1

0.00.1

0.20.3

0.40.5

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Theorem (Importance optimale)

Le choix de g minimisant la variance de In est

g⋆(x) =|h(x)|f(x)

Remarques

Variance finie seulement si

[h2(X)

Xh2(x)

g(X)dx < ∞ .

Remarques

[h2(X)

Xh2(x)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

Remarques

[h2(X)

Xh2(x)

g(X)dx < ∞ .

g⋆ depend de I que l’on cherche a estimer (??)

Remarques

[h2(X)

Xh2(x)

g(X)dx < ∞ .

g⋆ depend de I que l’on cherche a estimer (??)

Remplacement de In par moyenne harmonique

∑ni=1 h(yi)/|h(yi)|∑n

i=1 1/|h(yi)|

(numerateur et denominateur sont convergents)souvent mauvais (variance infinie)

Example (Normale)

Pour la loi normale et l’approximation de E[X4],g⋆(x) ∝ x4 exp(−x2/2), loi de la racine d’une G a(5/2, 1/2)

[Exercice]

n 5 50 500 5,000 50,000 500,000

In 4.877 2.566 2.776 2.317 2.897 3.160

1e+01 1e+02 1e+03 1e+04 1e+05

Example (Loi de Student)

X ∼ T (ν, θ, σ2), de densite

f(x) =Γ((ν + 1)/2)

νπ Γ(ν/2)

(x − θ)2

)−(ν+1)/2

Soient θ = 0, σ = 1 et

∫ ∞

2.1x5f(x)dx.

a calculer

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

◦ f , car f = N (0,1)√χ2

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

◦ f , car f = N (0,1)√χ2

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

Methodes d’acceleration

Simulations correlees

La correlation negative...

Deux echantillons (X1, . . . , Xm) et (Y1, . . . , Ym) suivant f pourestimer

h(x)f(x)dx .

Soient

h(Xi) et I2 =1

de moyenne I et variance σ2

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

(I1 + I2

2cov(I1, I2).

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

(I1 + I2

2cov(I1, I2).

Par consequent, si les deux echantillons sont negativementcorreles,

cov(I1, I2) ≤ 0 ,

ils font mieux que deux echantillons independants de meme taille

Variables antithetiques

Construction de variables negativement correlees

1 Si f symetrique autour de µ, prendre Yi = 2µ − Xi

2 Si Xi = F−1(Ui), prendre Yi = F−1(1 − Ui)

3 Si (Ai)i est une partition de X , echantillonnage partitionne enprenant des Xj dans chaque Ai (necessite de connaıtrePr(Ai))

Variables de controle

∫h(x)f(x)dx

a evaluer et

∫h0(x)f(x)dx

connueOn estime quand meme I0 par I0 (et I par I)

Variables de controle (2)

Estimateur combine

I∗ = I + β(I0 − I0)

I∗ est sans biais pour I et

var(I∗) = var(I) + β2var(I) + 2βcov(I, I0)

Variables de controle (3)

Choix optimal de β

β⋆ = −cov(I, I0)

var(I0),

avecvar(I⋆) = (1 − ρ2) var(I) ,

ou ρ correlation entre I et I0

Example (Approximation de quantiles)

Soit a evaluer

= Pr(X > a) =

∫ ∞

af(x)dx

I(Xi > a), Xiiid∼ f

avec Pr(X > µ) = 12

Example (Approximation de quantiles (2))

La variable de controle

I(Xi > a) + β

I(Xi > µ) − Pr(X > µ)

ameliore ˆ si

β < 0 et |β| < 2cov(δ1, δ3)

var(δ3)= 2

Pr(X > a)

Pr(X > µ).

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

l’estimateurI∗ = Ef [I|Y1, . . . , Yn]

domine I(X1, . . . , Xn) en variance (et est aussi sans biais)

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

La loi de Student peut etre simulee par

X|y ∼ N (µ, σ2y) et Y −1 ∼ χ2ν .

Example (Esperance de loi de Student (2))

La moyenne empirique

exp(−X2j ) ,

peut etre amelioree a partir de l’echantillon joint

((X1, Y1), . . . , (Xm, Ym))

puisque

E[exp(−X2)|Yj ] =1

1√2σ2Yj + 1

est l’esperance conditionnelle

Example (Esperance de loi de Student (3))

Dans ce cas particulier, la precision est dix fois plus grande

0 2000 4000 6000 8000 10000

Estimateurs de E[exp(−X2)]: moyenne empirique (traitspleins) contre esperance conditionnelle (pointilles) pour(ν, µ, σ) = (4.6, 0, 1).

Methode du bootstrap

Chapitre 3 :Methode du bootstrap

IntroductionLe theoreme de GlivenkoCantelliBootstrapBootstrap parametrique

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitude

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitudePuisque fonde sur un echantillon aleatoire, un estimateur

δ(X1, . . . , Xn)

est aussi (une variable) aleatoire

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Introduction

Variation moyenne

Question 1 :

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Introduction

Variation moyenne

Question 1 :

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Question 3 :

Quelle est la distribution de δ(X1, . . . , Xn) ?

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

100∑

Introduction

100∑

Moyennes de 100 points pour 200 echantillons

−0.2 −0.1 0.0 0.1 0.2 0.3

Introduction

100∑

Moyennes de 100 points pour 200 echantillons

−0.2 −0.1 0.0 0.1 0.2 0.3

Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)

Introduction

Problemes correspondants

On observe un seul echantillon en general

Introduction

La loi de l’echantillon est souvent inconnue

Introduction

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

Introduction

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Introduction

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Quid de σ ?!

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

Fn(x) est un estimateur convergent de la fonction derepartition F (x)

[Glivenko–Cantelli]

Fn(x) −→ Pr(X ≤ x)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 20.0

0.20.4

0.60.8

Estimation de la fonction de repartition F a partir d’unechantillon normal de 100 points et variation de cetteestimation sur 200 echantillons normaux

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Robustesse contre efficacite : si la forme [parametrique] dela loi est connue, meilleure approximation fondee sur cetteforme, mais si on se trompe de [forme de] loi, le resultat peutetre bien pire !

Fonction de repartition de N (θ, 1), Φ(x − θ)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

Estimation de Φ(· − θ) par Fn et Φ(· − θ) a partir de 100points et variation maximale de ces estimations sur 200replications

Example (Echantillon non-normal)

Echantillon provenant de

0.3N (0, 1) + 0.7N (2.5, 1)

faussement alloue a une loi normale Φ(· − θ)

−2 −1 0 1 2 3 4

Estimation de F par Fn et Φ(· − θ) a partir d’un echantillonde melange de 100 points et variation de ces estimations sur200 echantillons de melange

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]utilisation de l’approximation

θ(F ) = θ(Fn)

∫h(x) dFn(x)

[Estimateur des moments]

Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

−0.4 −0.2 0.0 0.2 0.4

Histogramme des medianes

−0.4 −0.2 0.0 0.2 0.4

Histogramme des moyennes

Comparaison des variations des moyennes et des medianessur 200 echantillons normaux

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

on remplace F par Fn :

θ(Fn) ≈ θ(X∗1 , . . . , X∗

n) avec X∗1 , . . . , X∗

ni.i.d.∼ Fn

Bootstrap

Implementation

Fn etant connue, on peut simuler suivant Fn, donc approcher la loide θ(X∗

1 , . . . , X∗n) [au lieu de celle de θ(X1, . . . , Xn)]

La loi correspondant a

Fn(x) =card {Xi; Xi ≤ x}

donne une probabilite de 1/n a chaque point de {x1, . . . , xn} :

PrFn(X∗ = xi) =1

Il suffit donc d’operer des tirages avec remise dans (X1, . . . , Xn)

[en R, sample(x,n,replace=T)]

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

Bootstrap

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

Bootstrap

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

2 Utiliser l’echantillonθ1, . . . , θB

pour approcher la distribution de

θ(X1, . . . , Xn)

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

Bootstrap

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

Bootstrap

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

il peut donc prendre nn valeurs (ou(2n−1

)valeurs si on ne

considere pas l’ordre)

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

Variation des moyennes empiriques sur 200 echantillonsbootstrap et moyenne de l’echantillon observe

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

et son approximation bootstrap est

η(Fn) =

√EFn [(θ(X1, . . . , Xn) − EFn [θ(X1, . . . , Xn)])2]

Bootstrap

Example (Calcul de la variation moyenne (2))

Approximation elle-meme approchee par

η(Fn) =

(θ(Xb1, . . . , X

bn) − θ)2

θ(Xb1, . . . , X

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

Intervalle de variation bootstrap a ±2η(Fn) et moyenne del’echantillon observe

Bootstrap

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Bootstrap

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Comparaison des intervalles de confiance

[x − 2 ∗ σx/10, x + 2 ∗ σx/10] = [−0.113, 0.327]

[approximation normale]

[x∗ − 2 ∗ σ∗, x∗ + 2 ∗ σ∗] = [−0.116, 0.336]

[approximation bootstrap normale]

[q∗(0.025), q∗(0.975)] = [−0.112, 0.336]

[approximation bootstrap generique]

Bootstrap

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

Approximation normale

Intervalle normal

Intervalle bootstrap

normal

Intervalle bootstrap generique

Intervalles de variation a 95% pour un echantillon de 100points et 200 repliques bootstrap

Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

une evaluation de F plus efficace que Fn est fournie par

ou λn est un estimateur convergent de λ[Cf Exemple 40]

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Peut eviter le recours a la simulation dans certains cas

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.Un estimateur possible est

λ(x1, . . . , xn) =n∑n

i=1 xi

mais cet estimateur est biaise :

Eλ[λ(X1, . . . , Xn)] 6= λ

Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Quelle est la loi de cet estimateur ?

Evaluation bootstrap du biais

λ(x1, . . . , xn) − Eλ(x1,...,xn)[λ(X1, . . . , Xn)]

[Forme parametrique]

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)]

[Forme non-parametrique]

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n − 1λ

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n − 1λ

donc le biais est analytiquement evalue comme

−λ/n − 1

estime par

− λ(X1, . . . , Xn)

n − 1= −0.00787

Dans le second cas (non-parametrique), evaluation par MonteCarlo,

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)] = 0.00142

qui est du “mauvais” signe

Construction d’un intervalle de confiance sur λPar bootstrap parametrique,

(λ1 ≤ λ ≤ λ2

(ω1 ≤ λ/λ ≤ ω2

)= 0.95

peut etre deduit deλ/λ ∼ Ga(n, n)

[En R, qgamma(0.975,n,1/n)]

[λ1, λ2] = [0.452, 0.580]

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Approximation des quantiles q∗(.025) et q∗(.975) de λ(Fn) parechantillonnage bootstrap (Monte Carlo)

[q∗(.025), q∗(.975)] = [0.454, 0.576]

0.45 0.50 0.55 0.60

parametrique

non−parametrique

Example (Echantillon Student)

X1, . . . , Xni.i.d.∼ T(5, µ, τ2)

def= µ + τ

N (0, 1)√χ2

On peut alors estimer µ et τ par

µn =1

Xi τn =

√5 − 2

√√√√ 1

(Xi − µ)2

√5 − 2

Example (Echantillon Student (2))

Probleme

µn n’est pas distribuee comme une loi de Student T(5, µ, τ2/n)On doit donc reconstituer la loi de µn par echantillonnagebootstrap.

Example (Echantillon Student (3))

Comparaison des intervalles de confiance

[µn − 2 ∗ σn/10, µn + 2 ∗ σn/10] = [−0.068, 0.319]

[approximation normale]

[q∗(0.05), q∗(0.95)] = [−0.056, 0.305]

[approximation bootstrap parametrique]

[q∗(0.05), q∗(0.95)] = [−0.094, 0.344]

[approximation bootstrap non-parametrique]

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

Intervalle normal a 2 SD

nonparametrique

Intervalle normal a 2 SD

parametrique

Intervalles de variation a 95% pour un echantillon de 150points et 400 repliques bootstrap (haut) non-parametriqueset (bas) parametriques

Statistique non–parametrique

Chapitre 4 :Statistique non–parametrique :

Rudiments

IntroductionEstimation de la densiteTests non-parametriques

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Probleme non-parametrique par opposition au contexteparametrique ou F (·) = Gθ(·) et seul θ est inconnu.

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Introduction

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Introduction

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Estimation de fonctions dependant de F

F f(x) =dF

dx(x) EF [h(X1)|X2 = x]

Estimation de la densite

Pour estimer

f(x) =dF

[densite de X]

Pour estimer

f(x) =dF

[densite de X]on peut songer a prendre

fn(x) =dFn

Pour estimer

f(x) =dF

[densite de X]on peut songer a prendre

fn(x) =dFn

maisFn n’est pas derivable !

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

en choisissant les ωi tels que

ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai, ai+1[)

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]

Par exemple,

ωi(ai+1 − ai) =1

I[ai,ai+1[(Xi)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

Par exemple,

ωi(ai+1 − ai) =1

I[ai,ai+1[(Xi)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

[Attention aux effets de bord !]

hist(x)$density

En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks lesvaleurs des ai

Il est preferable d’utiliser les valeursproduites par hist(x)$density pourcontruire une fonction lineaire parmorceaux par plot(hist(x)$density)plutot qu’une fonction par escalier.

−2 −1 0 1 2 30

Estimateur par histogrammepour k = 45 et 450observations normales

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

πiU([ai, ai+1])

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

πiU([ai, ai+1])

Equivalent a une approximation lineaire par morceaux de lafonction de repartition

Fn(x) =n∑

πix − ai

ai+1 − aiI[ai,ai+1[(x)

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Defauts

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

Defauts

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

Defauts

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

mais... ai+1 − ai ne doit pas decroıtre trop vite vers 0 pourque l’estimation πi soit convergente : il faut suffisammentd’observations par intervalle [ai, ai+1]

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

[nclass=9 et nclass=12 dans l’exemple suivant]

−2 −1 0 1 2 3

k = 15

−2 −1 0 1 2 3

k = 25

−2 −1 0 1 2 3

k = 35

−2 −1 0 1 2 3

k = 45

−2 −1 0 1 2 3

k = 55

−2 −1 0 1 2 3

k = 65

−2 −1 0 1 2 3

k = 75

−2 −1 0 1 2 3

k = 85

Variation des estimateurs par histogramme en fonction de kpour un echantillon normal de 450 observations

Estimateur du noyauPartant de la definition

f(x) =dF

dx(x) ,

on peut utiliser l’approximation

f(x) =Fn(x + δ) − Fn(x − δ)

{IXi<x+δ − IXi<x−δ}

I[−δ,δ](x − Xi)

pour δ assez petit.[Bon point : f est une densite]

Interpretation analytique et probabiliste

fn(x) =Nb. observations proches de x

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Interpretation analytique et probabiliste

fn(x) =Nb. observations proches de x

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Representation de fn comme somme ponderee d’uniformes

U([Xi − δ, Xi + δ])

[Cf. lien avec bootstrap]

−2 −1 0 1 2 3 4

bandwith 0.1

−2 0 2 4

bandwith 0.5

−2 0 2 4

bandwith 1

−10 −5 0 5 10

bandwith 10

Variation des estimateurs du noyau uniforme en fonction de δpour un echantillon non-normal de 200 observations

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

(x − Xi

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

(x − Xi

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

En R, density(x)

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Conclusion : Peu d’influence sur l’estimation de f (a l’exceptiondu noyau uniforme [kernel=”rectangular” ou ”r”]).

−4 −2 0 2 4 6

Noyau uniforme

−4 −2 0 2 4 6

Noyau triangulaire

−4 −2 0 2 4 6

Noyau normal

−4 −2 0 2 4 6

Noyau d’Epanechnikov

Variation des estimateurs du noyau en fonction du noyaupour un echantillon non-normal de 200 observations

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Si δ petit, peu de Xi contribuent a l’estimation de f(x)[Under-smoothing]

−2 0 2 4

bandwith 0.5

−2 0 2 4

bandwith 1

−4 −2 0 2 4 6

bandwith 2.5

−6 −4 −2 0 2 4 6 8

bandwith 5

Variation de fn en fonction de δ pour un echantillonnon-normal de 200 observations

Fenetre optimale

En etudiant l’erreur moyenne integree

d(f, fn) = E

[∫{f(x) − fn(x)}2 dx

on peut trouver un choix optimal pour la fenetre δ, notee hn poursouligner sa dependence a n.

Fenetre optimale (bis)

De la decomposition

∫ {f(x) − E

]}2dx +

∫var{f(x)}dx ,

[Biais2+variance]et des approximations

f(x) − E

]≃ f ′′(x)

[exp{−(Xi − x)2/2h2

n}√2πhn

]≃ f(x) ,

[Exercice]

Fenetre optimale (ter)

on en deduit que le biais est de l’ordre de

∫ {f ′′(x)

dx h4n

et que le terme de variance est approximativement

√2π

∫f(x) dx =

√2π

[Exercice]

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

La fenetre optimale est donnee par

h⋆n =

(√2π

∫ {f ′′(x)

}2dx n

)−1/5

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Fenetre empirique

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Fenetre empirique

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Warning! Cette formule n’est pas celle utilisee par defaut dans R

Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

la reponse statistique se fonde sur les donnees

X1, . . . , Xn ∼ F

pour decider si oui ou non la question [l’hypothese] estcompatible avec ces donnees.

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

2 accepter l’hypothese a tort (Type II)

Il faudrait donc balancer ces deux types d’erreur.

La problematique des tests statistiques (ter)

En pratique, on se concentre sur le type I et on decide de rejeterl’hypothese seulement si les donnees semblent significativementincompatibles avec cette hypothese.

0 1 2 3 4

Acceptation

Accepter une hypothese apres un test signifie seulement queles donnees n’ont pas rejete cette hypothese !!!

Comparaison de distributions

Example (Deux distributions egales ?)

Soient deux echantillons X1, . . . , Xn et Y1, . . . , Ym, dedistributions respectives F et G, inconnues.Comment repondre a la question

F == G ?

Example (Comparaison de distributions (suite))

Idee :

Comparer les estimateurs de F et G,

Fn(x) =1

IXi≤x et Gm(x) =1

IYi≤x

Statistique de Kolmogorov–Smirnov

−4 −2 0 2 4 6

Meme distribution difference maximale 0.05

−4 −2 0 2 4 60.

Deux distributions difference maximale 0.14

Evaluation via la difference

K(m, n) = maxx

∣∣∣Fn(x) − Gm(x)∣∣∣ = max

∣∣∣Fn(x) − Gm(x)∣∣∣

−4 −2 0 2 4 6

−0.0

Meme distribution difference maximale 0.05

−4 −2 0 2 4 6

Deux distributions difference maximale 0.14

Evolution de la difference Fn(x)− Gm(x) pour deux situations

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

En R, ks.test(x,y)

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .On peut se ramener a la comparaison de deux echantillonsuniformes et utiliser la simulation pour approcher la distribution deK(m, n) et ses quantiles.

m=200,n=200

0.05 0.10 0.15

1015 Valeur

observee

Quantile a 95%

Calibration du test (suite)

Si K(m, n) observe depasse le quantile de K(m, n) sous H0 a 90ou 95 %, la valeur est tres improbable

si F = G

et on rejette l’hypothese d’egalite des deux distributions.

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sided

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sidedp-value = 0.964 signifie que la probabilite que K(m, n) depasse lavaleur observee D = 0.05 est de 0.964, donc la valeur observee estpetite pour la distribution de K(m, n) : on accepte l’hypothesed’egalite.

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)Question

X ⊥ Y ?

Test de rang

Idee :

Si on range les Xi par ordre croissant

X(1) ≤ . . . X(n)

les rangs Ri (ordres apres rangement) des Yi correspondants,

Y[1], . . . , Y[n],

doivent etre completement aleatoires.

En R, rank(y[order(x)])

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

[Correlation entre i et Ri]

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

[Correlation entre i et Ri]On montre que, si X ⊥ Y ,

E[Sn] =n(n + 1)2

4var(Sn) =

n2(n + 1)2(n − 1)

Statistique de Spearman

Distribution de Sn disponible par simulation [uniforme] ouapproximation normale

Distribution de S sur 500 echantillons de 200 points

−2 −1 0 1 2 3

Version recentree de la statistique de Spearman etapproximation normale

Statistique de Spearman (suite)

On peut donc determiner les quantiles a 5% et 95% de Sn parsimulation et decider si la valeur observee de Sn est a l’interieur deces quantiles ( = on accepte l’independence) ou a l’exterieur ( =on rejette l’independence)

Tests multinomiaux

Example (Test du chi deux)

Une approche par histogramme permet d’apporter une reponserobuste aux problemes de test, comme par exemple a la question

L’echantillon X1, . . . , Xn est il normal N (0, 1) ?

On remplace le probleme par sa forme discretisee a des intervalles[ai, ai+1]

Est ce que

P (Xi ∈ [ai, ai+1]) =

∫ ai+1

exp(−x2/2)√2π

dxdef= pi ?

Principe

Modelisation multinomiale

On se ramene toujours a un probleme d’adequation a une loimultinomiale

(p01, . . . , p

ou a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

∫ ai+1

exp(−x2/2)√2π

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

∫ ai+1

exp(−x2/2)√2π

Dans le cas de l’adequation a une loi normale, N (θ, 1), lespi(θ) sont donnes par

pi(θ) =

∫ ai+1

exp(−(x − θ)2/2)√2π

Exemples (suite)

Dans le cas d’un test d’independence entre deux variables, Xet Y ,

X ⊥ Y ?

k est le nombre de cubes [ai, ai+1] × [bi, bi+1], θ est definicomme

θ1i = P (X ∈ [ai, ai+1]) θ2i = P (Y ∈ [bi, bi+1])

pi,j(θ)def= P (X ∈ [ai, ai+1], Y ∈ [bi, bi+1])

= θ1i × θ2j

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]La statistique du chi-deux est

Sn = nk∑

(pi − p0i )

(ni − np0i )

si on teste l’adequation a une loi multinomiale

(p01, . . . , p

Test du chi-deux (suite)

Sn = nk∑

(pi − pi(θ))2

pi(θ)

(ni − npi(θ))2

npi(θ)

si on teste l’adequation a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Loi approchee

Pour l’adequation a une loi multinomiale, la loi de Sn estapproximativement (pour n grand)

Sn ∼ χ2k−1

et pour l’adequation a une famille de lois multinomiales, avecdim(θ) = p,

Sn ∼ χ2k−p−1

0 5 10 15 20

Distributions of Sn

Distribution de Sn pour 200 echantillons normaux de 100points et un test d’adequation a N (0, 1) avec k = 4

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]La convergence (en n) vers une loi χ2

k−1 (ou χ2k−p−1) n’est etablie

que pour k et (ai) fixes. En pratique, on choisit k et (ai) enfonction des observations, ce qui diminue la validite del’approximation.

−4 −2 0 2 4

−2−1

Normal Q−Q Plot

Quantile normal

tile o

0 5000 10000 15000 200000

QQ-plot d’un echantillon non-normal et evolution de Sn enfonction de n pour cet echantillon

noise: statistiques exploratoires avec r

Education

this ain't noise #6

dev/shm/mplot · title /dev/shm/mplot.eps author:...

conclusions des trois séminaires exploratoires : geneviève...

edito - noise-web.com

directiva ce 14_2000 noise emissions

rapports statistiques annuels des...

demandes syndicales - sfpq · détaillées étudiées...

summary report investigation of noise, durability ... noise...

statistiques descriptives : paramètres statistiques ·...

kanto h650 vibration roller kanto tekko co., ltd · 2018....

perception of living conditions, noise and air quality in

rényi entropy measure of noise-aided information...

cavitation noise[1]

classical phase-amplitude description of optical amplifier...

recherche de motifs par méthodes exploratoires:

statistiques sur les « groupes financiers · statistiques...

noise and vibration management plan...noise and vibration...

les marches exploratoires - api-site.paris.fr 10-...

marine pollution bulletin · to noise ratios (snr). the...

conclusions des trois séminaires exploratoires :...