noise: statistiques exploratoires avec r

Post on 20-Jun-2015

1.945 Views

Category:

Education

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Slides of my R class at Université Paris Dauphine (in French)

TRANSCRIPT

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Nouveaux outils informatiquespour la Statistique exploratoire

(=NOISE)

Christian P. Robert

Universite Paris Dauphinehttp://www.ceremade.dauphine.fr/~xian

L3 MI2E, 2009–2010

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Outline

1 Simulation de variables aleatoires

2 Methodes de Monte Carlo

3 Methode du bootstrap

4 Statistique non–parametrique

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Chapitre 1 :Simulation de variables aleatoires

IntroductionGenerateur pseudo-aleatoireDistributions non-uniformes (1)Distributions non-uniformes (2)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Introduction

Besoin de “produire le hasard” par ordinateur

Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)

Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]

Validation d’un modele probabiliste

Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]

Maximiser une fonction/vraisemblance faiblement reguliere

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (TCL pour la loi binomiale)

SiXn ∼ B(n, p) ,

Xn converge en loi vers la loi normale :

√n (Xn − p)

n→∞ N

(0,

p(1 − p)

n

)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

n= 4

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

n= 8

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

n= 16

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

05

1015

20

n= 32

0.2 0.3 0.4 0.5 0.6 0.7 0.8

02

46

810

14

n= 64

0.3 0.4 0.5 0.6

05

1015

2025

n= 128

0.35 0.40 0.45 0.50 0.55 0.60 0.65

05

1015

n= 256

0.40 0.45 0.50 0.55 0.60

05

1020

30

n= 512

0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58

05

1015

2025

n= 1024

0.46 0.48 0.50 0.52 0.54

010

2030

4050

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire)

On considere la fonction

h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)

+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,

a minimiser. (On sait que le minimum global vaut 0 en(x, y) = (0, 0).)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

-1

-0.5

0

0.5

1

X

-1

-0.5

0

0.5

1

Y

01

23

45

6Z

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Example (Minimisation aleatoire (2))

Au lieu de chercher a resoudre les equations du premier ordre

∂h(x, y)

∂x= 0 ,

∂h(x, y)

∂y= 0

et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2

θj+1 = θj +αj

2βj∆h(θj , βjζj) ζj

ou

⋄ les ζj sont uniformes sur le cercle unite x2 + y2 = 1;

⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);

⋄ (αj) et (βj) tendent vers 0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

-0.2 0.0 0.2 0.4 0.6

0.2

0.4

0.6

0.8

Cas ou αj = 1/10 log(1 + j) et βj = 1/j

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Recherche du cout globalminimum

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme du voyageur de commerce

Probleme classique d’allocation:

Representant devant visiterun ensemble de n villes

Couts de voyages entre deuxvilles fixes [et differents]

Recherche du cout globalminimum

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifs

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme NP-complet

Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)Probleme a nombreusesapplications (reseaux,conception de circuitsimprimes, sequencage degenome, etc.) Concours Procter & Gamble

1962

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Probleme toujours ouvert

Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.

Resolution pour les 24, 978 villessuedoises en 2004 en 84.8 anneesCPU

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Resolution par simulation

Algorithme du recuit simule:Repeter

Modifications aleatoires de parties du circuit de cout C0

Evaluation du cout C du nouveau circuit

Acceptation du nouveau circuit avec probabilite

exp

{C0 − C

T

}∧ 1

T , temperature, est reduite progressivement.[Metropolis, 1953]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 1.2

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.8

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.4

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Illustration

Example (400 villes)

T = 0.0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options

Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]

Example (Options europeennes)

Cas ouCT = (ST − K)+

avec

ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .

Resolution par simulation des binomiales Yi

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Introduction

Pricing d’options (suite)

Example (Options asiatiques)

Modele en temps continu ou

CT =

(1

T

∫ T

0S(t)dt − K

)+

≈(

1

T

T∑

n=1

S(n) − K

)+

,

avec

S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .

Resolution par simulation des normales ∆Xi

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)

Definition (Generateur pseudo-aleatoire)

Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite

{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}

a le meme comportement statistique qu’une suite iid U (0, 1)

¡Paradoxe!

Sans appel au “hasard”, la suite deterministe(u0, u1 = Ψ(u0), . . . , un = Ψ(un−1))doit ressembler a une suite aleatoire

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En R, appel a la procedure

runif( )

Description:‘runif’ generates random deviates.Example:u = runif(20)‘Random.seed’ is an integer vector, containing the random numbergenerator (RNG) state for random number generation in R. It canbe saved and restored, but should not be altered by the user.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

500 520 540 560 580 600

0.0

0.2

0.4

0.6

0.8

1.0

uniform sample

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En C, appel a la procedure

rand() / random()

SYNOPSIS# include <stdlib.h>long int random(void);DESCRIPTIONThe random() function uses a non-linear additive feedback randomnumber generator employing a default table of size 31 longintegers to return successive pseudo-random numbers in the rangefrom 0 to RAND MAX. The period of this random generator isvery large, approximately 16*((2**31)-1).RETURN VALUErandom() returns a value between 0 and RAND MAX.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

En Scilab, appel a la procedure

rand()

rand() : with no arguments gives a scalar whose value changeseach time it is referenced. By default, random numbers areuniformly distributed in the interval (0,1). rand(’normal’) switchesto a normal distribution with mean 0 and variance 1.rand(’uniform’) switches back to the uniform distributionEXAMPLEx=rand(10,10,’uniform’)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Example (Generateur usuel)

Le generateur congruenciel

D(x) = (ax + b) mod (M + 1).

est de periode M pour les bons choix de (a, b) et se transforme engenerateur sur ]0, 1[ par division par M + 2.

v = u*69069069 (1)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

1.2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

t

t+10

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Generateur pseudo-aleatoire

Conclusion :

Utiliser la fonction appropriee sur l’ordinateur ou le logiciel enservice plutot que de construire un generateur aleatoire demauvaise qualite

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres distributions que la loi uniforme (1)

Probleme regle en principe puisque

Theorem (Inversion generique)

Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1

X (U) a meme loi que X

Preuve. On a

P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)

Note. Si FX n’est pas strictement croissante, on prend

F−1X (u) = inf {x; FX(x) ≥ u}

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Applications...

Loi binomiale, B(n, p),

FX(x) =∑

i≤x

(n

i

)pi(1 − p)n−i

et F−1X (u) s’obtient numeriquement

Loi exponentielle, E xp(λ),

FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ

Loi de Cauchy, C (0, 1),

FX(x) =1

πarctan(x)+

1

2et F−1

X (u) = tan(π(u−1/2))

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Autres transformations...

[Indice]

Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues

Example (Transformation de Box-Muller)

Pour la loi normale N (0, 1), si X1, X2i.i.d.∼ N (0, 1),

X21 + X2

2 ∼ χ22, arctan(X1/X2) ∼ U ([0, 2π])

[Jacobien]Comme χ2

2 est identique a E xp(1/2), il vient par inversion

X1 =√−2 log(U1) sin(2πU2) X2 =

√−2 log(U1) cos(2πU2)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.

Example

La loi de Cauchy se deduit de la loi normale par : si

X1, X2i.i.d.∼ N (0, 1), X1/X2 ∼ C (0, 1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Example

La loi Beta B(α, β), de densite

fX(x) =Γ(α + β)

Γ(α)Γ(β)xα−1(1 − x)β−1 ,

s’obtient a partir de la loi gamma par: si X1 ∼ G a(α, 1),X2 ∼ G a(β, 1), alors

X1

X1 + X2∼ B(α, β)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Lois multidimensionnelles

Soit a generer dans Rp

(X1, . . . , Xp) ∼ f(x1, . . . , xp)

dont les composantes ne sont pas necessairement independantes

Cascade rule

f(x1, . . . , xp) = f1(x1) × f2|1(x2|x1) . . . × fp|−p(xp|x1, . . . , xp−1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (1)

Implementation

Simuler pour t = 1, . . . , T

1 X1 ∼ f1(x1)

2 X2 ∼ f2|1(x2|x1)

...

p. Xp ∼ fp|−p(xp|x1, . . . , xp−1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

lemme d’inversion ne s’applique qu’en dimension 1

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Autres distributions que la loi uniforme (2)

F−1X rarement disponible

algorithme resident sur machine seulement pour lois usuelles

lemme d’inversion ne s’applique qu’en dimension 1

nouvelle distribution demandant resolution rapide

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Methode d’acceptation–rejet

Distribution de densite f a simuler

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Methode d’acceptation–rejet

Distribution de densite f a simuler

Theorem (fondamental de la simulation)

La loi uniforme sur le sous-graphe

Sf = {(x, u); 0 ≤ u ≤ f(x)}

a comme loi marginale en x la loide densite f .

0 2 4 6 8 100.0

00.0

50.1

00.1

50.2

00.2

5

x

f(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Raison :

Loi marginale donnee par

∫ ∞

0I0≤u≤f(x)du = f(x)

et independance a la constante de normalisation

Example

Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans

{(u, x); 0 ≤ u ≤ exp(−x2/2)}

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme d’acceptation-rejet

1 Trouver une densite g simulable telle que

supx

f(x)

g(x)= M < ∞

2 Generer

Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .

i.i.d.∼ U ([0, 1])

3 Prendre X = Yk ou

k = inf{n ; Un ≤ f(Yn)/Mg(Yn)}

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Acceptation–rejet)

La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX

Preuve (1) : On a

P (X ≤ x) =∞∑

k=1

P (X = Yk , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1

P (Uk ≤ f(Yk)/Mg(Yk) , Yk ≤ x)

=∞∑

k=1

(1 − 1

M

)k−1 ∫ x

−∞

∫ f(y)/Mg(y)

0du g(y)dy

=∞∑

k=1

(1 − 1

M

)k−1 1

M

∫ x

−∞f(y)dy

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Preuve (2)

Si (X, U) est uniforme surA ⊃ B, la distribution de (X, U)retreinte a B est uniforme sur B.

−4 −2 0 2 4

01

23

45

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Proprietes

Fonctionne sans constante de normalisation

Ne necessite pas une borne exacte M

Autorise le recyclage des Yk pour une autre loi f (les Yk

refuses ne sont plus de loi g)

Demande en moyenne M va Yk pour un X (mesured’efficacite)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Example

Soit f(x) = exp(−x2/2) et g(x) = 1/(1 + x2)

f(x)

g(x)= (1 + x2) e−x2/2 ≤ 2/

√e

Probabilite d’acceptation√

e/2π = 0.66

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Theorem (Enveloppe)

S’il existe une densite gm, une fonction gl et une constante Mtelles que

gl(x) ≤ f(x) ≤ Mgm(x) ,

alors

1 Generer X ∼ gm(x), U ∼ U[0,1];

2 Accepter X si U ≤ gl(X)/Mgm(X);

3 sinon, accepter X si U ≤ f(X)/Mgm(X)

donne des variables aleatoires suivant la loi f .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Algorithme du rapport d’uniformesSlice sampler

Resultat :

Simulation uniforme sur

{(u, v); 0 ≤ u ≤√

2f(v/u)}

produitX = V/U ∼ f

Raison :

Changement de variable (u, v) → (x, u) de Jacobien u et loimarginale de x donnee par

x ∼∫ √

2f(x)

0u du =

√2f(x)

2

2= f(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Simulation de variables aleatoires

Distributions non-uniformes (2)

Example

Pour une loi normale, simuler(u, v) au hasard dans

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

0.0

0.2

0.4

0.6

u

v

{(u, v); 0 ≤ u ≤√

2 e−v2/4u2} = {(u, v); v2 ≤ −4 u2 log(u/√

2)}

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Chapitre 2 :Methodes de Monte Carlo

IntroductionIntegration par la methode de Monte CarloFonctions d’importanceMethodes d’acceleration

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Utilisations de la simulation

1 integration

I = Ef [h(X)] =

∫h(x)f(x)dx

2 comportement limite/stationnaire de systemes complexes

3 optimisation

arg minx

h(x) = arg maxx

exp{−βh(x)} β > 0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie)

Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est

Px,y =exp(α + β · nx,y)

1 + exp(α + β · nx,y)Inx,y>0

si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.La probabilite de guerir de la maladie est

Qx,y =exp(δ + γ · nx,y)

1 + exp(δ + γ · nx,y)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Introduction

Example (Propagation d’une epidemie (2))

Question

En fonction de (α, β, γ, δ), quelle est la vitesse de propagation decette epidemie ? la duree moyenne ? le nombre de personnesinfectees ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Integration par Monte Carlo

Loi des grands nombres

Si X1, . . . , Xn simules suivant f ,

In =1

n

n∑

i=1

h(Xi) −→ I

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Theoreme Central Limit

Evaluation de l’erreur par

σ2n =

1

n2

n∑

i=1

(h(Xi) − I)2

etIn ≈ N (I, σ2

n)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Normale)

Pour une loi normale, E[X4] = 3. Par la methode de Monte Carlo,n 5 50 500 5000 50,000 500,000

In 1.65 5.69 3.24 3.13 3.038 3.029

5 10 50 100 500 1000 5000 10000 50000

0.00.5

1.01.5

2.02.5

3.0

n

In

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale)

On considere le modele joint

X|θ ∼ N (θ, 1), θ ∼ C(0, 1)

Apres observation de X, on estime θ par

δπ(x) =

∫ ∞

−∞

θ

1 + θ2e−(x−θ)2/2dθ

∫ ∞

−∞

1

1 + θ2e−(x−θ)2/2dθ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (Cauchy / Normale (2))

Cette forme δπ suggere de simuler des variables iid

θ1, · · · , θm ∼ N (x, 1)

et de calculer

δπm(x) =

∑mi=1

θi

1 + θ2i

∑mi=1

1

1 + θ2i

.

Par la Loi des Grands Nombres,

δπm(x) −→ δπ(x) quand m −→ ∞.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale)

Approximation de la fonction de repartition de la loi normale

Φ(t) =

∫ t

−∞

1√2π

e−y2/2dy

par

Φ(t) =1

n

n∑

i=1

IXi≤t,

ayant genere un echantillon de taille n, (X1, . . . , Xn), vial’algorithme de Box-Muller.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (2))

• VarianceΦ(t)(1 − Φ(t))/n,

car les variables IXi≤t sont iid Bernoulli(Φ(t)).

• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne

√n =

√2 104

simulations, donc, 200 millions d’iterations.

• Plus grande precision [absolue] dans les queues

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Integration par la methode de Monte Carlo

Example (FdR normale (3))

n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72

102

0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1

103

0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1

104

0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999

105

0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999

106

0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999

107

0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999

108

0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999

Evaluation de quantiles normaux par Monte Carlo fondee surn generations normales.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Fonctions d’importance

Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Fonctions d’importance

Representation alternative :

I =

∫h(x)f(x)dx =

∫h(x)

f(x)

g(x)g(x)dx

Donc, si Y1, . . . , Yn simules suivant g,

In =1

n

n∑

i=1

h(Yi)f(Yi)

g(Yi)−→ I

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Recyclage de simulations Yi ∼ g pour d’autres densites f

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Interet

Fonctionne pour tout choix de g tel que

supp(g) ⊃ supp(f)

Amelioration possible de la variance

Recyclage de simulations Yi ∼ g pour d’autres densites f

Utilisation de lois simples g

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Normale)

Pour la loi normale et l’approximation de E[X4],

∫ ∞

−∞x4e−x2/2dx

[y=x2]= 2

∫ ∞

0y3/2 1

2e−y/2dy

suggere d’utiliser g(y) = exp(−y/2)/2n 5 50 500 5000 50000

In 3.29 2.89 3.032 2.97 3.041

5 10 50 100 500 1000 5000 10000 50000

−0.1

0.00.1

0.20.3

0.40.5

n

In

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Choix de la fonction d’importance

La “bonne” fonction g depend de la densite f et de la fonction h

Theorem (Importance optimale)

Le choix de g minimisant la variance de In est

g⋆(x) =|h(x)|f(x)

I

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

g⋆ depend de I que l’on cherche a estimer (??)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Remarques

Variance finie seulement si

Ef

[h2(X)

f(X)

g(X)

]=

Xh2(x)

f(X)

g(X)dx < ∞ .

Variance nulle pour g⋆ si h positive (!!)

g⋆ depend de I que l’on cherche a estimer (??)

Remplacement de In par moyenne harmonique

In =

∑ni=1 h(yi)/|h(yi)|∑n

i=1 1/|h(yi)|

(numerateur et denominateur sont convergents)souvent mauvais (variance infinie)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Normale)

Pour la loi normale et l’approximation de E[X4],g⋆(x) ∝ x4 exp(−x2/2), loi de la racine d’une G a(5/2, 1/2)

[Exercice]

n 5 50 500 5,000 50,000 500,000

In 4.877 2.566 2.776 2.317 2.897 3.160

1e+01 1e+02 1e+03 1e+04 1e+05

−10

12

n

In

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student)

X ∼ T (ν, θ, σ2), de densite

f(x) =Γ((ν + 1)/2)

σ√

νπ Γ(ν/2)

(1 +

(x − θ)2

νσ2

)−(ν+1)/2

.

Soient θ = 0, σ = 1 et

I =

∫ ∞

2.1x5f(x)dx.

a calculer

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Fonctions d’importance

Example (Loi de Student (2))

• Choix de fonctionsd’importance

◦ f , car f = N (0,1)√χ2

ν/ν

◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])

Resultats:

◦ Uniforme optimale

◦ Cauchy OK

◦ f et Normale mauvaises

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

0 10000 20000 30000 40000 50000

5.05.5

6.06.5

7.0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees

La correlation negative...

Deux echantillons (X1, . . . , Xm) et (Y1, . . . , Ym) suivant f pourestimer

I =

R

h(x)f(x)dx .

Soient

I1 =1

m

m∑

i=1

h(Xi) et I2 =1

m

m∑

i=1

h(Yi)

de moyenne I et variance σ2

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Simulations correlees (2)

...reduit la variance

La variance de la moyenne vaut

var

(I1 + I2

2

)=

σ2

2+

1

2cov(I1, I2).

Par consequent, si les deux echantillons sont negativementcorreles,

cov(I1, I2) ≤ 0 ,

ils font mieux que deux echantillons independants de meme taille

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables antithetiques

Construction de variables negativement correlees

1 Si f symetrique autour de µ, prendre Yi = 2µ − Xi

2 Si Xi = F−1(Ui), prendre Yi = F−1(1 − Ui)

3 Si (Ai)i est une partition de X , echantillonnage partitionne enprenant des Xj dans chaque Ai (necessite de connaıtrePr(Ai))

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle

Soit

I =

∫h(x)f(x)dx

a evaluer et

I0 =

∫h0(x)f(x)dx

connueOn estime quand meme I0 par I0 (et I par I)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle (2)

Estimateur combine

I∗ = I + β(I0 − I0)

I∗ est sans biais pour I et

var(I∗) = var(I) + β2var(I) + 2βcov(I, I0)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Variables de controle (3)

Choix optimal de β

β⋆ = −cov(I, I0)

var(I0),

avecvar(I⋆) = (1 − ρ2) var(I) ,

ou ρ correlation entre I et I0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Approximation de quantiles)

Soit a evaluer

= Pr(X > a) =

∫ ∞

af(x)dx

par

ˆ =1

n

n∑

i=1

I(Xi > a), Xiiid∼ f

avec Pr(X > µ) = 12

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Approximation de quantiles (2))

La variable de controle

1

n

n∑

i=1

I(Xi > a) + β

(1

n

n∑

i=1

I(Xi > µ) − Pr(X > µ)

)

ameliore ˆ si

β < 0 et |β| < 2cov(δ1, δ3)

var(δ3)= 2

Pr(X > a)

Pr(X > µ).

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Integration par conditionnementTirer parti de l’inegalite

var(E[δ(X)|Y]) ≤ var(δ(X))

appelee aussi Theoreme de Rao-Blackwell

Consequence :

Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou

∫f(x, y)dy = f(x),

l’estimateurI∗ = Ef [I|Y1, . . . , Yn]

domine I(X1, . . . , Xn) en variance (et est aussi sans biais)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student)

Soit a calculer

E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)

La loi de Student peut etre simulee par

X|y ∼ N (µ, σ2y) et Y −1 ∼ χ2ν .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student (2))

La moyenne empirique

1

m

m∑

j=1

exp(−X2j ) ,

peut etre amelioree a partir de l’echantillon joint

((X1, Y1), . . . , (Xm, Ym))

puisque

1

m

m∑

j=1

E[exp(−X2)|Yj ] =1

m

m∑

j=1

1√2σ2Yj + 1

est l’esperance conditionnelle

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methodes de Monte Carlo

Methodes d’acceleration

Example (Esperance de loi de Student (3))

Dans ce cas particulier, la precision est dix fois plus grande

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

0 2000 4000 6000 8000 10000

0.50

0.52

0.54

0.56

0.58

0.60

Estimateurs de E[exp(−X2)]: moyenne empirique (traitspleins) contre esperance conditionnelle (pointilles) pour(ν, µ, σ) = (4.6, 0, 1).

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Chapitre 3 :Methode du bootstrap

IntroductionLe theoreme de GlivenkoCantelliBootstrapBootstrap parametrique

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitude

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Alea intrinseque

Estimation a partir d’un echantillon aleatoire = incertitudePuisque fonde sur un echantillon aleatoire, un estimateur

δ(X1, . . . , Xn)

est aussi (une variable) aleatoire

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Variation moyenne

Question 1 :

De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?

Question 2 :

Quelle est la variance de δ(X1, . . . , Xn) ?

Question 3 :

Quelle est la distribution de δ(X1, . . . , Xn) ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Example (Echantillon normal)

Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par

θ =1

100

100∑

i=1

Xi

Moyennes de 100 points pour 200 echantillons

x

−0.2 −0.1 0.0 0.1 0.2 0.3

01

23

45

6

Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Introduction

Problemes correspondants

On observe un seul echantillon en general

La loi de l’echantillon est souvent inconnue

L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme

H0 : θ ≤ 0

En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle

[θ − 2σ, θ + 2σ] .

Quid de σ ?!

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Estimation de la fonction de repartition

Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si

Fn(x) =1

n

n∑

i=1

I]−∞,Xi](x)

=card {Xi; Xi ≤ x}

n,

Fn(x) est un estimateur convergent de la fonction derepartition F (x)

[Glivenko–Cantelli]

Fn(x) −→ Pr(X ≤ x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 20.0

0.20.4

0.60.8

1.0

Estimation de la fonction de repartition F a partir d’unechantillon normal de 100 points et variation de cetteestimation sur 200 echantillons normaux

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Proprietes

Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible

Robustesse contre efficacite : si la forme [parametrique] dela loi est connue, meilleure approximation fondee sur cetteforme, mais si on se trompe de [forme de] loi, le resultat peutetre bien pire !

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Fonction de repartition de N (θ, 1), Φ(x − θ)

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

Estimation de Φ(· − θ) par Fn et Φ(· − θ) a partir de 100points et variation maximale de ces estimations sur 200replications

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon non-normal)

Echantillon provenant de

0.3N (0, 1) + 0.7N (2.5, 1)

faussement alloue a une loi normale Φ(· − θ)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Estimation de F par Fn et Φ(· − θ) a partir d’un echantillonde melange de 100 points et variation de ces estimations sur200 echantillons de melange

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Extension aux fonctionnelles de F

Pour toute expression de la forme

θ(F ) =

∫h(x) dF (x) ,

[Fonctionnelle de la cdf]utilisation de l’approximation

θ(F ) = θ(Fn)

=

∫h(x) dFn(x)

=1

n

n∑

i=1

h(Xi)

[Estimateur des moments]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Le theoreme de GlivenkoCantelli

Example (Echantillon normal)

Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)

−0.4 −0.2 0.0 0.2 0.4

01

23

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des medianes

−0.4 −0.2 0.0 0.2 0.4

01

23

Histogramme des moyennes

Comparaison des variations des moyennes et des medianessur 200 echantillons normaux

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Comment approcher la distribution de θ(Fn) ?

Principe

Comme

θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F

on remplace F par Fn :

θ(Fn) ≈ θ(X∗1 , . . . , X∗

n) avec X∗1 , . . . , X∗

ni.i.d.∼ Fn

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Implementation

Fn etant connue, on peut simuler suivant Fn, donc approcher la loide θ(X∗

1 , . . . , X∗n) [au lieu de celle de θ(X1, . . . , Xn)]

La loi correspondant a

Fn(x) =card {Xi; Xi ≤ x}

n

donne une probabilite de 1/n a chaque point de {x1, . . . , xn} :

PrFn(X∗ = xi) =1

n

Il suffit donc d’operer des tirages avec remise dans (X1, . . . , Xn)

[en R, sample(x,n,replace=T)]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Simulation par Monte Carlo

1 Pour b = 1, . . . , B,1 generer un echantillon Xb

1, . . . ,Xbn suivant Fn

2 construire l’image correspondante

θb = θ(Xb1, . . . ,X

bn)

2 Utiliser l’echantillonθ1, . . . , θB

pour approcher la distribution de

θ(X1, . . . , Xn)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Notesbootstrap = languette de botte

on utilise seulement l’echantillon pour construire uneevaluation de sa loi

[Aventures du Baron de Munchausen ]

un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)

il peut donc prendre nn valeurs (ou(2n−1

n

)valeurs si on ne

considere pas l’ordre)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Variation des moyennes empiriques sur 200 echantillonsbootstrap et moyenne de l’echantillon observe

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne)

Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par

η(F ) =

√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]

et son approximation bootstrap est

η(Fn) =

√EFn [(θ(X1, . . . , Xn) − EFn [θ(X1, . . . , Xn)])2]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Calcul de la variation moyenne (2))

Approximation elle-meme approchee par

η(Fn) =

(1

B

B∑

b=1

(θ(Xb1, . . . , X

bn) − θ)2

)1/2

ou

θ =1

B

B∑

b=1

θ(Xb1, . . . , X

bn)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))

1.4 1.6 1.8 2.0 2.2

0.00.5

1.01.5

2.02.5

3.0

Intervalle de variation bootstrap a ±2η(Fn) et moyenne del’echantillon observe

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon normal)

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

Example (Echantillon normal)

Echantillon(X1, . . . , X100)

i.i.d.∼ N (θ, 1)

Comparaison des intervalles de confiance

[x − 2 ∗ σx/10, x + 2 ∗ σx/10] = [−0.113, 0.327]

[approximation normale]

[x∗ − 2 ∗ σ∗, x∗ + 2 ∗ σ∗] = [−0.116, 0.336]

[approximation bootstrap normale]

[q∗(0.025), q∗(0.975)] = [−0.112, 0.336]

[approximation bootstrap generique]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

4

Approximation normale

Intervalle normal

Intervalle bootstrap

normal

Intervalle bootstrap generique

Intervalles de variation a 95% pour un echantillon de 100points et 200 repliques bootstrap

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametre

Si la forme parametrique de F est connue,

F (·) = Φλ(·) λ ∈ Λ ,

une evaluation de F plus efficace que Fn est fournie par

Φλn

ou λn est un estimateur convergent de λ[Cf Exemple 40]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Boostrap parametrique

Approximation de la loi de

θ(X1, . . . , Xn)

par la loi de

θ(X∗1 , . . . , X∗

n) X∗1 , . . . , X∗

ni.i.d.∼ Φλn

Peut eviter le recours a la simulation dans certains cas

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel)

SoitX1, . . . , Xn

i.i.d.∼ Exp(λ)

et λ = 1/Eλ[X] a estimer.Un estimateur possible est

λ(x1, . . . , xn) =n∑n

i=1 xi

mais cet estimateur est biaise :

Eλ[λ(X1, . . . , Xn)] 6= λ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (2))

Questions :

Comment evaluer le biais

λ − Eλ[λ(X1, . . . , Xn)]

de cet estimateur ?

Quelle est la loi de cet estimateur ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Evaluation bootstrap du biais

Example (Echantillon exponentiel (3))

λ(x1, . . . , xn) − Eλ(x1,...,xn)[λ(X1, . . . , Xn)]

[Forme parametrique]

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)]

[Forme non-parametrique]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (4))

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (4))

Dans le premier cas (parametrique),

1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)

etEλ[λ(X1, . . . , Xn)] =

n

n − 1λ

donc le biais est analytiquement evalue comme

−λ/n − 1

estime par

− λ(X1, . . . , Xn)

n − 1= −0.00787

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (5))

Dans le second cas (non-parametrique), evaluation par MonteCarlo,

λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)] = 0.00142

qui est du “mauvais” signe

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (6))

Construction d’un intervalle de confiance sur λPar bootstrap parametrique,

Prλ

(λ1 ≤ λ ≤ λ2

)= Pr

(ω1 ≤ λ/λ ≤ ω2

)= 0.95

peut etre deduit deλ/λ ∼ Ga(n, n)

[En R, qgamma(0.975,n,1/n)]

[λ1, λ2] = [0.452, 0.580]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (7))

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon exponentiel (7))

Par bootstrap non-parametrique, on remplace

PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95

par

PrFn

(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)

)= 0.95

Approximation des quantiles q∗(.025) et q∗(.975) de λ(Fn) parechantillonnage bootstrap (Monte Carlo)

[q∗(.025), q∗(.975)] = [0.454, 0.576]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

0.45 0.50 0.55 0.60

02

46

810

1214

Intervalle bootstrap

parametrique

Intervalle bootstrap

non−parametrique

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student)

Soit

X1, . . . , Xni.i.d.∼ T(5, µ, τ2)

def= µ + τ

N (0, 1)√χ2

5/5

On peut alors estimer µ et τ par

µn =1

n

n∑

i=1

Xi τn =

√5 − 2

5

√√√√ 1

n

n∑

i=1

(Xi − µ)2

=

√5 − 2

5σn

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student (2))

Probleme

µn n’est pas distribuee comme une loi de Student T(5, µ, τ2/n)On doit donc reconstituer la loi de µn par echantillonnagebootstrap.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

Example (Echantillon Student (3))

Comparaison des intervalles de confiance

[µn − 2 ∗ σn/10, µn + 2 ∗ σn/10] = [−0.068, 0.319]

[approximation normale]

[q∗(0.05), q∗(0.95)] = [−0.056, 0.305]

[approximation bootstrap parametrique]

[q∗(0.05), q∗(0.95)] = [−0.094, 0.344]

[approximation bootstrap non-parametrique]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Methode du bootstrap

Bootstrap parametrique

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

01

23

45

6

Intervalle normal a 2 SD

Intervalle bootstrap

nonparametrique

01

23

45

Intervalle normal a 2 SD

Intervalle bootstrap

parametrique

Intervalles de variation a 95% pour un echantillon de 150points et 400 repliques bootstrap (haut) non-parametriqueset (bas) parametriques

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Chapitre 4 :Statistique non–parametrique :

Rudiments

IntroductionEstimation de la densiteTests non-parametriques

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Probleme :

Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?

X1, . . . , Xni.i.d.∼ F

avec F inconnu

Probleme non-parametrique par opposition au contexteparametrique ou F (·) = Gθ(·) et seul θ est inconnu.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Introduction

Inference statistique non–parametrique

Estimation d’une quantite dependant de F

θ(F ) =

∫h(x) dF (x)

Decision a propos d’une hypothese sur F

F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?

Estimation de fonctions dependant de F

F f(x) =dF

dx(x) EF [h(X1)|X2 = x]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation de la densite

Pour estimer

f(x) =dF

dx(x)

[densite de X]on peut songer a prendre

fn(x) =dFn

dx(x)

maisFn n’est pas derivable !

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme

Une premiere solution est de reproduire la representation enescalier de Fn pour f

fn(x) =k∑

i=1

ωiI[ai,ai+1[(x) a1 < . . . < ak+1

en choisissant les ωi tels que

k∑

i=1

ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai, ai+1[)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimation par histogramme (cont’d)

Par exemple,

ωi(ai+1 − ai) =1

n

n∑

i=1

I[ai,ai+1[(Xi)

= Fn(ai+1) − Fn(ai)

[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)

[Attention aux effets de bord !]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

hist(x)$density

En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks lesvaleurs des ai

Il est preferable d’utiliser les valeursproduites par hist(x)$density pourcontruire une fonction lineaire parmorceaux par plot(hist(x)$density)plutot qu’une fonction par escalier.

−2 −1 0 1 2 30

.00

.10

.20

.30

.40

.5

Estimateur par histogrammepour k = 45 et 450observations normales

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation probabiliste

Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes

k∑

i=1

πiU([ai, ai+1])

Equivalent a une approximation lineaire par morceaux de lafonction de repartition

Fn(x) =n∑

i=1

πix − ai

ai+1 − aiI[ai,ai+1[(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Defauts

Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)

Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f

k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f

mais... ai+1 − ai ne doit pas decroıtre trop vite vers 0 pourque l’estimation πi soit convergente : il faut suffisammentd’observations par intervalle [ai, ai+1]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetres de Scott

Choix “optimal” de la largeur des classes :

hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5

donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)

[nclass=9 et nclass=12 dans l’exemple suivant]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 −1 0 1 2 3

0.00

0.10

0.20

0.30

k = 5

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 15

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 25

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k = 35

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 45

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 55

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 65

−2 −1 0 1 2 3

0.0

0.2

0.4

k = 75

−2 −1 0 1 2 3

0.0

0.2

0.4

0.6

k = 85

Variation des estimateurs par histogramme en fonction de kpour un echantillon normal de 450 observations

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Estimateur du noyauPartant de la definition

f(x) =dF

dx(x) ,

on peut utiliser l’approximation

f(x) =Fn(x + δ) − Fn(x − δ)

=1

2δn

n∑

i=1

{IXi<x+δ − IXi<x−δ}

=1

2δn

n∑

i=1

I[−δ,δ](x − Xi)

pour δ assez petit.[Bon point : f est une densite]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Interpretation analytique et probabiliste

On a

fn(x) =Nb. observations proches de x

2δn

Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ

Representation de fn comme somme ponderee d’uniformes

1

n

n∑

i=1

U([Xi − δ, Xi + δ])

[Cf. lien avec bootstrap]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

bandwith 0.1

−2 0 2 4

0.0

0.1

0.2

0.3

0.4

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−10 −5 0 5 10

0.00

0.04

0.08

0.12

bandwith 10

Variation des estimateurs du noyau uniforme en fonction de δpour un echantillon non-normal de 200 observations

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Extension

Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :

f(x) =1

δn

n∑

i=1

K

(x − Xi

δ

)

ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.

En R, density(x)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Choix de noyaux

Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)

le noyau normal [kernel=”gaussian” ou ”g”]

le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]

K(y) = C {1 − y2}2 I[−1,1](y)

le noyau triangulaire [kernel=”triangular” ou ”t”]

K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)

Conclusion : Peu d’influence sur l’estimation de f (a l’exceptiondu noyau uniforme [kernel=”rectangular” ou ”r”]).

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau uniforme

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau triangulaire

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau normal

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

Noyau d’Epanechnikov

Variation des estimateurs du noyau en fonction du noyaupour un echantillon non-normal de 200 observations

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Convergence vers f

Choix de la fenetre δ crucial, par contre !

Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]

Si δ petit, peu de Xi contribuent a l’estimation de f(x)[Under-smoothing]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 0.5

−2 0 2 4

0.00

0.10

0.20

0.30

bandwith 1

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

bandwith 2.5

−6 −4 −2 0 2 4 6 8

0.00

0.05

0.10

0.15

0.20

bandwith 5

Variation de fn en fonction de δ pour un echantillonnon-normal de 200 observations

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale

En etudiant l’erreur moyenne integree

d(f, fn) = E

[∫{f(x) − fn(x)}2 dx

],

on peut trouver un choix optimal pour la fenetre δ, notee hn poursouligner sa dependence a n.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (bis)

De la decomposition

∫ {f(x) − E

[f(x)

]}2dx +

∫var{f(x)}dx ,

[Biais2+variance]et des approximations

f(x) − E

[f(x)

]≃ f ′′(x)

2h2

n

E

[exp{−(Xi − x)2/2h2

n}√2πhn

]≃ f(x) ,

[Exercice]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (ter)

on en deduit que le biais est de l’ordre de

∫ {f ′′(x)

2

}2

dx h4n

et que le terme de variance est approximativement

1

nhn

√2π

∫f(x) dx =

1

nhn

√2π

[Exercice]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre optimale (fin)

Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si

1 hn tend vers 0 et

2 nhn tend vers l’infini.

La fenetre optimale est donnee par

h⋆n =

(√2π

∫ {f ′′(x)

}2dx n

)−1/5

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Estimation de la densite

Fenetre empirique

Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme

hn =0.9 min(σ, q75 − q25)

(1.34n)1/5,

ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.

Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.

Warning! Cette formule n’est pas celle utilisee par defaut dans R

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques

Face a une question sur F , commeEst ce que F est egale a F0, connue ?

la reponse statistique se fonde sur les donnees

X1, . . . , Xn ∼ F

pour decider si oui ou non la question [l’hypothese] estcompatible avec ces donnees.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

2 accepter l’hypothese a tort (Type II)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (bis)

Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)

En prenant une decision sur la question sur F , on peut faire deuxerreurs :

1 refuser l’hypothese a tort (Type I)

2 accepter l’hypothese a tort (Type II)

Il faudrait donc balancer ces deux types d’erreur.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

La problematique des tests statistiques (ter)

En pratique, on se concentre sur le type I et on decide de rejeterl’hypothese seulement si les donnees semblent significativementincompatibles avec cette hypothese.

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Acceptation

Rejet

Accepter une hypothese apres un test signifie seulement queles donnees n’ont pas rejete cette hypothese !!!

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Comparaison de distributions

Example (Deux distributions egales ?)

Soient deux echantillons X1, . . . , Xn et Y1, . . . , Ym, dedistributions respectives F et G, inconnues.Comment repondre a la question

F == G ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Example (Comparaison de distributions (suite))

Idee :

Comparer les estimateurs de F et G,

Fn(x) =1

n

n∑

i=1

IXi≤x et Gm(x) =1

m

m∑

i=1

IYi≤x

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov

−4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Meme distribution difference maximale 0.05

−4 −2 0 2 4 60.

00.

20.

40.

60.

81.

0

Deux distributions difference maximale 0.14

Evaluation via la difference

K(m, n) = maxx

∣∣∣Fn(x) − Gm(x)∣∣∣ = max

Xi,Yj

∣∣∣Fn(x) − Gm(x)∣∣∣

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

−4 −2 0 2 4 6

−0.0

20.

000.

020.

04

Meme distribution difference maximale 0.05

−4 −2 0 2 4 6

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Deux distributions difference maximale 0.14

Evolution de la difference Fn(x)− Gm(x) pour deux situations

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Kolmogorov–Smirnov (suite)

Utilisation :

Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.

[Test de Kolmogorov–Smirnov]

En R, ks.test(x,y)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test

A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .On peut se ramener a la comparaison de deux echantillonsuniformes et utiliser la simulation pour approcher la distribution deK(m, n) et ses quantiles.

m=200,n=200

0.05 0.10 0.15

05

1015 Valeur

observee

Quantile a 95%

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Si K(m, n) observe depasse le quantile de K(m, n) sous H0 a 90ou 95 %, la valeur est tres improbable

si F = G

et on rejette l’hypothese d’egalite des deux distributions.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sided

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Calibration du test (suite)

Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sidedp-value = 0.964 signifie que la probabilite que K(m, n) depasse lavaleur observee D = 0.05 est de 0.964, donc la valeur observee estpetite pour la distribution de K(m, n) : on accepte l’hypothesed’egalite.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test d’independence

Example (Independence)

On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)Question

X ⊥ Y ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang

Idee :

Si on range les Xi par ordre croissant

X(1) ≤ . . . X(n)

les rangs Ri (ordres apres rangement) des Yi correspondants,

Y[1], . . . , Y[n],

doivent etre completement aleatoires.

En R, rank(y[order(x)])

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test de rang (suite)

Rang : On appelleR = (R1, . . . , Rn)

la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est

Sn =n∑

i=1

i Ri

[Correlation entre i et Ri]On montre que, si X ⊥ Y ,

E[Sn] =n(n + 1)2

4var(Sn) =

n2(n + 1)2(n − 1)

144

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Spearman

Distribution de Sn disponible par simulation [uniforme] ouapproximation normale

Distribution de S sur 500 echantillons de 200 points

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Version recentree de la statistique de Spearman etapproximation normale

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Statistique de Spearman (suite)

On peut donc determiner les quantiles a 5% et 95% de Sn parsimulation et decider si la valeur observee de Sn est a l’interieur deces quantiles ( = on accepte l’independence) ou a l’exterieur ( =on rejette l’independence)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Tests multinomiaux

Example (Test du chi deux)

Une approche par histogramme permet d’apporter une reponserobuste aux problemes de test, comme par exemple a la question

L’echantillon X1, . . . , Xn est il normal N (0, 1) ?

Idee:

On remplace le probleme par sa forme discretisee a des intervalles[ai, ai+1]

Est ce que

P (Xi ∈ [ai, ai+1]) =

∫ ai+1

ai

exp(−x2/2)√2π

dxdef= pi ?

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Principe

Modelisation multinomiale

On se ramene toujours a un probleme d’adequation a une loimultinomiale

Mk

(p01, . . . , p

0k

)

ou a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples

Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0

i par

p0i =

∫ ai+1

ai

exp(−x2/2)√2π

dx

Dans le cas de l’adequation a une loi normale, N (θ, 1), lespi(θ) sont donnes par

pi(θ) =

∫ ai+1

ai

exp(−(x − θ)2/2)√2π

dx

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Exemples (suite)

Dans le cas d’un test d’independence entre deux variables, Xet Y ,

X ⊥ Y ?

k est le nombre de cubes [ai, ai+1] × [bi, bi+1], θ est definicomme

θ1i = P (X ∈ [ai, ai+1]) θ2i = P (Y ∈ [bi, bi+1])

et

pi,j(θ)def= P (X ∈ [ai, ai+1], Y ∈ [bi, bi+1])

= θ1i × θ2j

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deuxL’estimateur naturel des pi est

pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)

[Cf. bootstrap]La statistique du chi-deux est

Sn = nk∑

i=1

(pi − p0i )

2

p0i

=

k∑

i=1

(ni − np0i )

2

np0i

si on teste l’adequation a une loi multinomiale

Mk

(p01, . . . , p

0k

)

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Test du chi-deux (suite)

et

Sn = nk∑

i=1

(pi − pi(θ))2

pi(θ)

=k∑

i=1

(ni − npi(θ))2

npi(θ)

si on teste l’adequation a une famille de lois multinomiales

Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Loi approchee

Pour l’adequation a une loi multinomiale, la loi de Sn estapproximativement (pour n grand)

Sn ∼ χ2k−1

et pour l’adequation a une famille de lois multinomiales, avecdim(θ) = p,

Sn ∼ χ2k−p−1

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

Distributions of Sn

Distribution de Sn pour 200 echantillons normaux de 100points et un test d’adequation a N (0, 1) avec k = 4

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

Utilisation et limitations

On rejette l’hypothese testee si Sn est trop grande pour une loiχ2

k−1 ou χ2k−p−1

[En R, pchisq(S)]La convergence (en n) vers une loi χ2

k−1 (ou χ2k−p−1) n’est etablie

que pour k et (ai) fixes. En pratique, on choisit k et (ai) enfonction des observations, ce qui diminue la validite del’approximation.

Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)

Statistique non–parametrique

Tests non-parametriques

−4 −2 0 2 4

−2−1

01

23

Normal Q−Q Plot

Quantile normal

Quan

tile o

bser

ve

0 5000 10000 15000 200000

5010

015

020

0

n

S n

QQ-plot d’un echantillon non-normal et evolution de Sn enfonction de n pour cet echantillon

top related