1 description et estimation Étude dune variable numérique, Étude dune moyenne

Post on 03-Apr-2015

127 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Description et estimation

Étude d’une variable numérique,Étude d’une moyenne

2

Cas Rola-Cola

Les données

consommation boisson achat goût pour le de boisson consommation préférée préalable sucre au cola de chips_________ _________ ____________ ____________ ____________

2 2 1 4 2 1 1 2 8 11 2 2 3 2 1 1 1 2 10 11 1 2 1 7 5 1 1 3 6 7 2 2 1 4 4

.

.

. 1 2 2 5 5 1 1 3 3 1 2 2 1 11 9 1 1 3 9 11 1 2 1 6 8 2 2 3 2 0 1 1 2 5 7

Boisson préférée1 = Rola-Cola2 = Koka-Cola

Achat préalablede Rola-Cola1 = oui2 = non

Goût Sucre1 = oui2= indifférent3 = non

n = 40 personnes

3

Définitions

Population : Ensemble des individus (objets de l’étude) auxquels on s’intéresse.

N = Taille de la population

Échantillon : Une partie de la population

n = Taille de l ’échantillon

Échantillon représentatif : - Chaque individu de la population a exactement la

même probabilité d’appartenir à l ’échantillon.- La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la

précision souhaitée.

4

Étude d’une variable numérique X

Une variable numérique X prend des valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur un échantillon.

Elle est résumée par des statistiques de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type).

La dispersion de X est visualisée par la boîte-à-moustache et l’histogramme.

5

Moyenne et écart-type

Population E chantillon E ffectif N n M oyenne

N

iix

N 1

1

μ de estimation

1

1

n

iix

nx

V ariance

N

iix

N 1

22 )(1

2

1

22

σ de estimation

)(1

1

n

ii xx

ns

É cart-type 2 2ss

6

Commentaire

1) Plus la taille n de l’échantillon est grande, alors plus les chances que soit

proche de sont élevées.

2) Plus l’écart-type (s !!!) est petit, alors plus les chances que soitproche de sont élevées.

x

x

7

Rola-Cola : Résultats statistiques

Descriptive Statistics

40

1

13

5.88

2.97

8.830

N

Minimum

Maximum

Mean

Std. Deviation

Variance

consommation deboisson au cola

Statistics

consommation de boisson au cola3.50

5.50

8.00

25

50

75

Percentiles

8

(x1,…, xn)*

S2

Propriétés des estimations de et 2

222 S de Moyenne)S(E

X de Moyenne)X(E

Ensemble detous les échantillonspossibles

(u1,…, un)*

Xn

ii 1

1x x

n

n2 2ii 1

1s (x x)

n 1

2

2

X et S sont des

estimateurs sans biais

de et

9

Médiane M

La médiane M partage l’échantillon ordonné en deux parties égales

nxxx 21

x1 … x20 x21 … x40

22120 xx

M

10

Échantillon Rola-Cola ordonné

Consommation de boisson NUMÉRO au cola________ ____________

1 1 2 2 3 2 4 2 5 2 6 3 7 3 8 3 9 3 10 3 11 4 12 4 13 4 14 4 15 4 16 5 17 5 18 5 19 5 20 5

Consommation de boisson NUMÉRO au cola________ ____________ 21 6 22 6 23 6 24 6 25 7 26 7 27 7 28 7 29 7 30 8 31 8 32 8 33 9 34 9 35 9 36 10 37 10 38 11 39 12 40 13

11

Quartiles Q1, Q2, Q3

Les quartiles Q1, Q2, Q3 partagent l’échantillon ordonné en quatre parties égales

x1 … x10 x11 … x20 x21 … x30 x31 … x40

Q1Q2 = M Q3

25% 25% 25% 25%

12

Rola-Cola : Boîte-à-Moustache

Consommation de boissons au cola

Q4

14131211109876543210

Minimum

Q1Médiane Q3

Maximum

13

Détection des observations atypiques (Outliers)

La longueur de chaque moustachedoit être inférieure à

)(5.1 13 QQ

Exemple :

Max = 13 (Obs n°12)remplacé par Max = 15

Consommation de boisson au cola

16

14

12

10

8

6

4

2

0

12

14

Rola-Cola : Boîte-à-moustache multiple

131314N =

goût pour le sucre

pas d'accordindifferentd'accordco

nsom

mat

ion

de b

oiss

on a

u co

la

14

12

10

8

6

4

2

0

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne semble pas dépendrepas du goût pour le sucre.

15

Rola-Cola:Histogramme

consommation de boisson au cola

1412108642

12

10

8

6

4

2

0

Std. Dev = 2.97

Mean = 6

N = 40.001

2

5

8

9

10

5

16

Rola-Cola :Graphique des histogrammes

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.

[Population Pyramide]

17

Rola-Cola :Graphique des histogrammes

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.

[Histogram / Panel by rows]

18

Loi normale (ou de Laplace-Gauss)

LAPLACE à Beaumont-en-Auge

20

Loi normale (ou de Laplace-Gauss)

21

Loi normale N(,)

Une variable aléatoire X suitune loi normale N(, ) si,pour toute valeur de x,

X

Simulation d'une loi normale N(6,3)3000

2000

1000

0

Std. Dev = 3.00

Mean = 6.0

N = 20736.00Résultats :

- Moyenne de X = - Variance de X = 2

- 95% des valeurs de X sont comprises entre - 1.96 et + 1.96

x

x 2

)t(

dte2

1)xX(Prob

2

2

23

Soit X la durée du trajet Paris-HEC à 7 heures du

matin.

On suppose que X suit une loi normale N(,).

En général, la durée du trajet est comprise entre

30 et 50 minutes. Déterminer la moyenne et l’écart-type .

Exercice 1

24

Précision de l’estimation

Quel est l’ordre de grandeur de

l’écart entre et auquel on peut

s’attendre ?

Quelle est la précision de l’estimation

de la moyenne de la population à

l’aide de la moyenne empirique ?

x

x

25

Ensemble detous les échantillonspossibles

(u1,…, un)* (x1,…, xn)

*

X

x

S2 s2

XT

S/ n

xt

s / n

Un résultat très utile

26

Loi de Student

Si X N(, ) alors :

XT

S/ n

suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].

Gosset (1876-1937) invented the t -test to handle small samples for quality control in brewing while working at Guiness in Dublin.He wrote under the name "Student".

Soit X la consommation de boisson au cola.

La population étudiée est disponible dans le fichier « rola-cola

population.sav »

Visualiser l’histogramme et la loi normale associée à cette population.

On suppose que X suit une loi normale N(,). Donner les valeurs de

et .

Tirer un échantillon de taille 40 :

Indiquer SET SEED=RANDOM pour obtenir un échantillon différent à

chaque tirage.

Calculer la moyenne et l’écart-type de l’échantillon et la statistique t.

Exercice 2

28

Fractile de la loi de Student

Loi de Student à 39 degrés de liberté

t

543210-1-2-3-4-5

f(t)

.5

.4

.3

.2

.1

0.0

Loi t(n-1)

1 ( 1)t n

Calculer (Table 4) :- t0.975(39) =- t0.975() =1-

fractile d'ordre 1 d'une loi de

Student à n-1 degrés de liberté

=

( 1) (0,1)

lorsque

t n N

n

Fractiles de laloi de Student

30

Il y a (1-)100 chances sur 100 pour que l’intervalle

contienne , où est le fractile d’ordre

de la loi de Student à n-1 degrés de liberté. La formule est exacte si X suit une loi normale.

Sinon, c’est une bonne approximation dès que n 30.

]n

s)1n(t x,

n

s)1n(t x[

21

21

Précision del’estimationde au niveau1-

Intervalle de confiancede la moyenne au niveau 1-

)1(2

1

nt

21

31

Rola-Cola :Consommation de boissons au cola

Descriptives

5.88 .47

4.92

6.83

5.75

5.50

8.830

2.97

1

13

12

4.75

.504 .374

-.375 .733

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

consommation deboisson au cola

Statistic Std. Error

32

Précision de l’estimation de par au degré de confiance 1 -

La quantité

est la précision de l’estimation de par au degré de confiance 1 - .

La précision est la demi-largeur de l’intervalle de confiance.

n

s)1n(t

21

x

x

33

Taille de l’échantillon permettant d’obtenir une précision souhaitée c au niveau de confiance 1 -

n = taille de l’échantillon à définirs = futur écart-type observé

Problème : Trouver n tel que

cn

s)1n(t

21

34

Solution approchée

On remplace dans la formule

s par la dernière estimation disponible

et par .

cn

s)1n(t

21

)1n(t2

1

)(t

21

35

Rola-Cola :Graphique des intervalles de confiance

1624N =

boisson préférée

koka-colarola-cola

95%

CI c

onso

mm

atio

n de

chi

ps

10

8

6

4

2

0131314N =

goût pour le sucre

pas d'accordindifferentd'accord

95%

CI c

onso

mm

atio

n de

boi

sson

au

cola

9

8

7

6

5

4

3

2

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.

top related