1 description et estimation Étude dune variable numérique, Étude dune moyenne
TRANSCRIPT
1
Description et estimation
Étude d’une variable numérique,Étude d’une moyenne
2
Cas Rola-Cola
Les données
consommation boisson achat goût pour le de boisson consommation préférée préalable sucre au cola de chips_________ _________ ____________ ____________ ____________
2 2 1 4 2 1 1 2 8 11 2 2 3 2 1 1 1 2 10 11 1 2 1 7 5 1 1 3 6 7 2 2 1 4 4
.
.
. 1 2 2 5 5 1 1 3 3 1 2 2 1 11 9 1 1 3 9 11 1 2 1 6 8 2 2 3 2 0 1 1 2 5 7
Boisson préférée1 = Rola-Cola2 = Koka-Cola
Achat préalablede Rola-Cola1 = oui2 = non
Goût Sucre1 = oui2= indifférent3 = non
n = 40 personnes
3
Définitions
Population : Ensemble des individus (objets de l’étude) auxquels on s’intéresse.
N = Taille de la population
Échantillon : Une partie de la population
n = Taille de l ’échantillon
Échantillon représentatif : - Chaque individu de la population a exactement la
même probabilité d’appartenir à l ’échantillon.- La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la
précision souhaitée.
4
Étude d’une variable numérique X
Une variable numérique X prend des valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur un échantillon.
Elle est résumée par des statistiques de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type).
La dispersion de X est visualisée par la boîte-à-moustache et l’histogramme.
5
Moyenne et écart-type
Population E chantillon E ffectif N n M oyenne
N
iix
N 1
1
μ de estimation
1
1
n
iix
nx
V ariance
N
iix
N 1
22 )(1
2
1
22
σ de estimation
)(1
1
n
ii xx
ns
É cart-type 2 2ss
6
Commentaire
1) Plus la taille n de l’échantillon est grande, alors plus les chances que soit
proche de sont élevées.
2) Plus l’écart-type (s !!!) est petit, alors plus les chances que soitproche de sont élevées.
x
x
7
Rola-Cola : Résultats statistiques
Descriptive Statistics
40
1
13
5.88
2.97
8.830
N
Minimum
Maximum
Mean
Std. Deviation
Variance
consommation deboisson au cola
Statistics
consommation de boisson au cola3.50
5.50
8.00
25
50
75
Percentiles
8
(x1,…, xn)*
S2
Propriétés des estimations de et 2
222 S de Moyenne)S(E
X de Moyenne)X(E
Ensemble detous les échantillonspossibles
(u1,…, un)*
Xn
ii 1
1x x
n
n2 2ii 1
1s (x x)
n 1
2
2
X et S sont des
estimateurs sans biais
de et
9
Médiane M
La médiane M partage l’échantillon ordonné en deux parties égales
nxxx 21
x1 … x20 x21 … x40
22120 xx
M
10
Échantillon Rola-Cola ordonné
Consommation de boisson NUMÉRO au cola________ ____________
1 1 2 2 3 2 4 2 5 2 6 3 7 3 8 3 9 3 10 3 11 4 12 4 13 4 14 4 15 4 16 5 17 5 18 5 19 5 20 5
Consommation de boisson NUMÉRO au cola________ ____________ 21 6 22 6 23 6 24 6 25 7 26 7 27 7 28 7 29 7 30 8 31 8 32 8 33 9 34 9 35 9 36 10 37 10 38 11 39 12 40 13
11
Quartiles Q1, Q2, Q3
Les quartiles Q1, Q2, Q3 partagent l’échantillon ordonné en quatre parties égales
x1 … x10 x11 … x20 x21 … x30 x31 … x40
Q1Q2 = M Q3
25% 25% 25% 25%
12
Rola-Cola : Boîte-à-Moustache
Consommation de boissons au cola
Q4
14131211109876543210
Minimum
Q1Médiane Q3
Maximum
13
Détection des observations atypiques (Outliers)
La longueur de chaque moustachedoit être inférieure à
)(5.1 13 QQ
Exemple :
Max = 13 (Obs n°12)remplacé par Max = 15
Consommation de boisson au cola
16
14
12
10
8
6
4
2
0
12
14
Rola-Cola : Boîte-à-moustache multiple
131314N =
goût pour le sucre
pas d'accordindifferentd'accordco
nsom
mat
ion
de b
oiss
on a
u co
la
14
12
10
8
6
4
2
0
La consommation de chipsdépend de la boisson préférée.
La consommation de boissonsau cola ne semble pas dépendrepas du goût pour le sucre.
15
Rola-Cola:Histogramme
consommation de boisson au cola
1412108642
12
10
8
6
4
2
0
Std. Dev = 2.97
Mean = 6
N = 40.001
2
5
8
9
10
5
16
Rola-Cola :Graphique des histogrammes
La consommation de chipsdépend de la boisson préférée.
La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.
[Population Pyramide]
17
Rola-Cola :Graphique des histogrammes
La consommation de chipsdépend de la boisson préférée.
La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.
[Histogram / Panel by rows]
18
Loi normale (ou de Laplace-Gauss)
LAPLACE à Beaumont-en-Auge
20
Loi normale (ou de Laplace-Gauss)
21
Loi normale N(,)
Une variable aléatoire X suitune loi normale N(, ) si,pour toute valeur de x,
X
Simulation d'une loi normale N(6,3)3000
2000
1000
0
Std. Dev = 3.00
Mean = 6.0
N = 20736.00Résultats :
- Moyenne de X = - Variance de X = 2
- 95% des valeurs de X sont comprises entre - 1.96 et + 1.96
x
x 2
)t(
dte2
1)xX(Prob
2
2
23
Soit X la durée du trajet Paris-HEC à 7 heures du
matin.
On suppose que X suit une loi normale N(,).
En général, la durée du trajet est comprise entre
30 et 50 minutes. Déterminer la moyenne et l’écart-type .
Exercice 1
24
Précision de l’estimation
Quel est l’ordre de grandeur de
l’écart entre et auquel on peut
s’attendre ?
Quelle est la précision de l’estimation
de la moyenne de la population à
l’aide de la moyenne empirique ?
x
x
25
Ensemble detous les échantillonspossibles
(u1,…, un)* (x1,…, xn)
*
X
x
S2 s2
XT
S/ n
xt
s / n
Un résultat très utile
26
Loi de Student
Si X N(, ) alors :
XT
S/ n
suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].
Gosset (1876-1937) invented the t -test to handle small samples for quality control in brewing while working at Guiness in Dublin.He wrote under the name "Student".
Soit X la consommation de boisson au cola.
La population étudiée est disponible dans le fichier « rola-cola
population.sav »
Visualiser l’histogramme et la loi normale associée à cette population.
On suppose que X suit une loi normale N(,). Donner les valeurs de
et .
Tirer un échantillon de taille 40 :
Indiquer SET SEED=RANDOM pour obtenir un échantillon différent à
chaque tirage.
Calculer la moyenne et l’écart-type de l’échantillon et la statistique t.
Exercice 2
28
Fractile de la loi de Student
Loi de Student à 39 degrés de liberté
t
543210-1-2-3-4-5
f(t)
.5
.4
.3
.2
.1
0.0
Loi t(n-1)
1 ( 1)t n
Calculer (Table 4) :- t0.975(39) =- t0.975() =1-
fractile d'ordre 1 d'une loi de
Student à n-1 degrés de liberté
=
( 1) (0,1)
lorsque
t n N
n
Fractiles de laloi de Student
30
Il y a (1-)100 chances sur 100 pour que l’intervalle
contienne , où est le fractile d’ordre
de la loi de Student à n-1 degrés de liberté. La formule est exacte si X suit une loi normale.
Sinon, c’est une bonne approximation dès que n 30.
]n
s)1n(t x,
n
s)1n(t x[
21
21
Précision del’estimationde au niveau1-
Intervalle de confiancede la moyenne au niveau 1-
)1(2
1
nt
21
31
Rola-Cola :Consommation de boissons au cola
Descriptives
5.88 .47
4.92
6.83
5.75
5.50
8.830
2.97
1
13
12
4.75
.504 .374
-.375 .733
Mean
Lower Bound
Upper Bound
95% ConfidenceInterval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
consommation deboisson au cola
Statistic Std. Error
32
Précision de l’estimation de par au degré de confiance 1 -
La quantité
est la précision de l’estimation de par au degré de confiance 1 - .
La précision est la demi-largeur de l’intervalle de confiance.
n
s)1n(t
21
x
x
33
Taille de l’échantillon permettant d’obtenir une précision souhaitée c au niveau de confiance 1 -
n = taille de l’échantillon à définirs = futur écart-type observé
Problème : Trouver n tel que
cn
s)1n(t
21
34
Solution approchée
On remplace dans la formule
s par la dernière estimation disponible
et par .
cn
s)1n(t
21
)1n(t2
1
)(t
21
35
Rola-Cola :Graphique des intervalles de confiance
1624N =
boisson préférée
koka-colarola-cola
95%
CI c
onso
mm
atio
n de
chi
ps
10
8
6
4
2
0131314N =
goût pour le sucre
pas d'accordindifferentd'accord
95%
CI c
onso
mm
atio
n de
boi
sson
au
cola
9
8
7
6
5
4
3
2
La consommation de chipsdépend de la boisson préférée.
La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.