statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/documents/maths952/cours/stats_e.pdf ·...

14
n x x 1 <x 2 <...<x p k J1,pK x k n k x k x k f k f k = x k = n k n x x 1 x 2 x p n 1 n 2 n p n = n 1 + n 2 + ... + n p 1

Upload: phungkiet

Post on 14-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST29

52 15 Statistiques

Dé�nition :Les ensembles étudiés sont appelés population.Les éléments de la population sont appelés individus et on appelle e�ectif le nombre de ces individus.La population est étudiée selon un ou plusieurs caractères.

I Statistique univariée

Dans toute cette section, une population d'e�ectif total n est observée statistiquement à travers ununique caractère quantitatif x dont les modalités ordonnées par ordre croissant sont x1 < x2 < . . . < xp.

A) E�ectifs et fréquences

Dé�nition :

G Pour tout k ∈ J1, pK, on appelle e�ectif de la modalité xk le nombre nk d'individus pourlesquels le caractère est égal à xk.

G On appelle fréquence de la modalité xk le nombre fk, (compris entre 0 et 1), donné par :

fk =e�ectif de xke�ectif total

=nkn

G Il est d'usage de regrouper les e�ectifs (ou les fréquences) des modalités dans un tableau

x x1 x2 . . . xp

E�ectifs n1 n2 . . . np

La somme des e�ectifs est égale à l'e�ectif total, c'est-à-dire n = n1 + n2 + . . .+ np.La somme des fréquences est égale à 1 (attention aux arrondis).

B) Caractéristiques de position

1) Mode

Dé�nition :On appelle mode de la série statistique une valeur du caractère dont l'e�ectif est maximal (parmiles e�ectifs de toutes les modalités). Sur un diagramme en bâtons, un mode est l'abscisse d'un bâtonde plus grande hauteur.

2) Médiane

Dé�nition :La médiane d'une série statistique est une valeur qui partage la population en deux groupes de mêmee�ectif : les individus dont le caractère est inférieur à la médiane et ceux dont le caractère est supérieurà la médiane.

2014-2015 C. Courant page 1

Page 2: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

3) Moyenne

Dé�nition :On suppose que la série statistique est donnée par :

x x1 x2 . . . xp

E�ectifs n1 n2 . . . np

on appelle moyenne de cette série statistique le nombre réel, noté x, dé�ni par :

x =n1x1 + n2x2 + . . .+ npxp

n1 + n2 + . . .+ np=

1

n

p∑k=1

nkxk

C) Variance, écart type

Dé�nition :On suppose que la série statistique est donnée par :

x x1 x2 . . . xp

E�ectifs n1 n2 . . . np

on appelle variance de cette série statistique le nombre réel, noté Vx, dé�ni par :

Vx =1

n

p∑k=1

nk(xk − x)2

ou ce qui revient au même par la formule de K÷nig-Huygens :

Vx = x2 − x2

L'écart-type de la série statistique est le nombre réel sx =√Vx, c'est-à-dire la racine carrée de la

variance.

2014-2015 C. Courant page 2

Page 3: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

II Statistique bivariée

On dispose d'une population dans laquelle on considère deux caractères quantitatifs, notés X et Y .On cherche à savoir dans quelle mesure X et Y sont liés.

A) Caractéristiques de la série statistique double

On dé�nit les valeurs suivantes :

• La moyenne des xi :x =1

n

n∑i=1

xi • La moyenne des yi :y =1

n

n∑i=1

yi

• L'écart-type des xi : sx =

√√√√ 1

n

n∑i=1

x2i − x2 • L'écart-type des yi : sy =

√√√√ 1

n

n∑i=1

y2i − y2

• La covariance : sx,y =1

n

n∑i=1

xiyi − xy • Le coe�cient de corrélation : rx,y =sx,ysxsy

B) Représentation graphique

â On mesure ces caractères sur les n individus de la population : on dispose alors de n couples devaleurs : (x1, y1), . . . , (xn, yn).

â On représente les points (xi, yi), on obtient un nuage de points :

1−→i

−→j

1

O 1−→i

−→j

1

O 1−→i

−→j

1

O

Exemple 1 Exemple 2 Exemple 3

Le nuage de points est un bon indicateur pour véri�er une corrélation entre les caractères X et Y :

â Si les points sont sous la forme d'un nuage, on peut penser que X et Y ne sont pas corrélés.(premier exemple)

â S'ils semblent dessiner une courbe (exemples 2 et 3), on cherchera à déterminer la nature de lacourbe en procédant à un ajustement.

â Lorsque les points semblent alignés (exemple 2), on cherche alors à déterminer une droite qui ∆ajuste au mieux ce nuage de points. On dit alors qu'on e�ectue un ajustement linéaire.

C) Ajustement linéaire

Il existe plusieurs méthodes pour déterminer une telle droite.La plus connue est la méthode dite des moindres carrées :

2014-2015 C. Courant page 3

Page 4: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

Méthode des moindes carrésMéthode

â Soit ∆ la droite d'équation : y = ax+ b.

1−→i

−→j

1

O

∆ : y = ax+ b•Mi

•Pi

yi

axi + b

xi

À tout pointMi(xi, yi), on associe le pointPi, projection deMi sur ∆ parallèlement à(Oy). Ainsi, Pi est le point de coordonnées(xi, axi + b).

La méthode des moindres carrés consiste à chercher les réels a et b pour qui minimisela somme :

S(a, b) =n∑i=1

MiP2i =

n∑i=1

(yi − axi − b)2

â Calcul de (a, b)Le minimum est obtenu pour :

a =sx,ys2x

b = y − sx,ys2x

x

â Pour tester de la pertinence de la régression linéaire, on regarde si |rx,y| est prochede 1. (En pratique : |rx,y| > 0.8)

Remarque:Si on considère les projections des points Mi sur ∆ parallèlement à (Ox) (au lieu de (Oy),un calcul simillaire donne une droite : ∆′ : y = a′x+ b′ avec

a′ =s2ysx,y

b′ = y −s2ysx,y

x

Ces deux droites se coupent en (x, y).De plus, elles sont égales si et seulement si elles ont même coe�cient directeur, soit a = a′.On obtient alors : s2x,y = s2xs

2y ⇐⇒ rx,y = ±1.

D) Autres ajustements

Lorsque les points ne semblent pas alignés mais semblent dessiner une autre courbe simple, on essayede se ramener à un ajustement linéaire :

â Si on pense que les points sont liées par une fonction exponentielle : Y = λ exp(αX) avec λ > 0

ä On pose Z = lnY . On a alors : Y = λ exp(αX) ⇐⇒ Z = lnλ+ αX.

ä On tente un ajustement linéaire sur les points (xi, ln yi).

â Si on pense que les points sont liées par une fonction puissance : Y = λXα avec λ > 0

ä On pose Z = lnY et T = lnX.On a alors : Y = λXα ⇐⇒ Z = lnλ+ αT .

ä On tente un ajustement linéaire sur les points (lnxi, ln yi).

2014-2015 C. Courant page 4

Page 5: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

III Statistique inférentielle

L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'unéchantillon issu de cette population. Les caractéristiques de l'échantillon, une fois connues, re�ètentavec une certaine marge d'erreur possible celles de la population.

L'inférence statistique est donc un ensemble de méthodes permettant de tirer des conclusions �ablesà partir de données d'échantillons statistiques. L'interprétation de données statistiques est, pour unelarge part, le point clé de l'inférence statistique. Elle est guidée par plusieurs principes et axiomes.

La problématique de l'inférence statistique consiste, à partir d'un échantillon de données provenantd'une population de loi de probabilité inconnue, à déduire des propriétés sur cette population : quelleest sa loi (problème d'estimation), comment prendre une décision en contrôlant au mieux le risque dese tromper (problème de test)

Exemple :

©

¬ On veut connaitre le résultat des prochaines élections municipales dans une ville. Onne peut pas interroger toute la ville. On réalise un sondage sur 1000 habitants et onen tire des conclusions.

­ On veut faire une étude sur l'obésité des enfants de 14 ans en France. On pèse lesenfants de 14 ans d'un collège et on en déduit le poids moyens des enfants de 14 ansen France.

® On veut comparer les résultats de l'étude précédente à une étude analogue aux E.U.et savoir si les populations sont di�érentes ou comparables.

A) Vocabulaire de l'échantillonnage et de l'estimation

Dé�nition : EchantillonSoit n ∈ N∗ Soit X une variable aléatoire. Un n-échantillon de X est un n-uplet (X1, X2, . . . , Xn) devariables aléatoires indépendantes et de même loi que X.

Dé�nition : EstimateurSoit X une variable aléatoire et (X1, . . . , Xn) un échantillon de X. Un estimateur d'un paramètre θest une suite (Tn) de variables aléatoires, chaque Tn étant une fonction de (X1, X2, . . . , Xn) donnantde l'information sur le paramètre θ.

Remarque:On ne s'intéressera dans ce cours uniquement à des estimateurs de l'espérance ou la variancede X.

Remarque:La valeur de Tn obtenue à partir d'un échantillon observé est l'estimation du paramètre.

B) Erreur d'estimation et biais

Remarque:G La dé�nition d'estimateur n'impose aucune information sur son lien avec le paramètre

estimé. Il existe des estimateurs plus intéressants que d'autres ! !

G La propriété attendue d'un estimateur est qu'il converge vers le paramètre estimé θquand la taille de l'échantillon tend vers +∞.

Cela justi�e qu'on obtienne une valeur approchée de θ en prenant une estimation.

Cette convergence peut-être, en moyenne, en probabilité, presque-sure,....

2014-2015 C. Courant page 5

Page 6: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

Dé�nition : Erreur d'estimationSoit X une variable aléatoire et (X1, . . . , Xn) un échantillon de X.Soit Tn un estimateur d'un paramètre θ.On dé�nit l'erreur d'estimation par Tn − θ.

Dé�nition : biaisAvec les notations précédentes, on dé�nit le biais, et on note b(Tn), l'epérance de l'erreur estimation,

b(Tn) = E(Tn)− θ

On dit qu'un estimateur est sans biais si son biais est nul.Dans le cas contraire, on dit que l'estimateur est biaisé.

Remarque:Même si l'estimateur est sans biais, l'erreur entre l'estimation et le paramètre à estimerpeut-être importante puis que le biais ne donne qu'une information sur l'espérance. (lesécarts peuvent se compenser)

Dé�nition : Risque quadratique

Soit X une variable aléatoire et (X1, . . . , Xn) un échantillon de X.Soit Tn un estimateur d'un paramètre θ.On dé�nit le risque quadratique par :

r(Tn) = E(Tn − θ)2

C'est-à-dire que r(Tn) est la moment d'ordre 2 de l'erreur d'estimation.C'est la variance de l'erreur d'estimation si l'estimateur est sans biais.

C) Estimateur de l'espérance

Dé�nition :Soit X une variable aléatoire d'espérance µ et de variance σ2. Soit (X1, . . . , Xn) un échantillon de X.

La moyenne empirique Mn =1

n

n∑i=1

Xi est un estimateur de µ.

Remarque:

Mn est souvent noté Xn.

Proposition :

G Mn est un estimateur sans biais de µ.

G Notons εn = Mn − µ l'erreur d'estimation. On a :

r(Mn) = V(εn) =σ2

n−→

n→+∞0

Démonstration :

Remarque:Cette dernière propriété justi�e que Mn est un �bon� estimateur !

2014-2015 C. Courant page 6

Page 7: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

D) Estimateur de la variance

Dé�nition :Soit X une variable aléatoire d'espérance µ et de variance σ2. Soit (X1, . . . , Xn) un échantillon de X.

La variance empirique S2n =

1

n

n∑i=1

(Xi −Mn)2 =1

n

(n∑i=1

X2i

)−M2

n est un estimateur de σ2.

Remarque: Calcul du biais

On a b(S2n) = E(S2

n)− σ2. On a b(S2n) = −σ

2

n−→

n→+∞0.

On pose, l'estimateur corrigé :

S′2n =n

n− 1S2n =

1

n− 1

n∑i=1

(Xi −Mn)2

On a un estimateur sans biais. C'est ce qui est fait dans la plupart des tableurs.

IV Intervalle de con�ance de la moyenne

A) Contexte

On considère une variable aléatoire X d'espérance µ et un échantillon (X1, . . . , Xn).On a vu que Mn donne un estimateur de µ, mais on voudrait également calculer deux valeurs A et Bdélimitant un intervalle [A,B] dans lequel µ est probablement situé.

Contrairement à µ qui est supposé �xé (mais non connu), A et B sont des variables aléatoires puis-qu'elles dépendent des résultats expérimentaux obtenus. On peut donc s'intéresser à la probabilité queµ soit dans l'intervalle [A,B].

Dé�nition :On considère une variable aléatoire X d'espérance µ et un échantillon (X1, . . . , Xn).Soient An et Bn deux estimateurs de µ et α ∈]0, 1[.

G On dira que [An, Bn] est un intervalle de con�ance au niveau 1−α (ou au seuil de risque α) si

P (µ ∈ [An, Bn]) = 1− α

En général, on cherchera à donner un intervalle �symétrique� au sens où :

P (µ > Bn) = P (µ < An) = α/2

G On dira que [An, Bn] est un intervalle de con�ance asymptotique au niveau 1− α (ou au seuil

de risque α) siP (µ ∈ [An, Bn]) −→

n→+∞1− α

Remarque:Si on a une réalisation (x1, . . . , xn) de (X1, . . . , Xn), on en déduit une estimation de l'in-tervalle de con�ance [An(x1, . . . , xn), Bn(x1, . . . , xn)].En disant que µ est dans cette intervalle, on se trompe avec une probabilité de α.

2014-2015 C. Courant page 7

Page 8: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

B) Théorème central limite

Théorème : Théorème central limite deuxième formeSoit (Xn)n∈N∗ une suite de variables aléatoires indépendantes, de même loi, admettant une variancenon-nulle.Notons µ l'espérance commune des Xn pour n ∈ N∗ et σ leur écart-type commun. On note :

Mn =1

n

n∑k=1

Xk et Sn =

√√√√ 1

n

n∑k=1

(Xk −Mn)2

P

(a <

Mn − µSn√n

< b

)−→

n→+∞Φ(b)− Φ(a) =

∫ b

a

exp(−x2

2 )√

2πdx

C) Utilisation pour déterminer un intervalle de con�ance de l'espérance

Proposition :

Soit X une variable aléatoire d'espérance µ et de variance σ2. Soit (X1, . . . , Xn) un échantillon de X.On note :

Mn =1

n

n∑i=1

et Sn =

√√√√ 1

n

n∑k=1

(Xk −Mn)2

On a alors :

P

(Mn − u1−α

2

Sn√n< µ < Mn + u1−α

2

Sn√n

)−→

n→+∞1− α

où u1−α2est le quantile d'ordre 1− α

2de la loi N (0, 1), c'est-à-dire l'unique valeur u telle que :

Φ(u) = 1− α

2

Démonstration :

D) En pratique

Détermination d'un intervalle de con�ance

Méthode

On déterminera donc un intervalle de con�ance de µ au niveau de con�ance de 1−α de lafaçon suivante :

1◦) α et n étant �xés, trouver l'unique valeur u1−α2telle que Φ(u1−α

2) = 1− α

2.

2◦) E�ectuer les mesures, calculer leur moyenne Mn et l'écart type empirique Sn.

3◦) L'intervalle de con�ance au niveau de con�ance de 1− α est alors[Mn − u1−α

2

Sn√n,Mn + u1−α

2

Sn√n

]

Valeurs usuelles :

viveau de con�ance (1-α) 80% 90% 95% 99%Valeur de Φ(u1−α

2) 0.9 0.95 0.975 0.995

Valeur de u1−α2

1.29 1.65 1.96 2.58

2014-2015 C. Courant page 8

Page 9: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

Remarque:L'intervalle de con�ance déterminé est un intervalle asymptotique, il est donc �valable�pour des grandes valeurs de n (n > 30 en pratique).Pour de plus petites valeurs de n, il faut procédé autrement (en utilisant la loi de Student).

V Test de conformité de la moyenne

A) Contexte

G On considère une population dans laquelle les individus possèdent un certain caractère X et dontla valeur d'un paramètre relatif au caractère étudié est inconnue. Une hypothèse est formulée surla valeur de ce paramètre : cette hypothèse peut résulter de considérations théoriques, pratiquesou encore être basée sur un pressentiment.

G On va alors étudier un échantillon de la population et, à partir des résultats obtenus, rejeter ounon l'hypothèse formulée.

G L'hypothèse selon laquelle on �xe à priori un paramètre de la population à une valeur particulières'appelle l'hypothèse nulle et est notée H0 . N'importe quelle autre hypothèse qui di�ère del'hypothèse H0 s'appelle l'hypothèse alternative et est notée H1.

G Un test statistique est une démarche qui a pour but de fournir une règle permettant, à partir desrésultats obtenus sur l'échantillon, de faire un choix entre ces deux hypothèses. C'est l'hypothèseH0 qui est soumise au test et toute la démarche du test s'e�ectue en supposant cette hypothèsevalidée.

G Nous allons donc établir des règles de décision qui vont nous conduire à accepter ou à rejeterl'hypothèse H0 . Toutefois, il est statistiquement impossible de prendre, à coup sûr, la bonnedécision. Le risque, consenti à l'avance et que nous notons α, de rejeter l'hypothèse H0 alorsqu'elle est vraie, s'appelle le risque de première espèce ; ainsi :

P[H0 est vraie](rejeter H0) = α

En général, on choisit α = 0.05 ou α = 0.01 .

G Il existe un autre risque, à savoir celui d'accepter l'hypothèse H0 alors qu'elle est fausse. Ce risqueest appelé le risque de seconde espèce. Le risque de première espèce α est �xé au départ ; celuide deuxième espèce est plus di�cile à calculer.

B) Faire un test de conformité sur la moyenne

Proposition :

Soit X une variable aléatoire et d'espérance µ et de variance σ2.Soit (X1, . . . , Xn) un échantillon de X.On dé�nit l'hypothèse nulle H0 : µ0 = µ et l'hypothèse alternative H1 : µ 6= µ0.On pose :

Mn =1

n

n∑i=1

Xi et S2n =

1

n

n∑i=1

(Xi −Mn)2

Pour µ0 = µ, on a : P

(∣∣∣∣∣Mn − µ0Sn√n

∣∣∣∣∣ > u1−α2

)−→

n→+∞α

2014-2015 C. Courant page 9

Page 10: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Statistiques Lycée du Parc

C) PratiqueMéthode

1◦) α et n étant �xés, trouver l'unique valeur u1−α2telle que Φ(u1−α

2) = 1− α

2.

2◦) E�ectuer les mesures, calculer leur moyenne Mn et l'écart type empirique Sn.

3◦) On rejette l'hypothèse si la valeur observée deMn − µ0

Sn√n

est en dehors de l'intervalle

[−u1−α2, u1−α

2]

4◦) Le risque de rejeter H0 alors qu'elle est vrai est asymptotiquement α.

5◦) Le test est �asymptotique�, on l'utilisera pour de grandes valeurs de n (n > 30),dans les autres cas, il existe d'autres façons de faire.

2014-2015 C. Courant page 10

Page 11: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST2

952 15 Statistiques

�Le rôle des statistiques est fondamental en génétique. Par exemple, les statistiques montrent que

le nombre d'enfants est un trait héréditaires. Si vos parents n'ont pas d'enfants, il y a de grandes

chances que vous non plus.�

© Exercice 1: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats02.tex

le tableau suivant présente le volume (en milleirs de tonnes) d'importations de produits horticolesdans 6 pays de 2006 à 2010.

PPPPPPPPPPaysAnnée

États-Unis Allemagne Russie Chine France Canada

2006 13823 10141 6889 6454 6623 41802007 15083 10494 7471 6117 6920 42862008 15057 11708 8381 3836 7038 42932009 14920 11500 7828 8599 6678 43422010 16325 11555 8964 8669 6852 4566

1◦) Calculer le volume moyen d'importations de ces pays en 2010. Quel est l'écart type correspon-dant ?

2◦) Dresser le diagramme en batons correspondant.

3◦) On étudie les importations horticoles du Canada. Représenter les données sous forme d'unnuage de points. Proposer un modèle donnant les importations en fonctions du temps. Discuterde la pertinence de votre modèle.

© Exercice 2: Loi SPAR /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats03.tex

Plus une région est vaste, plus le nombre d'espèces y vivant est grand. Pour modéliser mathé-matiquement ce phénomèe (et mesurer ce qu'on appelle la biodiversité les scienti�ques utilisentrégulièrement le loi SPAR(�species-area relationship�). Elle stipule que si A représente la surfacede la région étudiée et S le nombre d'espèces présentes dans cette région, alors on a :

N = CSz

où C et z sont des constantes à ajuster selon la région étudiée.On étudie les plantes d'une prairie. Les données récoltées sont résumées dans le tableau suivant :

Surface S (en m2) 1 2 4 8 16 32 64Nombre d'espèces N 6 7 8 10 10 13 14

1◦) Représenter le nuage de points.

2◦) Proposer une méthode pour déterminer C et z. L'appliquer

3◦) Discuter sur la pertinence de la méthode et de la loi SPAR.

2014-2015 C. Courant Exercices : I

Page 12: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Exercices : Statistiques Lycée du parc

© Exercice 3: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats01.tex

Contrairement aux idées re�ues, l'épinard n'est pas l'aliment le plus riche en fer. La lentille, parexemple, en apporte davantage.Pour véri�er ces propos, on a procédé à des analyses de fer sur 10 échantillons d'épinard et 10échantillons de lentilles. Les résultats sont indiqués dans le tableau suivant. (la teneur est indiquéeen mg pour 100g du produit frais.)

Échantillon 1 2 3 4 5 6 7 8 9 10Épinard 2.64 2.75 2.82 2.72 2.66 2.59 2.83 2.7 2.67 2.62Lentille 9.02 9.08 8.82 8.94 8.95 9.11 9.14 9.02 9.04 8.85

1◦) Calculer la teneur moyenne en fer, la valeur médiane et l'écart-type pour les épinards et leslentilles.

2◦) Déterminer un intervalle de con�ance de à 95% pour la moyenne pour les épinards et leslentilles.

3◦) Réaliser un graphique qui permet d'illustrer le propos initial.

© Exercice 4: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats06.tex

Soient a un réel strictement positif et X une variable aléatoire suivant la loi uniforme sur [0; a], oùa est un paramètre inconnu que l'on cherche à estimer Soit n ∈ N∗ . On considère un échantillon(X1, ..., Xn) de X.

1◦) On pose : Xn =X1 + · · ·+Xn

net Tn = 2Xn.

Montrer que Tn est un estimateur sans biais de a et calculer son risque quadratique.

2◦) On pose Mn = max(X1, . . . , Xn).a) Déterminer la loi de Mn . Calculer son espérance et sa variance.

b) En déduire un estimateur, noté Un , sans biais de a.

c) Entre les estimateurs Tn et Un, lequel choisir ?

© Exercice 5: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats04.tex

A�n d'évaluer le nombre N d'individus d'une espèce animale vivant sur une île, on propose d'adop-ter la méthode de capture-marquage-recapture. Pour cela, on capture m individus (m étant connu)que l'on marque d'un signe distinctif puis que l'on relâche sur l'île (c'est la phase de capture-marquage). La phase de recapture peut se faire (au moins) de deux façons.

1◦) Une première méthode consiste à e�ectuer des recaptures successives avec remise, jusqu'àobtenir un individu marqué. On répète cette expérience n fois (n étant connu) et l'on note,pour tout k deJ1, nK, Xk le nombre de captures e�ectuées lors de la k-ième expérience. On note

en�n Xn =1

n

n∑k=1

Xk.

a) Déterminer, pour tout k deJ1, nK, la loi de Xk , puis en déduire l'espérance et la variancede Xn .

2014-2015 C. Courant Exercices : II

Page 13: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Exercices : Statistiques Lycée du parc

b) En déduire un estimateur sans biais de N .

c) Montrer :

∀(a, b) ∈ R2 tel que a < b,P

(a 6

√nmXn −

√nN√

N(N −m)6 b

)−→

n→+∞Φ(b)− Φ(a)

où φ est la fonction de répartition de la loi normale centrée réduite.

d) Soit α ∈]0; 1[. En déduire un intervalle de con�ance de N au risque α.

e) Sachant que l'on a marqué m = 800 individus et qu'il a fallu 1000 captures pour obtenirn = 200 individus marqués, donner une estimation d'un intervalle de con�ance de N à95%.

2◦) Une seconde méthode consiste à recapturer n individus (n étant connu) avec remise. On noteYn le nombre d'individus marqués obtenus.a) Déterminer la loi de Yn, son espérance et sa variance.

b) Montrer queYnnm

est un estimateur sans biais de1

N. Peut-on prendre

nm

Yncomme esti-

mateur de N ?

c) Calculer l'espérance de1

Yn + 1. En déduire un estimateur asymptotiquement sans biais

de N .

d) Soit α ∈]0; 1[. Donner un intervalle de con�ance de N au risque α.

e) Sachant que l'on a marqué m = 800 individus, que l'on a recapturé n = 1000 indivi-dus parmi lesquels étaient marqués 200 individus, donner une estimation d'un intervallecon�ance de N à 95%.

© Exercice 6: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats05.tex

Un sondage consiste à proposer l'a�rmation A à certaines personnes d'une population donnée. Lesujet abordé étant délicat, le stratagème suivant est mis en place a�n de mettre en con�ance lespersonnes sondées pour qu'elles ne mentent pas ... L'enquêteur dispose d'un paquet de 20 cartes,numérotées de 1 à 20, qu'il remet à la personne sondée. Celle-ci tire une carte au hasard et ne lamontre pas à l'enquêteur. La règle est alors la suivante :

â si la carte porte le numéro 1, la personne sondée répond �vrai� si elle est d'accord avecl'a�rmation A et �faux� sinon ;

â si la carte porte un autre numéro, la personne sondée répond �vrai� si elle n'est pas d'accordavec l'a�rmation A et �faux� sinon.

Le but de l'enquête est d'évaluer la proportion p de personnes de cette population qui sont réelle-ment d'accord avec l'a�rmation A.

1◦) On interroge une personne selon ce procédé et on considère l'événement V : � la personnerépond �vrai� �. On note θ = P(V ). Exprimer θ en fonction de p, puis en déduire p enfonction de θ .

2◦) On considère un échantillon aléatoire, de taille n, extrait de la population considérée et on noteSn le nombre de réponses �vrai� obtenues. On suppose n assez grand pour pouvoir considérerque cet échantillonnage est assimilable à un tirage avec remise.

2014-2015 C. Courant Exercices : III

Page 14: Statistiques - bcpst.parc.free.frbcpst.parc.free.fr/joomla/DOCUMENTS/Maths952/Cours/Stats_e.pdf · BCPST 952 Statistiques Lycée du Parc II Statistique bivariée On dispose d'une

BCPST 952 Exercices : Statistiques Lycée du parc

a) Donner la loi de Sn , ainsi que son espérance et sa variance.

b) Montrer queSn

nest un estimateur sans biais de θ , et déterminer la limite de

E

((Sn

n− θ)2)

lorsque n tend vers +∞.

c) Soit α ∈]0; 1[. Déterminer un intervalle de con�ance de θ au risque α puis de p au risqueα.

3◦) Dans cette question, on suppose que l'on a réalisé un échantillon de 100 personnes et on constateque 23 personnes ont répondu �vrai�a) Donner une estimation ponctuelle de θ et de p.

b) Donner une estimation d'un intervalle de con�ance à 95% de θ puis de p.

c) Que pensez vous du choix d'une carte sur 20 ?

© Exercice 7: /home/carine/Dropbox/952Maths/Basexo/Proba/Stats/Stats07.tex

On veut comparer les e�ets de deux médicaments sopori�ques, notés A et B. On a testé lesmédicaments sur 10 personnes, les e�ets sont notés comme les heures additionnelles de sommeil.

Patient A B B-A

1 0.7 1.9 1.22 -1.6 0.8 2.43 -0.2 1.1 1.34 -1.2 0.1 1.35 -0.1 0.1 06 3.4 4.4 17 3.7 5.5 1.88 0.8 1.6 0.89 0 4.6 4.610 2 3.4 1.4

Moyenne 0.75 2.33 1.58

On veut tester si l'e�et plus pronocé pour le médicament B est signi�catif.

1◦) L'expérience ici correspond à une expérimentation où on a testé les 2 médicaments succéssive-ment sur les mêmes patients, numéro de 1 à 10. Ainsi l'écart entre B et A mesure e�ectivementla di�érence de réaction entre les deux médicaments sur un même patient.On va tester l'hypothèse H0 : �Il n'y a pas de di�érence entre A et B.� contre l'hypothèse H1 :� Il y a une di�érence entre A et B�.Réaliser un test de conformité à la moyenne sur B − A sous l'hypothèse µ = 0. Conclure.

2◦) L'expérience ici correspond à une expérimentation sur 10 patients pour le médicament A et 10autres sur B.L'écart B − A ne correspond plus à rien.On considère qu'on a tiré 20 patients sur lesquels les médicaments ont un e�et en heures desommeil dont la moyenne estimé est 0.75+2.33

2= 1.54.

Réaliser un test de conformité à la moyenne sur A puis sur B sous l'hypothèse µ = 1.54.Conclure.

3◦) Interpréter les résultats précédents.

2014-2015 C. Courant Exercices : IV