pdf statistiques deux variables
Post on 07-Jul-2018
216 Views
Preview:
TRANSCRIPT
-
8/18/2019 PDF Statistiques Deux Variables
1/6
Statistiques à deux variables
Ajustements affines
Christophe ROSSIGNOL∗
Année scolaire 2009/2010
Table des matières
1 Série statistique à deux variables 2
1.1 Définition – Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Point moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Ajustement d’une série statistique à deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Ajustement par la méthode des moindres carrés 3
2.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Ajustement affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Table des figures
1 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Droite de régression de y en x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Liste des tableaux
1 Part consacré au logement dans un foyer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Part consacré au logement dans un foyer (bis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Calcul de la covariance et de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
∗Ce cours est placé sous licence Creative Commons BY-SA http://creativecommons.org/licenses/by-sa/2.0/fr/
1
http://creativecommons.org/licenses/by-sa/2.0/fr/http://creativecommons.org/licenses/by-sa/2.0/fr/
-
8/18/2019 PDF Statistiques Deux Variables
2/6
1 SÉRIE STATISTIQUE À DEUX VARIABLES
Rappels de première : 1, 3 page 471 – 5 page 472 – 4 page 473 [Déclic]
1 Série statistique à deux variables
1.1 Définition – Nuage de points
Définition : On appelle série statistique à deux variables (ou série statistique doubles) une série statistiqueoù deux caractères sont étudiés simultanément.
Remarques :
1. Dans ce chapitre, on n’étudiera que des séries statistiques doubles dont les deux caractères étudiéssont quantitatifs.Si ,pour chacun des n individus de la population, on note xi et yi les valeurs prises par les deuxcaractères, on peut alors présenter la série statistique sous la forme d’un tableau :
Caractère x x1 x2 . . . xn
Caractère y y1 y2 . . . yn2. Si l’un des deux caractères étudiés est une mesure de temps, on parle de série chronologique.
Définition : Dans un repère orthogonal, l’ensemble des points M i de coordonnées (xi ; yi) constitue le nuagede points associé à la série statistique à deux variables.
Exemple : Le tableau 2 donne la part en % consacré au logement dans le budget d’un foyer.
Année (xi) 1978 1984 1992 1994 2000 2004Part en % (yi) 4,4 5,2 4,3 3,2 3,3 2,8
Tab. 1 – Part consacré au logement dans un foyer
Le nuage de points associé à cette série statistique est représenté sur la figure 1.
Fig. 1 – Nuage de points
1Moyenne, Écart-type.2Médiane, quartiles.3Utilisation des listes de la calculatrice.
2
-
8/18/2019 PDF Statistiques Deux Variables
3/6
2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 1.2 Point moyen
Remarque : On peut utiliser la calculatrice ou un tableur pour représenter un nuage de points. Voir la feuilleannexe.
Exercice : 11 page 48 et 18 page 494 [Déclic]
1.2 Point moyen
Définition : Le point moyen d’un nuage de points est le point G de coordonnées (x ; y ) où :– x représente la moyenne des xi :
x = x1 + x2 + · · · + xn
n =
1
n
n
i=1
xi
– y représente la moyenne des yi :
y = y1 + y2 + · · · + yn
n =
1
n
n
i=1
yi
Exemple : On reprend les données de l’exemple précédent.
x = 1978 + 1984 + 1992 + 1994 + 2000 + 2004
6 = 1992
y = 4, 4 + 5, 2 + 4, 3 + 3, 2 + 3, 3 + 2, 8
6 3, 87
Le point moyen est donc G (1992; 3, 9).
Remarques :
1. On peut utiliser la calculatrice ou un tableur pour calculer les coordonnées du point moyen. Voir lafeuille annexe.
2. Changements d’échelle :– Si on remplace les valeurs de xi par ti = xi − 1978 (ce qui correspond au rang de l’année), on
obtiendra comme moyenne t = x − 1978 = 14– Si on remplace les valeurs de yi par zi = 0, 01 × yi (ce qui correspond aux pourcentages donnés
sous forme décimale), on obtiendra comme moyenne z = 0, 01 × y 0, 0387.
Exercices : 9 page 485 – 13 page 48 et 14, 15, 16 page 496 – 17 page 497 [Déclic]
1.3 Ajustement d’une série statistique à deux variables
Effectuer un ajustement de y en x d’un nuage de points consiste à trouver une fonction f telle que la courbe
d’équation y = f (x) passe « au plus près » des points du nuage (voir exercice 25 page 51[Déclic]).Remarque : Dans la suite de ce chapitre, on s’intéressera aux ajustements affines, c’est-à-dire le cas où la série
statistique peut être ajustée par une fonction affine (ce qui n’est pas toujours le cas).
2 Ajustement par la méthode des moindres carrés
Activités : 1 page 398 et 2 page 399 [Déclic]
4Nuage de points, changement d’origine et d’échelle.5Vrai-Faux.6Points Moyens.7Lecture d’un nuage de points.8Modéliser par une fonction affine.9Choisir la meilleure droite.
3
-
8/18/2019 PDF Statistiques Deux Variables
4/6
2.1 Principe de la méthode 2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS
2.1 Principe de la méthode
Effectuer un ajustement de y en x d’un nuage de points par la méthode des moindres carrés consiste à trouverla fonction f du modèle retenu qui minimise la somme des carrés des écarts entre les valeurs yi observées et les
valeurs f (xi
) données par le modèle.La fonction f doit donc minimiser l’expression
n
i=1 (yi − f (xi))
2.
Interprétation graphique : (voir figure 2)
Fig. 2 – Méthode des moindres carrés
Cela revient à minimiser la somme des carrés des distances « verticales » entre la courbe et les points du
nuage :(M 1P 1)
2+ (M 2P 2)
2+ · · · + (M nP n)
2
Remarques :
1. Pour une valeur x0 donnée du caractère x, la fonction f permet donc de prévoir le résultat corre-spondant de la variable y . On supposera que y0 = f (x0).
2. Si x0 appartient est compris entre x1 et xn, on parle d’interpolation.
3. Si x0 est en dehors de l’intervalle d’observation du caractère x, on parle d’extrapolation.
2.2 Ajustement affine par la méthode des moindres carrés
Définition : On appelle covariance de x et de y le nombre :
cov (x, y) = 1
n
n
i=1
(xi − x) (yi − y)
Rappel : la variance du caractère x est :
V (x) = 1
n
n
i=1
(xi − x)2
Elle est utilisée pour le calcul de l’écart type : σ (x) =
V (x).On eut remarquer que V (x) = cov (x, x).
4
-
8/18/2019 PDF Statistiques Deux Variables
5/6
2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 2.2 Ajustement affine
Théorème : (admis)Lors d’un ajustement affine par la méthode des moindres carrés, la droite d servant à l’ajustement de yen x :– a comme coefficient directeur :
a =
cov (x, y)V (x)
– passe par le point moyen du nuage G (x ; y).
Remarques :
1. Ces deux données sont suffisantes pour déterminer une équation de cette droite (voir exemple).
2. Cette droite est aussi appelé droite de régression de y en x.
Exemple : On reprend l’exemple précédent, mais en remplaçant la variable x par t = x − 1978 (ce qui revientà prendre le rang des années, voir tableau 2)
Année 1978 1984 1992 1994 2000 2004Rang des années (xi) 0 6 14 16 22 26
Part en % (yi) 4,4 5,2 4,3 3,2 3,3 2,8
Tab. 2 – Part consacré au logement dans un foyer (bis)
On a déjà vu que, dans ce cas, x = 14 et y 3, 87.Pour calculer la variance et la covariance, on peut utiliser le mode « Liste » de la calculatrice ou un tableur(voir tableau 3) :
Liste 1 Liste 2 Liste 3 Liste 4 Liste 5 Liste 60 4,4 -14 196 0,53 -7,476 5,2 -8 64 1,33 -10,67
14 4,3 0 0 0,43 0
16 3,2 2 4 -0,67 -1,3322 3,3 8 64 -0,57 -4,5326 2,8 12 144 -1,07 -12,8
Total 472 -36,8
Tab. 3 – Calcul de la covariance et de la variance
– La liste 1 (L1) contient les xi– La liste 2 (L2) contient les yi– La liste 3 (L3) contient xi − x, c’est-à-dire : L3 = L1 − 14– La liste 4 (L4) contient (xi − x)
2, c’est-à-dire : L4 = (L3)2
– La liste 5 (L5) contient yi − y, c’est-à_dire L5 =L2 − 3, 87– La liste 6 (L6) contient (xi − x) × (yi − y), c’est-à-dire L6 = L3 × L5
La covariance et la variance s’obtiennent alors par la calcul suivant :
cov (x, y) = Total de L6
6 =
−36, 8
6 −6, 13 et V (x) =
Total de L46
= 472
6 68, 67
Le coefficient directeur de la droite de régression est donc :
a = cov (x, y)
V (x)
−6, 13
68, 67 −0, 08
La droite de régression a donc une équation de la forme y = −0, 08x + b.De plus, elle passe par G (14; 3, 87) donc :
−0, 08 × 14 + b = 3, 87
−
1, 12 + b = 3, 87b = 3, 87 + 1, 12 = 4, 99
5
-
8/18/2019 PDF Statistiques Deux Variables
6/6
RÉFÉRENCES RÉFÉRENCES
L’équation de la droite de régression est donc : y = −0, 08x + 4, 99.On peut la tracer sur le nuage de points (voir figure 3).
Fig. 3 – Droite de régression de y en x
Remarques :
1. On peut utiliser la calculatrice ou un tableur pour déterminer l’équation de la droite de régression.Voir feuille annexe.Les résultats obtenus peuvent être un peu différents de ceux obtenus précédemment à cause des
approximation du calcul. À l’aide d’un tableur, l’équation de la droite de régression obtenu pourl’exemple précédent est : y = −0, 08x + 4, 96.
2. On peut utiliser cette droite de régression pour faire des prévisions (interpolations ou extrapolations,les résultats obtenus par extrapolation étant, bien sûr moins fiables).
Exemple : On reprend l’exemple précédent en supposant que la droite de régression admet comme équationy = −0, 08x + 4, 96.L’année 2010 correspond à x = 2010 − 1978 = 28.Si la progression continue toujours suivant le même schéma, on peut prévoir que la part en % du budgetd’un foyer consacré au logement en 2010 sera y = −0, 08 × 28 + 4, 96 = 2, 72, soit 2,72 %Il s’agit bien sûr d’une extrapolation. Ce résultat n’est fiable que si l’évolution de la part continue après2004 en suivant le même principe qu’entre 1978 et 2004...
Exercices : 20, 21 page 50 et 37 page 5510
– 23 page 50; 29, 30, 31 page 52 et 38 page 5511
– 22 page 5012
–28 page 51 et 39 page 5513 – 24 page 5314 [Déclic]
Références
[Déclic] Déclic Term ES, Hachette éducation (édition 2006)
2, 3, 6
10QCM et Vrai-Faux.11Droites de régression.12D’autres types d’ajustements affines.13Changements de variables.14Exercice de synthèse.
6
top related