td3-stats-2010-corrige.pdf

12
TD L1 AES - Statistique descriptive 2010 Chapitre 3 : Statistiques permettant de résumer une série Corrigé Exercice 1 Ci-dessous, un tableau d’effectif dans lequel les salariés sont distribués par âge et par établissement. Ce tableau est issu du tableau exhaustif de l’annexe 1 . 1 Les données de l'annexe sont disponible au format Excel : http://www.mazerolle.fr/Statistique-descriptive/TD2010/AnnexeTD2010.xlsx (ou xls)

Upload: abderrahim-rafik

Post on 29-Nov-2015

12 views

Category:

Documents


0 download

DESCRIPTION

tdfr

TRANSCRIPT

Page 1: TD3-stats-2010-corrige.pdf

TD L1 AES - Statistique descriptive 2010

Chapitre 3 : Statistiques permettant de résumer une série Corrigé

Exercice 1 Ci-dessous, un tableau d’effectif dans lequel les salariés sont distribués par âge et par établissement. Ce tableau est issu du tableau exhaustif de l’annexe1

.

1 Les données de l'annexe sont disponible au format Excel : http://www.mazerolle.fr/Statistique-descriptive/TD2010/AnnexeTD2010.xlsx (ou xls)

Page 2: TD3-stats-2010-corrige.pdf

2

Question 1 Calculer l’âge modal au niveau de l’entreprise (tous établissements confondus), ainsi qu’au niveau de chaque entreprise. Le mode est la valeur ou la modalité la plus fréquente. L’âge étant un critère quantitatif, il prend différentes valeurs. Nous avons vu dans le TD 1 qu’il y avait en tout 42 âges de 18 ans inclus à 59 ans inclus, mais que certains âges avaient un effectif nul (par exemple, il n’y a aucun salarié de 26 ans parmi la population des 130 salariés).

Page 3: TD3-stats-2010-corrige.pdf

3

Dans l’établissement A, l’âge modal est unique. Il est de 27 ans. Il y a 5 salariés de 27 ans et c’est donc la valeur 27 ans qui revient le plus souvent. Dans l’établissement B, l’âge modal est unique aussi : c’est 18 ans, âge qui revient 7 fois. Dans, l’établissement C, il y a 8 modes : 19 ans, 20 ans, 25 ans, 28 ans, 29 ans, 34 ans, 42 ans et 59 ans. Dans l’établissement C, la série des âges est multimodale. Au niveau de l’entreprise entière (les 130 salariés), l’âge modal est unique, c’est 18 ans (âge qui revient 10 fois en tout). Question 2 À partir des chiffres donnés dans le tableau de l’exercice 1, calculer l’âge moyen des salariés de chacun des établissements A, B et C, ainsi que l’âge moyen des 130 salariés (dans ce dernier cas, quels sont les deux méthodes de calcul ?). L’âge moyen dans chaque établissement se calcule en faisant la somme des produits de chaque âge par l’effectif correspondant, puis en divisant cette somme par l’effectif total de l’établissement. Pour connaître l’âge moyen au niveau des 3 établissements pris ensemble, on peut procéder de deux façons :

• Soit on fait la somme des produits de chaque âge par l’effectif correspondant, puis on divise cette somme par l’effectif total des 130 salariés.

• Soit on pondère l’âge moyen dans chaque établissement par la proportion des effectifs de cet établissement dans l’effectif total et on additionne les 3 moyennes ainsi pondérée. Si on procède cette façon, il faut conserver tous les chiffres après la virgule quand on calcule les âges moyens au niveau de chaque établissement.

Le tableau ci-après montre le calcul des âges moyens par établissement, ainsi que le calcul de l’âge moyen au niveau de l’ensemble par les deux méthodes.

Page 4: TD3-stats-2010-corrige.pdf

4

Calcul des âges moyens

L’âge moyen dans l’établissement A est de 33 ans. Il est pratiquement de 33 ans aussi dans l’établissement B. Dans l’établissement C, il est de 35,7 ans, presque 36 ans. Au niveau de l’entreprise entière, l’âge moyen est égal à 33,2 ans. Ce chiffre s’obtient soit en faisant la somme de toutes les colonnes « effectif x âge », soit en effectuant l’opération suivante (formule de décomposition de la moyenne) :

(0,4615385 x 33,033333) + (0,3076923 x 31,55) + (0,2307692 x 35,7333333) = 33,2

Page 5: TD3-stats-2010-corrige.pdf

5

Exercice 2 Ci-dessous, un tableau où les salaires sont distribués par établissement et par sexe et classés par ordre croissant. Ce tableau est issu du tableau exhaustif de l’annexe.

Salaires annuels (en milliers d’euros), par établissement et par sexe

Page 6: TD3-stats-2010-corrige.pdf

6

Question 1 Pour chacune des 6 séries de salaires, déterminer la médiane (salaire médian), ainsi que les quartiles et l’intervalle interquartile. La médiane est la valeur de la variable (et dans certains cas, la modalité du caractère) qui partage la population, dont les unités statistiques ont préalablement été classées par ordre croissant des valeurs (de la variable considérée), en deux sous populations égales.

Méthode de calcul

• Toujours se ramener à une série : Si les données se présentent sous forme d'une distribution, convertir la distribution en série.

• Classer la série : Une fois la série constituée, l'ordonner en classant les chiffres par ordre croissant. On désignera par k le rang d’une valeur dans la série

• Déterminer si la série comprend un nombre pair ou impair d’unités statistiques : Soit n le nombre d’unités statistiques. Deux cas peuvent alors se présenter : celui ou n est pair et celui ou n est impair.

a) n est pair

Dans ce cas la médiane est égale à la moyenne arithmétique de a(k) et de a (k+1) où k est tel que n = 2k [k=n/2] et où a(k) et a (k+1) sont les valeurs associées à k et à k+1

b) n est impair

Dans ce cas la médiane est égale à a (k+1) où k est défini par (n-1)/2, soit n= 2k+1 et où a(k+1) est la valeur associée à k+1

Dans le tableau ci-après, lorsque dans une colonne, deux chiffres sont soulignés en jaune, il faut faire la moyenne des deux pour obtenir la médiane car la série est impaire. Lorsqu’il n’y a qu’un seul chiffre surligné en jaune, ce chiffre correspond à la médiane, car la série est impaire

.

Page 7: TD3-stats-2010-corrige.pdf

7

*

On obtient les résultats suivants pour la médiane :

Page 8: TD3-stats-2010-corrige.pdf

8

Les quartiles sont les trois valeurs qui partagent la population, dont les unités statistiques ont préalablement été classées par ordre croissant de valeurs (de la variable considérée), en quatre sous populations de même taille. On les désigne respectivement par Q1, Q2 et Q3. Dans ce qui suit, nous utiliserons la formule employée par le logiciel EXCEL de Microsoft Le calcul de Qi (i=1,2 ou 3) s’effectuera dès lors au moyen la formule suivante :

Qi = a(k) + [ f x [ a(k+1) - a(k)] ] Sachant que Q2=Me a déjà été calculé, on aura donc seulement Q1 et Q3 à calculer : Ce qui varie selon que l’on calcule Q1 et Q3, c’est k et f. Ces deux valeurs sont calculées à partir de la formule :

g = [(1/4) (n-1)] +1 pour Q1 et g = [(3/4) (n-1)] +1 pour Q3

Une fois que l’on a définit g, on peut en déduire k , f et a(k) :

• k représente le rang de la valeur dans le classement et est égal à la partie entière de g

• f est la partie décimale de g (si g n’a pas de partie décimale, f=0) • a(k) est la valeur associée au rang k et a (k+1) est la valeur associée au rang k+1.

Appliquons cette formule à la série des 16 salaires féminins de l’établissement A. Pour Q1 :

g = [(1/4)(16-1)]+1=4,75

Par conséquent k= 4 et f = 0,75. On a donc a(k) = a(4) = 20 et a(k+1)=a(5) = 20. Dès lors :

Q1 = 20 + [0,75 x (20-20)] = 20 Pour Q3 :

g = [(3/4) (16-1)] +1 = [(3/4) (20-1)] + 1=12,25 Par conséquent k= 12 et f = 0,25. On a donc a(k) = a(12) = 23 et a (k+1)=a(13)=24. Dès lors :

Q3 = 23 + [0,25 x (24-23)] = 23,25

Page 9: TD3-stats-2010-corrige.pdf

9

Reste à calculer l’intervalle interquartile :

IIQ = Q3 – Q1 = 23,25 – 20 = 3,25 Pour les 5 autres séries, la démarche étant la même, seuls les résultats sont donnés (voir le tableau ci-après ou figurent les résultats pour les 6 séries) :

Question 2 Calculer la variance et la moyenne des salaires dans les 3 établissements. A titre d’exemple, montrons le calcul détaillé de la variance dans le cas des salaires des femmes du groupe C, soit la série de valeurs {18, 18, 22, 24, 26, 27,113}. La formule de la variance est :

Sachant que xi représente ici les différentes valeurs possibles du salaire dans la série. Le x surmonté d’une « barre » représente le salaire moyen qui est égal à :

Puis calculons la variance à l’aide d’un tableau comme indiqué dans le chapitre 3 du cours :

Page 10: TD3-stats-2010-corrige.pdf

10

En appliquant le même calcul aux 6 séries du tableau, nous obtenons les 6 variances demandées.

Question 3 Sachant que la variance totale et la moyenne totale des salaires au niveau de l’entreprise (130 salariés) sont respectivement égales à 675,206213 et 32,038462, appliquer la formule de décomposition de la variance des salaires entre les six groupes, afin de montrer quel pourcentage de la variance totale s’explique par la variance à l’intérieur des groupes (intra-groupe) et quel pourcentage de la variance s’explique par la variance entre les groupes (intergroupes). Calculer aussi l’écart-type total et le coefficient de variation total. La variance totale des salaires peut se décomposer ainsi (voir le chapitre 3 du cours) : Variance totale = Composante intra population + Composante inter population La composante intra population est la moyenne pondérée des variances de chaque groupe et se calcule comme suit : Composante intra : (nAF/n) V(AF)+ (nAH/n) V(AH) + (nBH/n) V(BF)+ (nBH/n) V(BH) + (nCF/n) V(CF)+ (nCH/n) V(CF) Où nAF+ nAH + nBF+ nBH + nCF+ nCH = n (par exemple nAF représente le nombre de salariés féminins de l’établissement A, nAH le nombre de salariés masculins de l’établissement A, etc.) et où V(AF), V(AH), V(BF), V(BH), V(CF), V(CH) sont les variances des salaires dans chaque groupe. Dans notre exemple, cela donne (en remplaçant les V(AF), V(AH), etc. par les valeurs calculées à la question précédente) :

(16/130)V(AF) + (44/130)V(AH)+(16/130)V(BF)+(24/130)V(BH) +(7/130)V(CF)+(23/130)V(CH)= 651,703834

La composante inter population est la variance pondérée des salaires moyens de chaque groupe et se calcule comme suit :

Composante inter : (nAF/n) (salaire moyen des femmes du groupe A – salaire moyen total)2+ (nAH/n) (salaire moyen des hommes du groupe A – salaire moyen total)2+ (nBF/n) (salaire moyen des femmes du groupe B – salaire moyen total)2+ (nBH/n) (salaire moyen des hommes du groupe B – salaire moyen total)2+

(nCF/n) (salaire moyen des femmes du groupe C – salaire moyen total)2+ (nCH/n) (salaire moyen des hommes du groupe C – salaire moyen total)2

Page 11: TD3-stats-2010-corrige.pdf

11

Dans notre exemple, cela donne :

(16/130)(29,1875 - 32,0384615) + (44/130) (31,3863636 - 32,0384615) + (16/130) (22 - 32,0384615) + (24/130) (34,2083333 - 32,0384615) +

(7/130) (35,4285714 - 32,0384615) + (23/130) (38,9565217 - 32,0384615) = 23,5023787

On vérifie que : 651,703834 + 23,5023787 = 675,206213 On peut facilement calculer le pourcentage de chaque composante dans la variance totale et l’on voit que c’est la variance des salaires à l’intérieur des groupes qui explique l’essentiel de la variance totale (96,5%). Ces calculs sont résumés dans le tableau ci-après. On peut ainsi calculer Ecart-type total des salaires L’écart-type total est égal à la racine carrée de la variance totale. Ecart-type total = Racine carrée (675,206213) = 25,9847304 Coefficient de variation total Le coefficient de variation total est égal à l’écart-type total divisé par la moyenne totale et multiplié par 100 : (25,9847304/32,0384615)*100=81,1048007

Page 12: TD3-stats-2010-corrige.pdf

12