statistique 51-601-02 cours #2 et #3 avons-nous des conditions gagnantes? prise de décision à...

76
Statistique 51-601-02 Statistique 51-601-02 Cours #2 et #3 Cours #2 et #3 Avons-nous des conditions Avons-nous des conditions gagnantes? gagnantes? Prise de décision à partir Prise de décision à partir d’inférence d’inférence

Upload: benezet-grandjean

Post on 04-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

Statistique 51-601-02Statistique 51-601-02 Cours #2 et #3Cours #2 et #3

Avons-nous des conditions Avons-nous des conditions gagnantes?gagnantes?

Prise de décision à partir d’inférencePrise de décision à partir d’inférence

Page 2: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

22

Bien souvent, une décision se prend à la suite Bien souvent, une décision se prend à la suite d’une analyse quantitative de certains d’une analyse quantitative de certains

paramètres.paramètres.

Exemples:Exemples: Deux concepts publicitaires vous sont proposés Deux concepts publicitaires vous sont proposés

pour lancer un nouveau produit. Vous choisirez pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score d’efficacité celui qui obtiendra le meilleur score d’efficacité dans votre marché cible.dans votre marché cible.

Si la résistance ou durabilité moyenne d’un Si la résistance ou durabilité moyenne d’un nouveau produit est significativement plus nouveau produit est significativement plus grande que celle du meilleur produit concurrent, grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché.vous mettrez ce produit sur le marché.

Si les « conditions gagnantes » sont réunies et Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d ’en faire un.Landry prendrait la décision d ’en faire un.

Page 3: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

33

En général, les paramètres qui nous En général, les paramètres qui nous intéressent sont estimés à l ’aide d ’un intéressent sont estimés à l ’aide d ’un

échantillon et notre décision sera prise à la échantillon et notre décision sera prise à la suite d’un test d’hypothèse.suite d’un test d’hypothèse.

Exemple: Exemple: On demande à 1000 Québécois, On demande à 1000 Québécois, choisit au hasard et ayant le droit de choisit au hasard et ayant le droit de vote, s ’ ils voteraient oui, vote, s ’ ils voteraient oui, aujourd’hui, à un référendum sur la aujourd’hui, à un référendum sur la souveraineté du Québec.souveraineté du Québec.

Page 4: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

44

Que fait Bernard Landry siQue fait Bernard Landry si::

432 électeurs votaient oui? 432 électeurs votaient oui? (432/1000 = 43,2%)(432/1000 = 43,2%) il ne fait définitivement pas un référendum.il ne fait définitivement pas un référendum.

517 électeurs votaient oui? 517 électeurs votaient oui? (517/1000 = 51,7%)(517/1000 = 51,7%) est-ce que 51,7 % est significativement plus grand que 50%?est-ce que 51,7 % est significativement plus grand que 50%?

612 électeurs votaient oui? 612 électeurs votaient oui? (612/1000 = 61,2%)(612/1000 = 61,2%) 61.2% est fort probablement significativement plus grand que 61.2% est fort probablement significativement plus grand que

50%. Donc il prend la décision de faire un référendum sur la 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.souveraineté du Québec.

Page 5: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

55

Notions de base des tests Notions de base des tests d’hypothèsesd’hypothèses

Pour nous aider à prendre une décision (surtout Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme essayerons de quantifier le terme «significativement différent », statistiquement «significativement différent », statistiquement parlant, en y associant une probabilité d’erreur. parlant, en y associant une probabilité d’erreur.

En d’autres termes, nous voulons savoir, à partir En d’autres termes, nous voulons savoir, à partir des résultats obtenus dans l ’échantillon, quelle est des résultats obtenus dans l ’échantillon, quelle est la probabilité que le Premier Ministre a de se la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un tromper en prenant la décision de faire un référendum sur la souveraineté.référendum sur la souveraineté.

Page 6: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

66

Notions de base des tests Notions de base des tests d’hypothèses (suite)d’hypothèses (suite)

Si la probabilité de se tromper est petite Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un il prendra la décision de faire un référendum sur la souveraineté bientôt. référendum sur la souveraineté bientôt.

Si cette probabilité est grande (disons Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il supérieure à 5%, par exemple) alors il attendra encore un certain temps pour attendra encore un certain temps pour avoir des « conditions gagnantes » et faire avoir des « conditions gagnantes » et faire un référendum .un référendum .

Page 7: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

77

Notions de base des tests Notions de base des tests d’hypothèses (suite)d’hypothèses (suite)

• Il y a essentiellement deux possibilités:Il y a essentiellement deux possibilités: 50% ou moins des électeurs voteraient oui si un 50% ou moins des électeurs voteraient oui si un

référendum avait lieu aujourd’hui;référendum avait lieu aujourd’hui; plus de 50% des électeurs voteraient oui.plus de 50% des électeurs voteraient oui.

La première possibilité est appelée hypothèse La première possibilité est appelée hypothèse nulle (nulle (notée Hnotée H00).).

La deuxième possibilité est appelée la contre-La deuxième possibilité est appelée la contre-hypothèse (hypothèse (notée Hnotée H11).).

Page 8: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

88

Notation:Notation:

Soit « p » la vraie proportion d’électeurs qui Soit « p » la vraie proportion d’électeurs qui voteraient oui à un référendum, alors on a les deux voteraient oui à un référendum, alors on a les deux possibilités suivantes:possibilités suivantes: HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%

Règle générale, la contre-hypothèse est ce que l’on Règle générale, la contre-hypothèse est ce que l’on veut montrer « hors de tout doute raisonnable! » c.-veut montrer « hors de tout doute raisonnable! » c.-à-d. on veut que la probabilité de se tromper en à-d. on veut que la probabilité de se tromper en prenant la décision Hprenant la décision H11, à partir des résultats de , à partir des résultats de

l ’échantillon, soit petite.l ’échantillon, soit petite.

Page 9: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

99

Les erreurs possibles lors d’une prise de Les erreurs possibles lors d’une prise de décision à partir d ’un échantillon:décision à partir d ’un échantillon:

Erreur de Type I:Erreur de Type I: Rejeter HRejeter H00 en faveur de H en faveur de H11 (c.-à-d. prendre la décision H (c.-à-d. prendre la décision H11) )

lorsque en réalité Hlorsque en réalité H00 est vraie. est vraie.

La probabilité d ’une erreur de Type I est la probabilité qu’on La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de Hou une valeur encore plus « éloignée » de H00 , si H , si H00 est est

vraie. Cette probabilité est souvent appelée «p-value » dans vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique. le jargon statistique. 

Erreur de Type II:Erreur de Type II: Ne pas rejeter HNe pas rejeter H00 en faveur de H en faveur de H11 lorsque en réalité H lorsque en réalité H11 est est

vraie.vraie.

Page 10: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1010

Est-ce que l’accusé est Est-ce que l’accusé est coupable ou non coupable?coupable ou non coupable?

Vérité

H0 non

coupable

H1 coupable

H0 non

coupable

Erreur de

Type II

Décision du jury H1

coupable

Erreur de

Type I

Page 11: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1111

Contrôle des erreurs de Type I et IIContrôle des erreurs de Type I et II

Étant donné les résultats obtenus dans Étant donné les résultats obtenus dans l ’échantillon, je calcule la probabilité de l ’échantillon, je calcule la probabilité de commettre une erreur de Type I (commettre une erreur de Type I (p-valuep-value).).

Si cette probabilité est relativement petite (Si cette probabilité est relativement petite (p-p-value value < 5% par exemple), alors on rejettera < 5% par exemple), alors on rejettera HH00 pour prendre la décision H pour prendre la décision H11. Sinon on ne . Sinon on ne

rejettera pas Hrejettera pas H00. .

Page 12: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1212

P-valueP-value Mesure la confiance que l’on a en HMesure la confiance que l’on a en H00

Une petite value de la p-value indique que vous Une petite value de la p-value indique que vous devriez être moins confiant en Hdevriez être moins confiant en H00

Combien la p-value doit-elle être petite pour Combien la p-value doit-elle être petite pour rejeter Hrejeter H00 en faveur de H en faveur de H11??

Cela dépend de vous…Cela dépend de vous…

Page 13: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1313

Contrôle des erreurs de Type I et II Contrôle des erreurs de Type I et II (suite)(suite)

Pour une erreur de Type I fixée à l’avance Pour une erreur de Type I fixée à l’avance (ex. 5%), on contrôle l’erreur de Type II avant (ex. 5%), on contrôle l’erreur de Type II avant de mener l ’étude à l’aide de la taille de de mener l ’étude à l’aide de la taille de l’échantillon.l’échantillon.

On définit la puissance d’un test d’hypothèse On définit la puissance d’un test d’hypothèse comme la quantité:comme la quantité:((1- probabilité de commettre une erreur de Type II).1- probabilité de commettre une erreur de Type II).

Page 14: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1414

Dans les prochaines minutes, nous Dans les prochaines minutes, nous verrons cinq tests statistiques de base:verrons cinq tests statistiques de base:

1.1. test sur une proportiontest sur une proportion2.2. test sur une moyennetest sur une moyenne3.3. test sur la différence entre deux test sur la différence entre deux

proportionsproportions4.4. test sur la différence entre deux test sur la différence entre deux

moyennes pour deux échantillons moyennes pour deux échantillons indépendantsindépendants

5.5. test sur la différence entre deux test sur la différence entre deux moyennes pour un même échantillon moyennes pour un même échantillon

Page 15: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1515

1.1. Test sur une proportion:Test sur une proportion:

Exemple: Exemple:

Il y a deux ans, une entreprise a mis sur Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La le marché un nouveau produit. La direction de l’entreprise envisage direction de l’entreprise envisage d’augmenter les dépenses publicitaires d’augmenter les dépenses publicitaires pour ce produit si moins de 70% de la pour ce produit si moins de 70% de la population connaît le produit. population connaît le produit.

Page 16: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1616

Quelles sont les hypothèses possibles que Quelles sont les hypothèses possibles que nous voulons confronter?nous voulons confronter?

Soit « p » la vraie proportion d’individus dans la Soit « p » la vraie proportion d’individus dans la population qui connaissent le produit et « ppopulation qui connaissent le produit et « p0 0  » la  » la valeur qui correspond à notre hypothèse ou prise de valeur qui correspond à notre hypothèse ou prise de décision (pdécision (p0 0 = 70% dans l’exemple précédent). On a = 70% dans l’exemple précédent). On a le choix entre:le choix entre:

HH00 : p : p p p00 vs H vs H11 : p > p : p > p00 (test unilatéral à droite)(test unilatéral à droite)

HH00 : p : p p p00 vs H vs H11 : p < p : p < p00 (test unilatéral à gauche)(test unilatéral à gauche)

HH00 : p = p : p = p00 vs H vs H11 : p : p p p00 (test bilatéral)(test bilatéral)

Page 17: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1717

Procédure :Procédure :

On prélève un échantillon de On prélève un échantillon de nn individus dans la individus dans la population cible, et on calcule la proportion d’individus population cible, et on calcule la proportion d’individus qui connaissent le produit.qui connaissent le produit.

On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si on a , si on a

suffisamment de preuve contre celle-ci, c.-à-d. suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre-suffisamment d’évidence en faveur de la contre-hypothèse Hhypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < . .

Page 18: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1818

La statistique du test est donné par:La statistique du test est donné par:

Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie et que la taille de est vraie et que la taille de l’échantillon est grande, la statistique l’échantillon est grande, la statistique zz suivra suivra approximativement une loi normale avec moyenne approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].0 et variance 1 [ notée N(0,1) ].

Page 19: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

1919

Afin de prendre une décision, on calcule le seuil Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de expérimental (p-value), c.-à-d. la probabilité de

commettre une erreur de Type I.commettre une erreur de Type I.

Test unilatéral à droite:Test unilatéral à droite: p-value = Prob[N(0,1) > z]p-value = Prob[N(0,1) > z]

Test unilatéral à gauche:Test unilatéral à gauche: p-value = Prob[N(0,1) < z]p-value = Prob[N(0,1) < z]

Test bilatéral:Test bilatéral: p-value = 2 x Prob[N(0,1) > |z|]p-value = 2 x Prob[N(0,1) > |z|]

Pur le calculs nous utiliserons Pur le calculs nous utiliserons proportion-1t.proportion-1t.xlsxls

Page 20: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2020

L’entreprise commande une enquête L’entreprise commande une enquête téléphonique auprès de 500 personnes faisant téléphonique auprès de 500 personnes faisant

partie de la population cible.partie de la population cible. 372 individus répondent qu’ils connaissent le 372 individus répondent qu’ils connaissent le

produit (372/500 = 74,4%). produit (372/500 = 74,4%). HH00: p = 70% vs : p = 70% vs HH11: p : p 70% 70%

p-valuep-value = 2xProb[N(0,1) > |2,147|] = = 2xProb[N(0,1) > |2,147|] = 0,0317930,031793

On rejettera HOn rejettera H00 au niveau 5%. au niveau 5%.De plus, puisque 74.4% > 70%, on prendra De plus, puisque 74.4% > 70%, on prendra

la décision de réduire le budget publicitaire la décision de réduire le budget publicitaire pour ce produit.pour ce produit.

Page 21: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2121

Correspondance entre le test bilatéral et Correspondance entre le test bilatéral et l ’intervalle de confiance:l ’intervalle de confiance:

Intervalle de confiance au niveau 95% pour Intervalle de confiance au niveau 95% pour la proportion la proportion d’individus dans la population qui connaissent le produit :d’individus dans la population qui connaissent le produit :

I.C. au niveau 95% : (0,706 ; 0,782)I.C. au niveau 95% : (0,706 ; 0,782) Puisque l ’intervalle de confiance au niveau 95% ne contient Puisque l ’intervalle de confiance au niveau 95% ne contient

pas la valeur pas la valeur pp0 0 = 70% , on rejettera H= 70% , on rejettera H00 au niveau 5%. au niveau 5%.

En affirmant que la vraie proportion des gens qui En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.seulement 5% de chance de se tromper.

Page 22: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2222

Exemple des intentions de vote:Exemple des intentions de vote:

On demande à 1000 Québécois, choisit au hasard et ayant le On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 517 électeurs sur la souveraineté. Dans l ’échantillon, 517 électeurs répondent qu’ils voteraient oui.répondent qu’ils voteraient oui. HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%

p-value = 0.1411p-value = 0.1411 On ne rejettera pas HOn ne rejettera pas H00 au niveau 5% au niveau 5% Bernard Landry ne fera pas de référendum prochainementBernard Landry ne fera pas de référendum prochainement

Page 23: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2323

Exemple des intentions de vote:Exemple des intentions de vote:

On demande à 1000 Québécois, choisit au hasard et ayant le On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 612 électeurs sur la souveraineté. Dans l ’échantillon, 612 électeurs répondent qu’ils voteraient oui.répondent qu’ils voteraient oui. HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%

p-value = p-value = 7.08E-137.08E-13 On rejettera HOn rejettera H00 au niveau 5% au niveau 5% Bernard Landry ferait un référendum prochainement.Bernard Landry ferait un référendum prochainement.

Page 24: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2424

Test vs intervalle de confianceTest vs intervalle de confiance

Tester HTester H00 : p = p : p = p0 0 vs H vs H1 1 : p : p p p0 0 revient à revient à

construire un intervalle de confiance pour construire un intervalle de confiance pour pp00. .

On rejette HOn rejette H00 si p si p00 n’est pas dans n’est pas dans

l’intervalle.l’intervalle.

Page 25: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2525

2.2. Test sur une moyenneTest sur une moyenne Exemple:Exemple:Vous êtes en charge du département qui fabrique Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips et met en sac de 170 grammes la marque de chips Lay’s. Pour vérifier si le procédé de remplissage Lay’s. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le prélever un échantillon aléatoire de 100 sacs et le poids moyen de l ’échantillon est calculé. Le poids moyen de l ’échantillon est calculé. Le procédé de remplissage sera arrêté si le poids procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 moyen est significativement différent de 170 grammes.grammes.

Page 26: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2626

Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?

Soit « Soit «  » la vraie moyenne d ’une caractéristique dans la population. Cette  » la vraie moyenne d ’une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance moyenne est inconnue, de même que la variance 22. Soit « . Soit « 0 0  » la valeur de  » la valeur de

la moyenne qui correspond à notre hypothèse ou prise de décision ( la moyenne qui correspond à notre hypothèse ou prise de décision ( 0 0     = =

170g dans l’exemple précédent). On a le choix entre:170g dans l’exemple précédent). On a le choix entre:

HH00 : : 00 vs H vs H11 : : > > 00 (test unilatéral à droite)(test unilatéral à droite)

HH00 : : 00 vs H vs H11 : : < < 00 (test unilatéral à gauche)(test unilatéral à gauche)

HH00 : : = = 00 vs H vs H11 : : 00 (test bilatéral)(test bilatéral)

Page 27: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2727

Procédure:Procédure:

On prélève un échantillon de taille On prélève un échantillon de taille nn dans la dans la population cible et on calcule la moyenne et population cible et on calcule la moyenne et l’écart type l’écart type s.s.

On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-à-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la la d. suffisamment d’évidence en faveur de la la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < . .

Page 28: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2828

La statistique du test est donné par:La statistique du test est donné par:

Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie, la est vraie, la statistique statistique tt suivra une loi de Student suivra une loi de Student avec avec n-1n-1 degrés de liberté [ notée degrés de liberté [ notée t(n-t(n-1)1) ]. ].

Page 29: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2929

Afin de prendre une décision, on calcule le seuil Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de expérimental (p-value), c.-à-d. la probabilité de

commettre une erreur de Type I.commettre une erreur de Type I.

Test unilatéral à droite:Test unilatéral à droite: p-value=Prob[ p-value=Prob[ t(n-1)t(n-1) > t ] > t ]

Test unilatéral à gauche:Test unilatéral à gauche: p-value=Prob[ p-value=Prob[ t(n-1)t(n-1) < t ] < t ]

Test bilatéral:Test bilatéral:

p-value= 2 x Prob[ p-value= 2 x Prob[ t(n-1)t(n-1) > |t| ] > |t| ]

Intervalle de confiance pour Intervalle de confiance pour au niveau (1- au niveau (1-))

Nous calculerons la p-value avec Nous calculerons la p-value avec moyenne-1t.moyenne-1t.xlsxls

Page 30: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3030

ExempleExemple:: La moyenne de l’échantillon de 100 sacs de chips est La moyenne de l’échantillon de 100 sacs de chips est

de 169,9 grammes et l’écart type de 169,9 grammes et l’écart type ss =0,27. =0,27.HH00: : = 170g vs = 170g vs HH11: : 170g 170g

p-value = 0,0003p-value = 0,0003On rejettera HOn rejettera H00 ici sans avoir peur de se tromper! ici sans avoir peur de se tromper!

Intervalle de confiance pour Intervalle de confiance pour au niveau 95%: au niveau 95%: [169,846 ; 169,953][169,846 ; 169,953]L ’intervalle ne contient pas la valeur 170 L ’intervalle ne contient pas la valeur 170 on on rejette Hrejette H00 au niveau 5% au niveau 5%

Page 31: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3131

Si la moyenne de l’échantillon de 100 sacs de chips est Si la moyenne de l’échantillon de 100 sacs de chips est de 170.011 grammes et l’écart type de 170.011 grammes et l’écart type ss = 0,27. = 0,27.HH00: : = 170g vs = 170g vs HH11: : 170g 170g

p-value = 0,69p-value = 0,69On ne rejettera pas HOn ne rejettera pas H00

Intervalle de confiance pour Intervalle de confiance pour au niveau 95%: au niveau 95%: [169,957 ; 170,064][169,957 ; 170,064]

L’intervalle contient la valeur 170 L’intervalle contient la valeur 170 on ne rejette pas on ne rejette pas H H00 au niveau 5% au niveau 5%

Page 32: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3232

Test vs intervalle de confianceTest vs intervalle de confiance

Tester HTester H00 : : vs H vs H1 1 : : revient revient

à construire un intervalle de confiance à construire un intervalle de confiance pour pour

On rejette HOn rejette H00 si si n’est pas dans n’est pas dans

l’intervalle.l’intervalle.

Page 33: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3333

Étude de casÉtude de cas

Le salaire annuel moyen d'un groupe de Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention la négociation d'une nouvelle convention collective, vous affirmez que votre groupe collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les d'employés est moins bien payé que dans les autres villes. autres villes.

On décide alors de tester cette hypothèse. Si On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus la ville fera en sorte que vous ne soyez plus sous-payés. sous-payés.

Page 34: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3434

Étude de cas (suite)Étude de cas (suite)

On choisit au hasard 50 villes comparables et on note On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires des résultats est de 50000$, et l'écart type des salaires est de 16000$.est de 16000$.

a)a)    Quelle est la probabilité critique?Quelle est la probabilité critique? b)b) Quelle est votre conclusion?Quelle est votre conclusion? c)c)  L  La ville vous propose d'augmenter le salaire annuel a ville vous propose d'augmenter le salaire annuel

moyen à 46500$. Le négociateur a-t-il respecté sa moyen à 46500$. Le négociateur a-t-il respecté sa promesse?promesse?

Page 35: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3535

3.3. Test sur la différence entre deux Test sur la différence entre deux proportionsproportions

Exemple:Exemple:Dans deux municipalités avoisinantes, on a Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si site pour l ’enfouissement des déchets. Si une municipalité a une proportion de une municipalité a une proportion de contribuables en faveur significativement contribuables en faveur significativement plus élevée que dans l ’autre municipalité, plus élevée que dans l ’autre municipalité, alors le site sera fort probablement aménagé alors le site sera fort probablement aménagé dans cette municipalité.dans cette municipalité.

Page 36: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3636

Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?

Soit « pSoit « p11 » la vraie proportion d’individus en faveur dans  » la vraie proportion d’individus en faveur dans

la population 1 et « pla population 1 et « p22 » la vraie proportion d’individus en  » la vraie proportion d’individus en

faveur dans la population 2. On a le choix entre:faveur dans la population 2. On a le choix entre:

HH00 : p : p11 p p22 vs H vs H11 : p : p11 > p > p22 (test unilatéral)(test unilatéral)

HH00 : p : p11 p p22 vs H vs H11 : p : p11 < p < p22 (test unilatéral)(test unilatéral)

HH00 : p : p11 = p = p22 vs H vs H11 : p : p11 p p22 (test bilatéral)(test bilatéral)

Page 37: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3737

On prélève un échantillon aléatoire de taille On prélève un échantillon aléatoire de taille nn11 dans la population 1 et de taille dans la population 1 et de taille nn22 dans la dans la

population 2. population 2.

On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la à-d. suffisamment d’évidence en faveur de la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < ..

La statistique du test est donné par:La statistique du test est donné par:

Page 38: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3838

oùoù

Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie et que les tailles des est vraie et que les tailles des

deux échantillons sont suffisamment grandes, la deux échantillons sont suffisamment grandes, la statistique du test statistique du test zz suivra approximativement une loi suivra approximativement une loi normale avec moyenne 0 et variance 1.normale avec moyenne 0 et variance 1.

Ceci nous sert à calculer le « Ceci nous sert à calculer le « p-valuep-value » afin de  » afin de prendre notre décision.prendre notre décision.

Page 39: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

3939

Un échantillon de 150 individus ont répondu au Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur dans la municipalité 2 et 62 étaient en faveur (50%).(50%).

HH00 : p : p11 = p = p22 vs H vs H11 : p : p11 p p22 (test bilatéral)(test bilatéral)

p-value = 2xProb[N(0,1) > |0,99|]p-value = 2xProb[N(0,1) > |0,99|] = = 0,3220,322On ne rejettera pas HOn ne rejettera pas H00 au niveau 5% au niveau 5%

Page 40: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4040

4.4. Test sur la différence entre Test sur la différence entre deux moyennesdeux moyennes

Exemple:Exemple:

Un nouveau procédé technique a été Un nouveau procédé technique a été recommandé par une firme de consultants recommandé par une firme de consultants pour réduire le niveau de pollution de l ’air pour réduire le niveau de pollution de l ’air dans l ’environnement d ’une usine. dans l ’environnement d ’une usine. L ’objectif est de réduire le taux de L ’objectif est de réduire le taux de monoxide de carbone dans l ’air. Des monoxide de carbone dans l ’air. Des essais indépendants ont été effectués avec essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.le procédé actuel et le nouveau produit.

Page 41: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4141

Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?

Soit « Soit « 11 » la vraie moyenne de la caractéristique dans la  » la vraie moyenne de la caractéristique dans la

population 1 et « population 1 et « 22 » la vraie moyenne de la  » la vraie moyenne de la

caractéristique dans la population 2. On a le choix entre:caractéristique dans la population 2. On a le choix entre:

HH00 : : 11 22 vs H vs H11 : : 11 > > 22 (test unilatéral)(test unilatéral)

HH00 : : 11 22 vs H vs H11 : : 11 < < 22 (test unilatéral)(test unilatéral)

HH00 : : 11 = = 22 vs H vs H11 : : 11 22 (test bilatéral)(test bilatéral)

Page 42: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4242

On prélève un échantillon aléatoire de taille On prélève un échantillon aléatoire de taille nn11 dans la population 1 et , de taille dans la population 1 et , de taille nn22 dans dans

la population 2. la population 2.

On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la à-d. suffisamment d’évidence en faveur de la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. , c.-à-d. p-valuep-value < < . .

1) 1) Cas où les variances des 2 populations sont Cas où les variances des 2 populations sont égaleségales

La statistique du test est donné par:La statistique du test est donné par:

Page 43: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4343

2) 2) Cas où les variances des 2 Cas où les variances des 2 populations sont inégalespopulations sont inégales

La statistique du test est donné par:La statistique du test est donné par:

Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie, la est vraie, la statistique du test statistique du test tt suivra une loi de suivra une loi de Student. Student.

Ceci nous sert à calculer le « Ceci nous sert à calculer le « p-valuep-value » afin  » afin de prendre notre décision.de prendre notre décision.

Page 44: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4444

La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats:

1) Test pour l ’égalité des variances:

Le p-value pour le test bilatéral d ’égalité des variances est égal à 2x0,000049 = 0,000098 => on rejette l ’hypothèse d ’égalité des variances.

Page 45: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4545

2) Test pour l ’égalité des moyennes lorsque les variances sont inégales:

H0 : actuel nouveau vs H1 : actuel > nouveau

Page 46: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4646

5.5. Test sur la différence de deux Test sur la différence de deux moyennes pour un même échantillonmoyennes pour un même échantillon

Exemple:Exemple:La directrice des ressources humaines d ’une entreprise veut La directrice des ressources humaines d ’une entreprise veut suggérer à la direction de mettre en œuvre un programme suggérer à la direction de mettre en œuvre un programme spécial d ’apprentissage pour les employés affectés au spécial d ’apprentissage pour les employés affectés au département d ’assemblage. Pour évaluer l ’efficacité de ce département d ’assemblage. Pour évaluer l ’efficacité de ce programme d ’une durée de 3 semaines, on a choisit au programme d ’une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme suite, ces 15 employés ont suivi le programme d ’apprentissage et on a observé à nouveau le nombre de d ’apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.pièces assemblées durant la même période de temps.

Page 47: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4747

Les résultats obtenus se présentent comme suit (Les résultats obtenus se présentent comme suit (hrhr..xlsxls) ) ::

individu avant après différenceindividu avant après différence

1 15 17 2 2 13 16 3 3 8 10 2 4 9 9 0 5 7 9 2 6 12 13 1 7 11 14 3 8 12 15 3 9 11 14 3 10 9 11 2 11 10 14 4 12 12 11 -1 13 11 13 2 14 7 10 3 15 12 13 1

Page 48: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4848

Les résultats de l ’analyse statistique à l ’aide de Les résultats de l ’analyse statistique à l ’aide de Excel se présentent comme suit:Excel se présentent comme suit:

Page 49: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

4949

Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme d’apprentissage sont moindres que les gains en productivité, alors on adoptera le programme.

Ce test est équivalent au test sur une moyenne pourla variable différence entre après et avant:

X-bar Mu0 n s Statistique t p-value Niveau de IC: borne inf. IC: borne sup.test bilatéral confiance

2 0 15 1,309 5,917 0,0000 95,0% 1,3 2,7p-value

pour H1: Mu > Mu0

0,0000p-value

pour H1: Mu < Mu0

1,0000

Test T pour une moyenne (sigma inconnu)

Page 50: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

Analyse de données Analyse de données qualitativesqualitatives

Page 51: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5151

Exemple:Exemple:

Une étude a été effectuée par le département des ressources humaines d’une grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi.

Un total de 527 employés ont participé à cet étude.

Page 52: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5252

Voici, sous forme de tableau, les résultats Voici, sous forme de tableau, les résultats obtenus:obtenus:

EMPLOI(emploi) SATIS(satisfaction)

Fréquence |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 17 | 62 | 79cadre | | |---------------------------------------------col blanc | 50 | 112 | 162---------------------------------------------col bleu | 99 | 187 | 286---------------------------------------------Total | 166 | 361 | 527

Page 53: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5353

Question:Question: est-ce qu’il y a un lien entre le est-ce qu’il y a un lien entre le type d’emploi et la satisfaction dans cette type d’emploi et la satisfaction dans cette

entreprise?entreprise?

La variable «La variable « type d ’emploi type d ’emploi » est une  » est une variable qualitative à trois niveaux c.-à-d. à variable qualitative à trois niveaux c.-à-d. à trois catégories.trois catégories.

La variable « La variable « satisfactionsatisfaction  » est également » est également qualitative dans cet exemple et à deux qualitative dans cet exemple et à deux niveaux.niveaux.

Page 54: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5454

Il est plus facile de répondre à la question, de Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages:façon descriptive, avec des pourcentages:

EMPLOI(emploi) SATIS(satisfaction)

Fréquence |% |% ligne |% colonne |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 17 | 62 | 79cadre | 3.23 | 11.76 | 14.99 | 21.52 | 78.48 | | 10.24 | 17.17 |---------------------------------------------col blanc | 50 | 112 | 162 | 9.49 | 21.25 | 30.74 | 30.86 | 69.14 | | 30.12 | 31.02 |---------------------------------------------col bleu | 99 | 187 | 286 | 18.79 | 35.48 | 54.27 | 34.62 | 65.38 | | 59.64 | 51.80 |---------------------------------------------Total | 166 | 361 | 527 | 31.50 | 68.50 | 100.00

Page 55: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5555

Les tableaux croisés permettent:Les tableaux croisés permettent:

de synthétiser et présenter l’informationde synthétiser et présenter l’information de décrire la présence ou l’absence de lien entre de décrire la présence ou l’absence de lien entre

deux variables qualitatives (nominales et/ou deux variables qualitatives (nominales et/ou ordinales)ordinales)

de vérifier, à l’aide d’un test d’hypothèse, s’il de vérifier, à l’aide d’un test d’hypothèse, s’il existe un lien statistiquement significatif entre existe un lien statistiquement significatif entre deux variables qualitativesdeux variables qualitatives

Page 56: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5656

Les deux hypothèses possibles que l’on veut Les deux hypothèses possibles que l’on veut confronter sont:confronter sont:

H0: Il n ’y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes

H1: Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes

Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories d’une variable est identique (semblable) pour chaque catégorie de l’autre variable.

Page 57: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5757

Pour illustrer le concept du test d’indépendance entre deux variables Pour illustrer le concept du test d’indépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les qualitatives, reprenons notre exemple et supposons que nous avons les

effectifs suivants afin de faciliter les calculs:effectifs suivants afin de faciliter les calculs:

EMPLOI(emploi) SATIS(satisfaction)

Fréquence |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 0 | 100 | 100cadre | | |---------------------------------------------col blanc | 100 | 200 | 300---------------------------------------------col bleu | 300 | 300 | 600---------------------------------------------Total | 400 | 600 | 1000

Page 58: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5858

La distribution des pourcentages est:La distribution des pourcentages est:EMPLOI(emploi) SATIS(satisfaction)

Fréquence ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 0 ‚ 100 ‚ 100cadre ‚ 0.00 ‚ 10.00 ‚ 10.00 ‚ 0.00 ‚ 100.00 ‚ ‚ 0.00 ‚ 16.67 ‚---------------------------------------------col blanc ‚ 100 ‚ 200 ‚ 300 ‚ 10.00 ‚ 20.00 ‚ 30.00 ‚ 33.33 ‚ 66.67 ‚ ‚ 25.00 ‚ 33.33 ‚---------------------------------------------col bleu ‚ 300 ‚ 300 ‚ 600 ‚ 30.00 ‚ 30.00 ‚ 60.00 ‚ 50.00 ‚ 50.00 ‚ ‚ 75.00 ‚ 50.00 ‚---------------------------------------------Total 400 600 1000 40.00 60.00 100.00

Page 59: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

5959

Dans le tableau précédent, les deux variables Dans le tableau précédent, les deux variables sont dépendantes car:sont dépendantes car:

pour chaque type d’emploi, la distribution de la pour chaque type d’emploi, la distribution de la satisfaction des employés est différente. En effet, 100% satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne);seulement 50% pour les cols bleus (% ligne);

ou bien, pour chaque catégorie de satisfaction, la ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est différente. En effet, chez distribution du type d’emploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).50% respectivement chez les satisfaits (% colonne).

Page 60: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6060

Dans le cas où les deux variables seraient complètement indépendantes, Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau nous aurions les fréquences suivantes dans les cellules du tableau

(remarque: les totaux pour les lignes et les colonnes sont inchangés):(remarque: les totaux pour les lignes et les colonnes sont inchangés):

EMPLOI(emploi) SATIS(satisfaction)

Fréquence |non |satisfait| Total |satisfait| |----------------------------------------------professionnel/ | 40 | 60 | 100cadre | | |----------------------------------------------col blanc | 120 | 180 | 300----------------------------------------------col bleu | 240 | 360 | 600----------------------------------------------Total | 400 | 600 | 1000

Page 61: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6161

La distribution des pourcentages est:La distribution des pourcentages est:

EMPLOI(emploi) SATIS(satisfaction)

Fréquence ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 40 ‚ 60 ‚ 100cadre ‚ 4.00 ‚ 6.00 ‚ 10.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 10.00 ‚ 10.00 ‚---------------------------------------------col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 12.00 ‚ 18.00 ‚ 30.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 30.00 ‚ 30.00 ‚---------------------------------------------col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 24.00 ‚ 36.00 ‚ 60.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 60.00 ‚ 60.00 ‚---------------------------------------------Total 400 600 1000 40.00 60.00 100.00

Page 62: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6262

Dans le tableau précédent, les deux variables Dans le tableau précédent, les deux variables sont indépendantes car:sont indépendantes car:

pour chaque type d’emploi, la distribution de la pour chaque type d’emploi, la distribution de la satisfaction des employés est la même, c.-à-d. satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne).non satisfaits (% ligne).

ou bien, pour chaque catégorie de satisfaction, ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est la même, c.-la distribution du type d’emploi est la même, c.-à-d. 10% sont professionnel/cadre, 30% col à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).blanc et 60% col bleu (% colonne).

Page 63: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6363

Les cellules ij du tableau précédent sont Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. composées de fréquences « théoriques », c.-à-d. les fréquences qu’on devrait avoir si les deux les fréquences qu’on devrait avoir si les deux variables étaient parfaitement indépendantes.variables étaient parfaitement indépendantes.

Si l’hypothèse d ’indépendance est vraie, les Si l’hypothèse d ’indépendance est vraie, les fréquences théoriques pour chaque cellule du fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit:tableau croisé sont trouvées comme suit:

ffthéothéo cellule ij = (total rangée i) x (total colonne j) / totalcellule ij = (total rangée i) x (total colonne j) / total

Page 64: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6464

Tester l’indépendance entre deux variables Tester l’indépendance entre deux variables qualitatives revient à tester la différence entre qualitatives revient à tester la différence entre les fréquences observées et les fréquences les fréquences observées et les fréquences théoriques.théoriques.

Si les deux variables sont indépendantes, les Si les deux variables sont indépendantes, les fréquences observées devraient être proche fréquences observées devraient être proche des fréquences théoriques.des fréquences théoriques.

La statistique du test est donnée par:La statistique du test est donnée par:

22obs obs = somme [(f= somme [(fobsobs-f-fthéothéo))22/f/fthéothéo]]

Page 65: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6565

On rejettera l’hypothèse d’indépendance si la valeur de la On rejettera l’hypothèse d’indépendance si la valeur de la statistique statistique 22

obs obs est grande. est grande.

Le calcul du seuil expérimental (p-value) se fait à l’aide de Le calcul du seuil expérimental (p-value) se fait à l’aide de la loi de probabilité du khi-deux avec le nombre de degrés la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé.dans le tableau croisé.

Remarque: ce test est valide seulement pour les grands Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont théoriques sont 5 (ou presque). 5 (ou presque).

On peut démontrer que 0 On peut démontrer que 0 22obs obs n(m-1), où n(m-1), où

m=minimum (# lignes, # colonnes).m=minimum (# lignes, # colonnes).

Page 66: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6666

La valeur de la statistique La valeur de la statistique 22obs obs vaut 0 lorsque les deux variables vaut 0 lorsque les deux variables

sont parfaitement indépendantes. Elle atteint sa borne supérieure sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.

Le coefficient de Cramer se définit à partir de la statistique Le coefficient de Cramer se définit à partir de la statistique 22obs obs et et

sert à mesurer l’intensité du lien de dépendance entre deux sert à mesurer l’intensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé). variables qualitatives dans un tableau de contingence (croisé).

Coefficient de Cramer:Coefficient de Cramer:

Si les deux variables sont indépendantes, V= 0 ; si une des Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l ’autre, V= 1.variables dépend fonctionnellement de l ’autre, V= 1.

Page 67: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6767

Exemple: dépendance (lien fonctionnel)

EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col blanc ‚ 0 ‚ 300 ‚ 300 ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col bleu ‚ 600 ‚ 0 ‚ 600 ‚ 100.00 ‚ 0.00 ‚ --------------------------------------------- Total 600 400 1000

Statistique DL Valeur P-value ------------------------------------------------ Khi-deux 2 1000.000 0.000

Page 68: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6868

Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction)

Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- Total 400 600 1000

Statistique DL Valeur P-value --------------------------------------------------- Khi-deux 2 0.000 1.000

Page 69: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

6969

Exemple:

EMPLOI(emploi) SATIS(satisfaction)

Fréquence obs. ‚Fréquence théo. ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 17 ‚ 62 ‚ 79cadre ‚ 24.884 ‚ 54.116 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚---------------------------------------------col blanc ‚ 50 ‚ 112 ‚ 162 ‚ 51.028 ‚ 110.97 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚---------------------------------------------col bleu ‚ 99 ‚ 187 ‚ 286 ‚ 90.087 ‚ 195.91 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚---------------------------------------------Total 166 361 527 31.50 68.50 100.00

Page 70: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7070

Résultats du test statistique: (obtenu Résultats du test statistique: (obtenu avec avec tctc..xlsxls))

Donc, on ne rejettera pas l’hypothèse d ’indépendance au niveau =5% car le « p-value » est > 5%.

Statistique du chi-deux: 4.964

2

0.084

Degrés de liberté:

P-value:

Page 71: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7171

Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que les distributions sont les mêmes?les distributions sont les mêmes?

EMPLOI(emploi) SATIS(satisfaction)

Fréquence obs. ‚Fréquence théo. ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 34 ‚ 124 ‚ 158cadre ‚ 49.769 ‚ 108.23 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚---------------------------------------------col blanc ‚ 100 ‚ 224 ‚ 324 ‚ 102.06 ‚ 221.94 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚---------------------------------------------col bleu ‚ 198 ‚ 374 ‚ 572 ‚ 180.17 ‚ 391.83 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚---------------------------------------------Total 332 722 1054 31.50 68.50 100.00

Page 72: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7272

Résultats du test statistique:Résultats du test statistique:

Donc, on rejettera l’hypothèse d’indépendance au niveau =5% car le « p-value » est < 5%!!

Statistique du chi-deux: 9.928

2

0.007

Degrés de liberté:

P-value:

Page 73: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7373

Application: test sur la différence entre deux Application: test sur la différence entre deux proportionsproportions

Dans deux municipalités avoisinantes, on a effectué un Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera probablement dans l ’autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1 , aménager dans cette municipalité. Dans la municipalité 1 , nn11 individus ont répondu au sondage scientifique et n individus ont répondu au sondage scientifique et n22 individus dans la municipalité 2.individus dans la municipalité 2.

Page 74: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7474

Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité2 et 62 étaient en faveur (50%).

H0 : p1 = p2 vs H1 : p1 p2 (test bilatéral)

Remarque: on peut poser le problème de la façon suivante: est-ce qu ’il y a un lien entre la variable municipalité et l’opinion sur l’aménagement d ’un site pour l’enfouissement des déchets.

Page 75: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7575

MUNI(municipalité) OPINIONFréquence‚Fréq th. ‚% ‚% ligne ‚% colonne‚non ‚en ‚ Total ‚favorable‚faveur ‚------------------------------------1 ‚ 66 ‚ 84 ‚ 150 ‚ 70.073 ‚ 79.927 ‚ ‚ 24.09 ‚ 30.66 ‚ 54.74 ‚ 44.00 ‚ 56.00 ‚ ‚ 51.56 ‚ 57.53 ‚------------------------------------2 ‚ 62 ‚ 62 ‚ 124 ‚ 57.927 ‚ 66.073 ‚ ‚ 22.63 ‚ 22.63 ‚ 45.26 ‚ 50.00 ‚ 50.00 ‚ ‚ 48.44 ‚ 42.47 ‚------------------------------------Total 128 146 274 46.72 53.28 100.00

Statistique DL Valeur P-value----------------------------------------------------Khi-deux 1 0.982 0.322

Page 76: Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

7676

En utilisant le test d’indépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter l’hypothèse nulle d’indépendance. Les deux proportions ne sont pas significativement différentes.

Statistique du chi-deux: 0.982

1

0.32176588

Degrés de liberté:

P-value: