linférence statistique. résumé ? r variabilités (é-t, var) tendances centrales (mode, médiane,...

32
L’inférence statistique L’inférence statistique

Upload: orianne-vernet

Post on 04-Apr-2015

109 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

L’inférence statistiqueL’inférence statistique

Page 2: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

RésuméRésumé

?

RVariabilités (é-t, var)

Tendances centrales (mode, médiane, moyenne)InférenceInférence

Page 3: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

PlanPlan

DéfinitionDéfinition Formulation d’hypothèsesFormulation d’hypothèses Prise de décisionPrise de décision Distribution d’échantillonnage moyenDistribution d’échantillonnage moyen Test de significationTest de signification Intervalles de confianceIntervalles de confiance

Page 4: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Inférence statistiqueInférence statistique

2 cas:2 cas: Est-ce qu’un échantillon observé appartient à une Est-ce qu’un échantillon observé appartient à une

population « hypothétique »population « hypothétique » Est-ce que les observations de 2 groupes de sujets Est-ce que les observations de 2 groupes de sujets

représentes des échantillons d’une même représentes des échantillons d’une même population ou de deux populations différentespopulation ou de deux populations différentes

Définition de l’inférence: généralisation d’un Définition de l’inférence: généralisation d’un échantillon à une population.échantillon à une population.

Page 5: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Inférence statistiqueInférence statistique Première possibilitéPremière possibilité

?Inférence

?

1

2

100

100

x xx x

x

x

x

x

x

x

96

100

Page 6: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Inférence statistiqueInférence statistique

Deuxième possibilitéDeuxième possibilité

?Inférence

?

01 2

01 2

100 x xx x

x

x

x

x

1x

x

xx

x xx

x xx

2x

104

110

Page 7: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Formulation d’hypothèsesFormulation d’hypothèses

0

1

:

:

H k

H k

1

0

1

Hypothèse nulle

Hypothèse alternative

Moyenne de la population

Constante

H

H

k

2

0

1

1

2

Hypothèse nulle

Hypothèse alternative

Moyenne de la population 1

Moyenne de la population 2

H

H

0 1 2

1 1 2

:

:

H

H

On test On test HH00

Page 8: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Prise de décisionPrise de décision

À partir des échantillons on décide de rejeter ou non À partir des échantillons on décide de rejeter ou non l’hypothèse nulle.l’hypothèse nulle.

En faisant de l’inférence, on n’est jamais certains de En faisant de l’inférence, on n’est jamais certains de prendre la bonne décisionprendre la bonne décision

Population

ÉchantillonDécision Identique Différente

Identique Bonne Erreur 2

Différente Erreur 1 Bonne

Page 9: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Prise de décisionPrise de décision

2 Erreurs: 1 - Inférer que 2 groupes font partie de 2 populations différentes alors

qu’en réalité elles font partie de la même population. On rejette H0 alors que H0 est vraie.

2 – Inférer que 2 groupes font partie de la même population alors qu’en réalité elles font partie de populations différentes. On accepte H0 alors que H0 est fausse.

Population

ÉchantillonDécision Identique Différente

Identique Bonne Erreur 2

Différente Erreur 1 Bonne

Page 10: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

1- inférence à propos de la moyenne 1- inférence à propos de la moyenne de la populationde la population

Distribution d’échantillonnage moyenDistribution d’échantillonnage moyen

Population

2x2x

1x1x

Échantillons (n)

72

?x

72

3

1x

2xx

Distribution d’échantillonnage moyen

x

x

Page 11: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage Distribution d’échantillonnage moyenmoyen

Caractéristiques: Elle se distribuera selon une courbe normale Elle aura une moyenne égale à celle de la population Elle aura un écart-type égal à la celui de la population

divisé par la racine carré de la grandeur de l’échantillon.

erreur type de la moyennexn

Plus l’échantillon est grand, moins on risque de faire une erreur en inférant la valeur de la moyenne de la population à partir d’un échantillon.

si , xn

Page 12: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage Distribution d’échantillonnage moyenmoyen

Population

72

3

1x

2x2x

1x

Échantillons

10000x10000x

N=9

2x1x

Distribution d’échantillonnage moyen

10000x71.9958

0.9959x

Page 13: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage Distribution d’échantillonnage moyenmoyen

Population

72

3

N=16

1x

2x2x

1x

Échantillons

2x1x

Distribution d’échantillonnage moyen

10000x10000x

10000x71.9984

0.74696x

Page 14: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage Distribution d’échantillonnage moyenmoyen

Population

72

3

N=36

1x

2x2x

1x

Échantillons

2x1x

Distribution d’échantillonnage moyen

10000x10000x

10000x72.0146

0.50165x

Page 15: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage Distribution d’échantillonnage moyenmoyen

Population

72

3

N=144

1x

2x2x

1x

Échantillons

2x1x

Distribution d’échantillonnage moyen

10000x10000x

10000x72.0014

0.24972x

Page 16: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Test de significationTest de signification

Si on présuppose que l’hypothèse nulle est vraie, quelle est la Si on présuppose que l’hypothèse nulle est vraie, quelle est la probabilité d’obtenir une moyenne d’échantillonnage aussi grande probabilité d’obtenir une moyenne d’échantillonnage aussi grande que celle observée ?que celle observée ?

Si c’est peu probable on rejette Si c’est peu probable on rejette HH00, sinon on conserve , sinon on conserve HH00.. Peu probable: 5% ou 1% (convention) = Peu probable: 5% ou 1% (convention) = = seuil de signification = seuil de signification

2 possibilités1- Unicaudale

(Basée sur des expériences antérieures)

Si = 0.05, z = ?

z

HHoo conservée conservée HHoo rejetée rejetée

Si ( )p x Si ( )p x

1.65

Page 17: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Règle de décisionRègle de décision

Si on assume que l’hypothèse nulle est vraie, quelle est la Si on assume que l’hypothèse nulle est vraie, quelle est la probabilité d’obtenir une moyenne d’échantillonnage aussi grande probabilité d’obtenir une moyenne d’échantillonnage aussi grande que celle observée ?que celle observée ?

Si c’est peu probable on rejette Si c’est peu probable on rejette HH00, sinon on conserve , sinon on conserve HH00.. Peu probable: 5% ou 1% (convention) = Peu probable: 5% ou 1% (convention) = = seuil de signification = seuil de signification

z

HHoo conservée conservée HHoo rejetée rejetée

Si ( )p x Si ( )p x

xx

xz

xzOn conserve H0 xz On rejette H0

Page 18: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

65 724,67

1,5xx

xz

Test de significationTest de signification

ExempleExemple

x

critique = z = 1.65z

H

H

x 0

1

Comme z > z critique, on rejette

Par conséquent, on accepte

l'hypothèse alternative

H0: = 72 H1: < 72 (basée sur des expériences antérieures) = 0.05 (5%) = 9 = 65 n = 36

9 91,5

636x

n

Page 19: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Test de significationTest de signification

Si = 0.05, z = ?

z

2- bicaudale

(par défaut)

HHoo conservée conservéeHHoo rejetée rejetée

2

HHoo rejetée rejetée

2

z -1.96 1.96

Page 20: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

9 91,5

636x

n

68 722,667

1,5xx

xz

Test de significationTest de signification

Exemple 2Exemple 2

x

critique = 1,96z

)

H

H

x 0

1

Comme z > z critique , on rejette

( -2.667 > 1.96

Par conséquent, on accepte

l'hypothèse alternative

H0: = 72 H1: 72 (par défaut) = 0.05 (5%) = 9 = 68 n = 36

Page 21: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Intervalles de confianceIntervalles de confiance On n’est jamais certains que la moyenne tirée de notre échantillon On n’est jamais certains que la moyenne tirée de notre échantillon

est exactement la véritable moyenne de la population. Donc, au lieu est exactement la véritable moyenne de la population. Donc, au lieu de donnée uniquement la moyenne, il existe une façon de quantifier de donnée uniquement la moyenne, il existe une façon de quantifier notre degré de certitude voulue en spécifiant un intervalle aux notre degré de certitude voulue en spécifiant un intervalle aux alentours de la moyenne.alentours de la moyenne.

1 x xIC x z x z

Page 22: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

20 202

10100x

n

Intervalles de confianceIntervalles de confiance

Exemple: IC Exemple: IC = 95%= 95%x

= 1- = 1-0,95 = 0,05IC

Il y a donc une probabilité de 95% que

la moyenne de la population soit comprise

entre 46,78 et 54,62

= 50,7 n = 100 = 20

critique = 1,96z

0.95

0.95

0.95

50,7 1,96 2 50,7 1,96 2

50,7 3,92 50,7 3,92

46,78 54,62

IC

IC

IC

Page 23: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

20 202

10100x

n

Intervalles de confianceIntervalles de confiance

Exemple: IC Exemple: IC = 99%= 99%x

= 1- = 1-0,99 = 0,01IC

Il y a donc une probabilité de 99% que

la moyenne de la population soit comprise

entre 45,54 et 55,86

= 50,7 n = 100 = 20

critique = 2,58z

0.99

0.99

0.99

50,7 2,58 2 50,7 2,58 2

50,7 5,16 50,7 5,16

45,54 55,86

IC

IC

IC

Page 24: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Relation entre le test d’hypothèse Relation entre le test d’hypothèse et les intervalles de confianceet les intervalles de confiance

1 ( ) ( )x xIC x z x z

0H

x

x x

On rejette (bicaudale) si :

z > z critique

z > z critique ou z < z critique

Page 25: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

2- inférence à propos de la différence 2- inférence à propos de la différence entre des moyennes de la populationentre des moyennes de la population

Distribution d’échantillonnage des Distribution d’échantillonnage des différences entre les moyennesdifférences entre les moyennes

Population 1x

2x

Échantillons (n)

72

3

1 2

0

?x x

Distribution d’échantillonnage moyen

1 2x x

x1x x

1 2x x

1x x

Page 26: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Distribution d’échantillonnage des Distribution d’échantillonnage des différences entre les moyennesdifférences entre les moyennes

Caractéristiques:Caractéristiques: Elle se distribuera selon une courbe normaleElle se distribuera selon une courbe normale Elle aura une moyenne égale à 0 (Elle aura une moyenne égale à 0 (11--22=0)=0) Elle aura un écart-type égal à :Elle aura un écart-type égal à :

1 2 1 2

2 2 erreur type des différences entre les moyennesx x x x

Page 27: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Règle de décisionRègle de décision

z

HHoo conservée conservée HHoo rejetée rejetée

Si ( )p x Si ( )p x

1 2

1 2

1 2

1 2

1 2 1 21 2

1 2

( ) ( ), puisque 0

( )

x xx x

x xx x

x xz

x xz

1 2x xz 1 2x xz On rejette H0On conserve H0

Page 28: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

1 2

2 25 5

1,186 6x x

1 2

1 2

1 2 50 481,69

1,18x xx x

x xz

Test de significationTest de signification

Exemple: probabilité d’observer la différence Exemple: probabilité d’observer la différence entre les groupes suivants ?entre les groupes suivants ?

critique = 1,96z

H0: 1 = 2 (1 - 2 = 0) H1: 1 2 (1 - 2

0) = 0.05 (5%)

= 50 1 = 5 n1 = 36

2x1x = 48 2 = 5 n2 = 36

1

1

1

5 50,833

636x

n

2

2

2

5 50,833

636x

n

Page 29: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Test de significationTest de signification

Exemple: probabilité d’observer la différence Exemple: probabilité d’observer la différence entre les groupes suivants ?entre les groupes suivants ?

H0: 1 = 2 (1 - 2 = 0) H1: 1 2 (1 - 2

0) = 0.05 (5%)

= 50 1 = 5 n1 = 36

2x1x = 48 2 = 5 n2 = 36

)

H

1 2x -x 0Comme z < z critique , on conserve

( 1,69 1,96

Page 30: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Intervalles de confianceIntervalles de confiance

1 1 2 1 2 1 2x xIC x x z x x z

Page 31: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Test de significationTest de signification

Exemple: Intervalle de confiance à 95%Exemple: Intervalle de confiance à 95%

H0: 1 = 2 (1 - 2 = 0) H1: 1 2 (1 - 2

0) = 0.05 (5%)

= 50 1 = 5 n1 = 36

2x1x = 48 2 = 5 n2 = 36

1 1 2 1 2 1 2

0,95 1 2

0,95 1 2

0,95 1 2

(50 48) 1,96 1,18 (50 48) 1,96 1,18

2 2.3128 2 2.3128

0.3128 4.3128

x xIC x x z x x z

IC

IC

IC

Page 32: Linférence statistique. Résumé ? R Variabilités (é-t, var) Tendances centrales (mode, médiane, moyenne)Inférence

Test de significationTest de signification

Exemple: Intervalle de confiance à 95%Exemple: Intervalle de confiance à 95%

H0: 1 = 2 (1 - 2 = 0) H1: 1 2 (1 - 2

0) = 0.05 (5%)

= 50 1 = 5 n1 = 36

2x1x = 48 2 = 5 n2 = 36

Il y a donc une probabilité de 95% que

la différence de moyennes entre les populations

soit comprise entre - 0,3128 et 4,3128