le chi 2 ou comment savoir si les différences observées sont significatives

24
Le Chi 2 ou comment savoir si les différences observées sont significatives

Upload: donatien-potier

Post on 04-Apr-2015

107 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le Chi 2 ou comment savoir si les différences observées sont significatives

Le Chi 2

ou comment savoir si les différences observées sont

significatives

Page 2: Le Chi 2 ou comment savoir si les différences observées sont significatives

Recueillir des données, c’est :

• - repérer des variables • - repérer les éventualités ou les

modalités• Exemple : variable sexe

• 2 modalités • Garçon/fille

Page 3: Le Chi 2 ou comment savoir si les différences observées sont significatives

Recueillir des données, c’est aussi :

• Observer le résultat de la mesure de l’observation

Page 4: Le Chi 2 ou comment savoir si les différences observées sont significatives

Le test du Khi 2 s’applique

• Aux échelles nominales, c’est-à-dire des variables qui n’ont pas une structure mathématique reliant les modalités de l’échelle (ex : le sexe).

• On parlera aussi d’échelles à catégories « discrètes »

Page 5: Le Chi 2 ou comment savoir si les différences observées sont significatives

Le test du Khi 2 s’appuie sur

• L’hypothèse nulle (HO) à partir de laquelle on va pouvoir déduire l’existence d’une implication statistique

Page 6: Le Chi 2 ou comment savoir si les différences observées sont significatives

Exemple

• Supposons l’enquête sur les loisirs des lycéens. L’hypothèse formulée est qu’il y a une différence entre les filles et les garçons en matière de cours particuliers. Pour vérifier cela, on ne dispose que d’un échantillon de population et non de l’ensemble des lycéens.

• H0 : au niveau parent, il y a une différence égale à 0 entre les résultats moyens des garçons et ceux des filles. M1-M2=0.

• L’objectif, à travers l’hypothèse nulle, est de calculer la probabilité de trouver par hasard la statistique obtenue, si l’hypothèse nulle est vraie et si l’échantillon a été extrait au hasard.

Page 7: Le Chi 2 ou comment savoir si les différences observées sont significatives

Application

• Je veux si savoir si le sexe (variable indépendante) influe sur le fait de suivre des cours particuliers (variable dépendante).

• En d’autres termes, je vérifie si oui (rejet de l’HO) ou non le fait de suivre des cours particuliers dépend du sexe.

Page 8: Le Chi 2 ou comment savoir si les différences observées sont significatives

Enquête loisirs des lycéens

• Je croise la variable 1 et la variable 38 dans modalisa.

• Je mets toujours en ligne la variable indépendante.

• Je présente toujours mon tableau des pourcentages en ligne.

Page 9: Le Chi 2 ou comment savoir si les différences observées sont significatives

Je constate que

• 38. Cours particuliers1. sexe

• Tableau: % Lignes

•   oui non TOTAL• garçon 9,1 90,9 100,0• fille 14,4 85,6 100,0• TOTAL 11,9 88,1 100,0

• Khi2=4,11 ddl=1 p=0,04 (Significatif)

Page 10: Le Chi 2 ou comment savoir si les différences observées sont significatives

On voit aussi que

• Le Khi2 est égal à 4,11 • Le ddl (degré de liberté) =1 • Le p (seuil) est = 0,04 et il est

significatif• J’ai donc 4% de chance de me

tromper en affirmant que les différences observées dans le tableau sont significatives (rejet de l’H0).

Page 11: Le Chi 2 ou comment savoir si les différences observées sont significatives

On voit que

• Les filles sont plus nombreuses que les garçons à suivre des cours particuliers (14.4% contre 9.1%).

•  Sur 100 garçons, 9.1 suivent des cours particuliers.

• Sur 100 filles, 14.4 suivent des cours particuliers.

Page 12: Le Chi 2 ou comment savoir si les différences observées sont significatives

Comment se calcule le Khi 2 ?

• On passe du tableau des effectifs observés

• au tableau des effectifs théoriques

69060882TOTAL

36130952fille

32929930garçon

TOTALnonoui 

TOTAL

318,142,9fille

289,939,1garçon

TOTALnonoui 

Page 13: Le Chi 2 ou comment savoir si les différences observées sont significatives

Les effectifs théoriques

• Ce sont les effectifs qui auraient été obtenus si les proportions de suivi de cours particuliers étaient dans les deux échantillons rigoureusement équivalentes à la proportion d’ensemble (11.9% soit 82/690*100).

• Dans ce cas, les effectifs théoriques se calculent de la manière suivante:

Page 14: Le Chi 2 ou comment savoir si les différences observées sont significatives

N4 309N’4 318.1

N3 52N’3 42.9

N2 299N’2 289.9

N1 30N’1 39.5

N’1 = (82*329)/690 N’3 = (82*361)/690N’2 = (608*329)/690 N’4 = (608*361)/690

Page 15: Le Chi 2 ou comment savoir si les différences observées sont significatives

• On applique ensuite la formule suivante:

• (effectifs observés – effectifs théoriques)²/ effectifs théoriques pour N1, N2, N3 et N4.

• Soit : [(30-39.5)²/39.5]+ [(299-289.9)²/289.9]+ etc.

N4 309N’4

318.1

N3 52N’3 42.9

N2 299N’2

289.9

N1 30N’1 39.5

Page 16: Le Chi 2 ou comment savoir si les différences observées sont significatives

On obtient alors un X² calculé de 4.11

• On peut aussi construire le tableau de la participation au X² par case (ou X² partiel) :

•   oui non TOTAL• garçon 1,9 ,3 2,2• fille 1,7 ,2 1,9• TOTAL 3,6 ,5 4,1

Page 17: Le Chi 2 ou comment savoir si les différences observées sont significatives

Pour calculer ddl

• On applique la formule suivante :• Nb ddl = (nb colonnes – 1) (nb lignes

– 1)

• Soit (2-1) (2-1) = 1

Page 18: Le Chi 2 ou comment savoir si les différences observées sont significatives

Trouver le seuil

• Il faut décider d’un seuil à parti duquel on considèrera la probabilité attachée aux écarts observés entre filles et garçons comme significative ou non significative.

• On choisit de manière relativement arbitraire un niveau de signification. Ordinairement, en sociologie comme dans les autres disciplines, on choisit une probabilité de .05 ce qui traduit un risque de 5% de chance de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles.

• Si, à ce seuil, H0 ne peut pas être rejetée, on ne peut pas prendre le risque d’affirmer qu’une différence existe.

• Comment décider du rejet de l’H0 ? On dispose de tables donnant des « valeurs critiques ». Si la valeur calculée sur l’échantillon est supérieure ou égale à la valeur lue dans la table pour le seuil choisi, on rejette l’hypothèse nulle et on accepte l’hypothèse alternative d’une différence de résultat. Dans le cas contraire, on ne peut pas rejeter l’H0.

• Ici, Modalisa affiche un seuil p = .04. Ce qui traduit un risque de 4% de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles.

Page 19: Le Chi 2 ou comment savoir si les différences observées sont significatives

Conditions d’application du X²

• Si N>40 et si tous les effectifs théoriques sont supérieurs à 5.

• Dans notre cas, N = 690 et tous les effectifs théoriques sont supérieurs à 5.

• Que faire dans le cas contraire ?

Page 20: Le Chi 2 ou comment savoir si les différences observées sont significatives

Correction de Yates

• Si 20 < N < 40 et si tous les effectifs théoriques sont supérieurs à 5, alors

• X² corrigé• On considère que le test du X² est

valide à condition d’introduire une correction consistant à diminuer de 0.5 chacun des écarts bruts.

• X² = (Ieff. Obs. – eff. Théo.I – 0.5)²/eff. Théo.

Page 21: Le Chi 2 ou comment savoir si les différences observées sont significatives

Mesurer la liaison

• Pour mesurer la liaison :• On dispose d’indices pour évaluer la force de la liaison entre les modalités

de nos variables.• Avantages de ces indices :• Ils sont égaux à 0 en cas d’indépendance• Ils tendent vers 1 en cas de dépendance• Ils ne dépendent pas du nombre d’observations

• Premier indice : le coefficient Phi = racine carré du X2/N

• Pb : dans le cas d’un tableau à 4 cases, si n1 # n3, le maximum de liaison ne peut atteindre 1.

• Pour pallier cet écueil, on a recours au coefficient de contingence, qui est égal à la racine carré de X2/X2+N.

• Bien que fiable, ce coefficient atteint, selon les cas, une valeur maximale de 0.707 pour une liaison parfaite.

Page 22: Le Chi 2 ou comment savoir si les différences observées sont significatives

• Valeur maxi de C = racine carré de (q-1) / racine carré de q, q étant le nombre de modalités de la variable qui en comporte le plus, soit 0.95 pour un tableau 10*10, 0.89 pour un tableau 5*5 et 0.71 pour un tableau 2*2.

Page 23: Le Chi 2 ou comment savoir si les différences observées sont significatives

Un atout de Modalisa: Le PEM

• LE PEM, POURCENTAGE DE L’ÉCART MAXIMUM : UN INDICE DE LIAISON ENTRE MODALITÉS D’UN TABLEAU DE CONTINGENCE

• Par Ph. Cibois• On définit un indice de liaison entre modalités d’un tableau de

contingence, le PEM ou Pourcentage de l’écart maximum. Il permet de construire des profils, c’est-à-dire l’ensemble des modalités de réponse d’une enquête qui sont en attraction avec une modalité donnée.

• P. CIBOIS, Le P.E.M., Pourcentage de l’écart maximum: un indice de liaison entre modalités d’un tableau de contingence, in Bulletin de Méthodologie Sociologique, N.40, Septembre

• 1993, pp.43-63.

Page 24: Le Chi 2 ou comment savoir si les différences observées sont significatives

• Mais attention : la liaison n’est pas Causalité• On a toujours tendance à envisager une relation causale entre nos

variables. Pourtant, plusieurs types de relations causales peuvent expliquer le lien entre À et B :

• À cause B ou B cause À (la poule ou l’œuf)• Les deux variables ont une cause commune, par exemple

lorsque les deux sont causées par une troisième variable. Ex : le redoublement est lié à l’échec scolaire car les deux sont liées à l’origine sociale.

• Mais on peut aussi dire qu’il existe un intermédiaire causal : une variable provoque un évènement, lui-même étant la cause d’une variable : le redoublement provoque l’échec scolaire, lui-même favorisant les décisions d’abandon scolaire.

• Etc.• En somme, une liaison statistique n’est pas une condition suffisante

pour parler de causalité. En revanche le travail qui est fait en amont par le chercheur, en l’occurrence l’élaboration d’un ensemble d’hypothèses théoriques, constitue un moyen de transformer la liaison en causalité.