le chi 2 ou comment savoir si les différences observées sont significatives

Le Chi 2

ou comment savoir si les différences observées sont

significatives

Recueillir des données, c’est :

• - repérer des variables • - repérer les éventualités ou les

modalités• Exemple : variable sexe

• 2 modalités • Garçon/fille

Recueillir des données, c’est aussi :

• Observer le résultat de la mesure de l’observation

Le test du Khi 2 s’applique

• Aux échelles nominales, c’est-à-dire des variables qui n’ont pas une structure mathématique reliant les modalités de l’échelle (ex : le sexe).

• On parlera aussi d’échelles à catégories « discrètes »

Le test du Khi 2 s’appuie sur

• L’hypothèse nulle (HO) à partir de laquelle on va pouvoir déduire l’existence d’une implication statistique

Exemple

• Supposons l’enquête sur les loisirs des lycéens. L’hypothèse formulée est qu’il y a une différence entre les filles et les garçons en matière de cours particuliers. Pour vérifier cela, on ne dispose que d’un échantillon de population et non de l’ensemble des lycéens.

• H0 : au niveau parent, il y a une différence égale à 0 entre les résultats moyens des garçons et ceux des filles. M1-M2=0.

• L’objectif, à travers l’hypothèse nulle, est de calculer la probabilité de trouver par hasard la statistique obtenue, si l’hypothèse nulle est vraie et si l’échantillon a été extrait au hasard.

Application

• Je veux si savoir si le sexe (variable indépendante) influe sur le fait de suivre des cours particuliers (variable dépendante).

• En d’autres termes, je vérifie si oui (rejet de l’HO) ou non le fait de suivre des cours particuliers dépend du sexe.

Enquête loisirs des lycéens

• Je croise la variable 1 et la variable 38 dans modalisa.

• Je mets toujours en ligne la variable indépendante.

• Je présente toujours mon tableau des pourcentages en ligne.

Je constate que

• 38. Cours particuliers1. sexe

• Tableau: % Lignes

• oui non TOTAL• garçon 9,1 90,9 100,0• fille 14,4 85,6 100,0• TOTAL 11,9 88,1 100,0

• Khi2=4,11 ddl=1 p=0,04 (Significatif)

On voit aussi que

• Le Khi2 est égal à 4,11 • Le ddl (degré de liberté) =1 • Le p (seuil) est = 0,04 et il est

significatif• J’ai donc 4% de chance de me

tromper en affirmant que les différences observées dans le tableau sont significatives (rejet de l’H0).

On voit que

• Les filles sont plus nombreuses que les garçons à suivre des cours particuliers (14.4% contre 9.1%).

• Sur 100 garçons, 9.1 suivent des cours particuliers.

• Sur 100 filles, 14.4 suivent des cours particuliers.

Comment se calcule le Khi 2 ?

• On passe du tableau des effectifs observés

• au tableau des effectifs théoriques

69060882TOTAL

36130952fille

32929930garçon

TOTALnonoui

TOTAL

318,142,9fille

289,939,1garçon

TOTALnonoui

Les effectifs théoriques

• Ce sont les effectifs qui auraient été obtenus si les proportions de suivi de cours particuliers étaient dans les deux échantillons rigoureusement équivalentes à la proportion d’ensemble (11.9% soit 82/690*100).

• Dans ce cas, les effectifs théoriques se calculent de la manière suivante:

N4 309N’4 318.1

N3 52N’3 42.9

N2 299N’2 289.9

N1 30N’1 39.5

N’1 = (82*329)/690 N’3 = (82*361)/690N’2 = (608*329)/690 N’4 = (608*361)/690

• On applique ensuite la formule suivante:

• (effectifs observés – effectifs théoriques)²/ effectifs théoriques pour N1, N2, N3 et N4.

• Soit : [(30-39.5)²/39.5]+ [(299-289.9)²/289.9]+ etc.

N4 309N’4

318.1

N3 52N’3 42.9

N2 299N’2

289.9

N1 30N’1 39.5

On obtient alors un X² calculé de 4.11

• On peut aussi construire le tableau de la participation au X² par case (ou X² partiel) :

• oui non TOTAL• garçon 1,9 ,3 2,2• fille 1,7 ,2 1,9• TOTAL 3,6 ,5 4,1

Pour calculer ddl

• On applique la formule suivante :• Nb ddl = (nb colonnes – 1) (nb lignes

– 1)

• Soit (2-1) (2-1) = 1

Trouver le seuil

• Il faut décider d’un seuil à parti duquel on considèrera la probabilité attachée aux écarts observés entre filles et garçons comme significative ou non significative.

• On choisit de manière relativement arbitraire un niveau de signification. Ordinairement, en sociologie comme dans les autres disciplines, on choisit une probabilité de .05 ce qui traduit un risque de 5% de chance de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles.

• Si, à ce seuil, H0 ne peut pas être rejetée, on ne peut pas prendre le risque d’affirmer qu’une différence existe.

• Comment décider du rejet de l’H0 ? On dispose de tables donnant des « valeurs critiques ». Si la valeur calculée sur l’échantillon est supérieure ou égale à la valeur lue dans la table pour le seuil choisi, on rejette l’hypothèse nulle et on accepte l’hypothèse alternative d’une différence de résultat. Dans le cas contraire, on ne peut pas rejeter l’H0.

• Ici, Modalisa affiche un seuil p = .04. Ce qui traduit un risque de 4% de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles.

Conditions d’application du X²

• Si N>40 et si tous les effectifs théoriques sont supérieurs à 5.

• Dans notre cas, N = 690 et tous les effectifs théoriques sont supérieurs à 5.

• Que faire dans le cas contraire ?

Correction de Yates

• Si 20 < N < 40 et si tous les effectifs théoriques sont supérieurs à 5, alors

• X² corrigé• On considère que le test du X² est

valide à condition d’introduire une correction consistant à diminuer de 0.5 chacun des écarts bruts.

• X² = (Ieff. Obs. – eff. Théo.I – 0.5)²/eff. Théo.

Mesurer la liaison

• Pour mesurer la liaison :• On dispose d’indices pour évaluer la force de la liaison entre les modalités

de nos variables.• Avantages de ces indices :• Ils sont égaux à 0 en cas d’indépendance• Ils tendent vers 1 en cas de dépendance• Ils ne dépendent pas du nombre d’observations

• Premier indice : le coefficient Phi = racine carré du X2/N

• Pb : dans le cas d’un tableau à 4 cases, si n1 # n3, le maximum de liaison ne peut atteindre 1.

• Pour pallier cet écueil, on a recours au coefficient de contingence, qui est égal à la racine carré de X2/X2+N.

• Bien que fiable, ce coefficient atteint, selon les cas, une valeur maximale de 0.707 pour une liaison parfaite.

• Valeur maxi de C = racine carré de (q-1) / racine carré de q, q étant le nombre de modalités de la variable qui en comporte le plus, soit 0.95 pour un tableau 10*10, 0.89 pour un tableau 5*5 et 0.71 pour un tableau 2*2.

Un atout de Modalisa: Le PEM

• LE PEM, POURCENTAGE DE L’ÉCART MAXIMUM : UN INDICE DE LIAISON ENTRE MODALITÉS D’UN TABLEAU DE CONTINGENCE

• Par Ph. Cibois• On définit un indice de liaison entre modalités d’un tableau de

contingence, le PEM ou Pourcentage de l’écart maximum. Il permet de construire des profils, c’est-à-dire l’ensemble des modalités de réponse d’une enquête qui sont en attraction avec une modalité donnée.

• P. CIBOIS, Le P.E.M., Pourcentage de l’écart maximum: un indice de liaison entre modalités d’un tableau de contingence, in Bulletin de Méthodologie Sociologique, N.40, Septembre

• 1993, pp.43-63.

• Mais attention : la liaison n’est pas Causalité• On a toujours tendance à envisager une relation causale entre nos

variables. Pourtant, plusieurs types de relations causales peuvent expliquer le lien entre À et B :

• À cause B ou B cause À (la poule ou l’œuf)• Les deux variables ont une cause commune, par exemple

lorsque les deux sont causées par une troisième variable. Ex : le redoublement est lié à l’échec scolaire car les deux sont liées à l’origine sociale.

• Mais on peut aussi dire qu’il existe un intermédiaire causal : une variable provoque un évènement, lui-même étant la cause d’une variable : le redoublement provoque l’échec scolaire, lui-même favorisant les décisions d’abandon scolaire.

• Etc.• En somme, une liaison statistique n’est pas une condition suffisante

pour parler de causalité. En revanche le travail qui est fait en amont par le chercheur, en l’occurrence l’élaboration d’un ensemble d’hypothèses théoriques, constitue un moyen de transformer la liaison en causalité.

le chi 2 ou comment savoir si les différences observées sont significatives

Documents