et derrière le chi-deux d’indépendance · si le test du chi-deux permet d’évaluer la...
TRANSCRIPT
Et derrière le Chi-deux d’indépendance ?
Si le test du chi-deux permet d’évaluer la significativité de l’écart à l’indépendance, il nous faut, pour être complet,
étudier l’intensité de la relation mise en évidence
On s’appuiera sur les deux exemples traités (l’un en écologie, l’autre en sociologie)
Ne pas oublier de faire preuve de bon sens
On est au delà du chi-deux : Analyse Factorielle des Correspondances (AFC)
On est déjà (sans s’en rendre compte) dans une statistique de pros!!!
On va utiliser une bibliothèque (package) de R : FactoMineR
Méthode basée sur une interprétation graphique
Mais d’abord commençons par le V de Cramer
Vous n’allez plus voir les stats de la même façon…
Propriétés du V de Cramer :
- sa valeur est toujours comprise entre 0 et 1 ;
- plus le V est élevé, plus la dépendance entre les deux variables est forte ;
- plus le V est faible, plus les variables se rapprochent de l’indépendance ;
- V=0 se rencontre dans le cas où les deux variables sont parfaitement indépendantes,
et V=1, dans le cas où les variables sont totalement dépendantes ;
- le V ne dépend ni des effectifs ni des dimensions du tableau, il peut être comparé d’un tableau à l’autre.
Le V de Cramer
>>> mesure du degré de dépendance entre les lignes et les colonnes d’un tableau
3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4) différents
VD : Espèce de la plante/fleurs, variable dépendante
VI : Milieux (écologique), variable indépendante
Le développement de l’espèce (SP1,SP2,SP3) dépend-elle du milieu d’observation ?
rm(list=ls(all=TRUE))tab=read.csv2("dataset1.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tabchisq.test(tab)n=sum(tab)ndenom=n*(min(dim(tab)[1],dim(tab)[2])-1)denomvcram=sqrt(chisq.test(tab)$statistic/denom)vcram
;R1;R2;R3;R4
Sp1;69;172;133;27
Sp2;41;84;118;11
Sp3;18;127;157;43
(dataset1.txt)
écarts à l'indépendance hautement significatifs
(révélés par le test du Chi-deux : pval < 10-9).
Indication de l'intensité de la liaison grâce au
calcul du coefficient V de Cramer : liaison de
faible intensité.
une liaison faible hautement significative
bien dissocier la significativité de l’intensité d’une relation entre 2 variables
si cette liaison est relativement faible
c'est que le développement des plantes ne dépend pas uniquement du milieu de croissance.
Le milieu intervient bien dans le développement des plantes mais ce n'est pas le seul facteur.
On passe, dés lors, d'une statistique bivariée à une statistique multivariée !
En biologie les choses peuvent s'expliquer mais il faut tenir compte de tous les facteurs identifiables.
Cependant certains facteurs ne pourront pas être identifiés ou du moins pas avant de longues années
de recherche.
vcram=sqrt(chisq.test(tab)$statistic/denom)> vcram
0.159846
;R1;R2;R3;R4
Sp1;69;172;133;27
Sp2;41;84;118;11
Sp3;18;127;157;43
3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4) différents
VD : Espèce de la plante/fleurs, variable dépendante
VI : Milieux (écologique), variable indépendante
Le développement de l’espèce (SP1,SP2,SP3) dépend-elle du milieu d’observation ?
Le V de Cramer
>>> mesure du degré de dépendance entre les lignes et les colonnes d’un tableau
Mais le V de Cramer, est un coefficient donnant l’intensité globale de la liaison, il ne rend pas compte
du détail précis de cette liaison ; des associations les plus marquées et des associations les moins
marquées entre les modalités des deux variables qualitatives dont on étudie la dépendance.
Ok, le V de cramer est proche de 1 si les variables sont liées entre elles…
Mais cette statistique ne répond pas aux questions suivantes :
- Par case : quelle est l’association entre une modalité ligne i et une modalité colonne j
et quelles sont les associations les plus remarquables?
- Par ligne : quelles sont les modalités qui ont un profil colonne particulier?
- Par colonne : quelles sont les modalités qui ont un profil ligne particulier?
Pour répondre à ces questions, on fait appel à l‘Analyse en Facteurs de Correspondance (AFC), utilisant la
métrique du c2, méthode développée par Jean-Paul Benzecri et ses collaborateurs à la fin des années 70.
L'AFC sert à déterminer et à hiérarchiser toutes les dépendances entre les lignes et les colonnes du tableau.
Chaque ligne du tableau est affectée d'une masse qui est sa somme marginale, le tableau étudié est le tableau
des profils des lignes. On construit alors la matrice des distances du chi-deux, écarts à l’indépendance puis on
change d’axe (calcul matriciel) pour choisir comme premier axe (premier facteur ou première composante) l’axe
qui rendra compte du maximum d’inertie du nuage de points. Le deuxième facteur est l’axe perpendiculaire au
premier (garantit l’indépendance des deux facteurs, le produit scalaire des deux vecteurs directeurs étant nul).
Il existe d'autres programmes qui réalisent l’ AF dans R mais aussi dans d'autres distributions comme Statistica,
SPSS, Stata, Spd, Statview, eview etc. Ils sont tous basés sur la même méthode développée par J.P. Benzecri
Pour cela, nous allons commencer par inspecter 2 cas particuliers (voir tableau) un cas d'indépendance totale et
un autre de totale dépendance.
Revenons justement au calcul du Chi-deux en cas de totale dépendance/'indépendance.
Nous allons ainsi comprendre les fondements du V de Cramer.
Il nous faudra installer une bibliothèque spécifique sous R (pakage) : FactoMiner
Je souhaite avant tout vous faire découvrir l'outil par la pratique (plus précisément l’analyse des facteurs de
correspondance, une bonne introduction à l’ensemble des méthodes regroupées sous le titre globale d’analyse
factorielle). Nous commenterons ensuite les résultats progressivement, verrons tout le parti que l'on peut tirer de
ces analyses pour faire parler les données et mettrons en place juste ce qu'il faut de théorie.
Cette partie consacrée à faire parler les données pour étudier la liaison entre 2 variables qualitatives s'appelle
l’Analyse en Facteurs de Correspondance. Tout un programme!
Et si nous passions à l’Analyse Factorielle?
Premier exemple
3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4)
VD : Espèce de la plante/fleurs, variable dépendante
VI : Milieux (écologique), variable indépendanteEspèce et milieu sont-ils reliés ?
;R1;R2;R3;R4
Sp1;69;172;133;27
Sp2;41;84;118;11
Sp3;18;127;157;43
rm(list=ls(all=TRUE))tab=read.csv2("dataset1.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tab# Analyse Factorielle# -------------------------library(FactoMineR)CA(tab)
Interpréter l’association qui a été testée par le chi-2
(d’indépendance) et mesurée par le V de Cramer
par cette Analyse en Facteurs de Correspondance
- On commence par rechercher les informations que les axes décrivent le mieux (les vecteurs des modalités se
projetant le mieux sur les axes) pour chaque variables séparément (en norme et en angle).
- On recherche les associations et les oppositions les plus importantes sur ces axes (par variable puis par couples
de variables), basées sur la mesure des angles des vecteurs associés, pour essayer d’interpréter (en français)
chacun des deux axes. Ceci permet de donner un sens aux axes qu’on appelle les facteurs de correspondance.
Le pourcentage d’inertie du nuage de points (variance) expliquée par un facteur est la valeur propre associée à
l’axe (notée l, « eigen value » en Anglais)
- On s’intéresse pour finir aux informations les plus excentrées, c’est-à-dire aux modalité qui sont dans une
situation favorables à expliquer la dépendance entre les deux variables.
- On peut également noter les informations trop proches du barycentre (profils moyens), ceci ne constitue pas une
non information mais peut-être une part de l’explication des différences observées (le centre de gravité
représentant l'information qui ne s'éloigne pas du comportement moyen=situation d'indépendance).
Donner un sens à l’association qui a été testée par le chi-deux ,
mesurée par le V de Cramer et analysée par l’analyse en Facteurs de Correspondance
Deuxième exemple
Le sentiment d’appartenir à une classe dépend-il de la catégorie socio-professionnelle ?
;Appartient;N’appartient pas;Ne sait pasAgriculteur;125;194;9Indépendant;190;300;6Cadre;588;433;9Intermédiaire;842;694;10Employé;1105;1227;38Ouvrier;888;1024;45
rm(list=ls(all=TRUE))tab=read.csv2("enquete_socio_2003.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tab# Analyse Factorielle# -------------------------library(FactoMineR)CA(tab)
Une vision moins approximative de la situation
Graphiquement, plus petit (aigu) est
l'angle entre un point et un axe (le
sommet de l'angle est à l'origine), plus
proche de 1 sera sa correspondance
sur cet axe. C'est donc le facteur (axe)
duquel un point sera le plus proche qui
exprimera le mieux son éloignement du
profil moyen. Par exemple, Agriculteur,
Cadre, Intermédiaire, sont poches de
l’axe 1 (facteur 1) et ne sait pas, le
mieux représenté par l’axe 2 (facteur 2)
La norme de la projection du vecteur
sur l’axe mesure, quant à elle, l’écart à
l’indépendance révélée par l’axe pour
la modalité considérée, Par exemple :
fort écart au profil moyen pour
Agriculteur tandis que pratiquement
pas d’écart à l’indépendance pour
Employé.
Une vision moins approximative de la situation
Ce sont en fait les angles par rapport
à l'origine entre un point-ligne et un
point-colonne qui vont nous donner
l’intensité des relations entres les
modalités des ligne et celles des
colonnes.
- Si l'angle entre les deux points est
aigu (< 90º), les deux modalités des
variables lignes et colonnes s'attirent.
- Au contraire, si l'angle est obtus
(>90º), les modalités se repoussent,
- Enfin, si l'angle est droit, les
modalités n'interagissent pas.
Par exemple Cadre et Appartient sont
très liées (produit scalaire des vecteurs
associés proche de 1) tandis que les
modalités Appartient et Agriculteur se
repoussent entre elles (produit scalaire
des vecteurs associés voisin -1).
Autre exemple : Génomique
Génome de la tuberculose comparé à celui d’autres pathogènes (publié dans la revue Nature)
Sans chercher à interpréter trop
d’informations, le premier axe
(premier facteur) révèle pour Mt
une très atypique fréquence de G
et C (codons associés aux acides
aminés les plus fréquents dans le
génome). Cette analyse apporte
de nouvelles connaissances sur
ce pathogène hyper résistant et
ouvre des pistes à explorer pour
lancer une recherche (ciblé)
d’antibiotiques efficaces (par ex
en s’intéressant aux enzymes ou
voies métaboliques associées à
ce codage particulier).
A + T G + C
Mycobacterium tuberculosis
Autre exemple : Agrochimie (Top Box Ranking)
Jugement herbicides cultures soja (3 marques) / top box ranking
Vulnérabilité des cultures de soja pour 2 mauvaises
herbes : Giant Ragweed et Lambsquarters.