et derrière le chi-deux d’indépendance · si le test du chi-deux permet d’évaluer la...

Et derrière le Chi-deux d’indépendance ?

Si le test du chi-deux permet d’évaluer la significativité de l’écart à l’indépendance, il nous faut, pour être complet,

étudier l’intensité de la relation mise en évidence

On s’appuiera sur les deux exemples traités (l’un en écologie, l’autre en sociologie)

Ne pas oublier de faire preuve de bon sens

On est au delà du chi-deux : Analyse Factorielle des Correspondances (AFC)

On est déjà (sans s’en rendre compte) dans une statistique de pros!!!

On va utiliser une bibliothèque (package) de R : FactoMineR

Méthode basée sur une interprétation graphique

Mais d’abord commençons par le V de Cramer

Vous n’allez plus voir les stats de la même façon…

Propriétés du V de Cramer :

- sa valeur est toujours comprise entre 0 et 1 ;

- plus le V est élevé, plus la dépendance entre les deux variables est forte ;

- plus le V est faible, plus les variables se rapprochent de l’indépendance ;

- V=0 se rencontre dans le cas où les deux variables sont parfaitement indépendantes,

et V=1, dans le cas où les variables sont totalement dépendantes ;

- le V ne dépend ni des effectifs ni des dimensions du tableau, il peut être comparé d’un tableau à l’autre.

Le V de Cramer

>>> mesure du degré de dépendance entre les lignes et les colonnes d’un tableau

3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4) différents

VD : Espèce de la plante/fleurs, variable dépendante

VI : Milieux (écologique), variable indépendante

Le développement de l’espèce (SP1,SP2,SP3) dépend-elle du milieu d’observation ?

rm(list=ls(all=TRUE))tab=read.csv2("dataset1.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tabchisq.test(tab)n=sum(tab)ndenom=n*(min(dim(tab)[1],dim(tab)[2])-1)denomvcram=sqrt(chisq.test(tab)$statistic/denom)vcram

;R1;R2;R3;R4

Sp1;69;172;133;27

Sp2;41;84;118;11

Sp3;18;127;157;43

(dataset1.txt)

écarts à l'indépendance hautement significatifs

(révélés par le test du Chi-deux : pval < 10-9).

Indication de l'intensité de la liaison grâce au

calcul du coefficient V de Cramer : liaison de

faible intensité.

une liaison faible hautement significative

bien dissocier la significativité de l’intensité d’une relation entre 2 variables

si cette liaison est relativement faible

c'est que le développement des plantes ne dépend pas uniquement du milieu de croissance.

Le milieu intervient bien dans le développement des plantes mais ce n'est pas le seul facteur.

On passe, dés lors, d'une statistique bivariée à une statistique multivariée !

En biologie les choses peuvent s'expliquer mais il faut tenir compte de tous les facteurs identifiables.

Cependant certains facteurs ne pourront pas être identifiés ou du moins pas avant de longues années

de recherche.

vcram=sqrt(chisq.test(tab)$statistic/denom)> vcram

0.159846

;R1;R2;R3;R4

Sp1;69;172;133;27

Sp2;41;84;118;11

Sp3;18;127;157;43

3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4) différents


VI : Milieux (écologique), variable indépendante

Le développement de l’espèce (SP1,SP2,SP3) dépend-elle du milieu d’observation ?

Le V de Cramer

>>> mesure du degré de dépendance entre les lignes et les colonnes d’un tableau

Mais le V de Cramer, est un coefficient donnant l’intensité globale de la liaison, il ne rend pas compte

du détail précis de cette liaison ; des associations les plus marquées et des associations les moins

marquées entre les modalités des deux variables qualitatives dont on étudie la dépendance.

Ok, le V de cramer est proche de 1 si les variables sont liées entre elles…

Mais cette statistique ne répond pas aux questions suivantes :

- Par case : quelle est l’association entre une modalité ligne i et une modalité colonne j

et quelles sont les associations les plus remarquables?

- Par ligne : quelles sont les modalités qui ont un profil colonne particulier?

- Par colonne : quelles sont les modalités qui ont un profil ligne particulier?

Pour répondre à ces questions, on fait appel à l‘Analyse en Facteurs de Correspondance (AFC), utilisant la

métrique du c2, méthode développée par Jean-Paul Benzecri et ses collaborateurs à la fin des années 70.

L'AFC sert à déterminer et à hiérarchiser toutes les dépendances entre les lignes et les colonnes du tableau.

Chaque ligne du tableau est affectée d'une masse qui est sa somme marginale, le tableau étudié est le tableau

des profils des lignes. On construit alors la matrice des distances du chi-deux, écarts à l’indépendance puis on

change d’axe (calcul matriciel) pour choisir comme premier axe (premier facteur ou première composante) l’axe

qui rendra compte du maximum d’inertie du nuage de points. Le deuxième facteur est l’axe perpendiculaire au

premier (garantit l’indépendance des deux facteurs, le produit scalaire des deux vecteurs directeurs étant nul).

Il existe d'autres programmes qui réalisent l’ AF dans R mais aussi dans d'autres distributions comme Statistica,

SPSS, Stata, Spd, Statview, eview etc. Ils sont tous basés sur la même méthode développée par J.P. Benzecri

Pour cela, nous allons commencer par inspecter 2 cas particuliers (voir tableau) un cas d'indépendance totale et

un autre de totale dépendance.

Revenons justement au calcul du Chi-deux en cas de totale dépendance/'indépendance.

Nous allons ainsi comprendre les fondements du V de Cramer.

Il nous faudra installer une bibliothèque spécifique sous R (pakage) : FactoMiner

Je souhaite avant tout vous faire découvrir l'outil par la pratique (plus précisément l’analyse des facteurs de

correspondance, une bonne introduction à l’ensemble des méthodes regroupées sous le titre globale d’analyse

factorielle). Nous commenterons ensuite les résultats progressivement, verrons tout le parti que l'on peut tirer de

ces analyses pour faire parler les données et mettrons en place juste ce qu'il faut de théorie.

Cette partie consacrée à faire parler les données pour étudier la liaison entre 2 variables qualitatives s'appelle

l’Analyse en Facteurs de Correspondance. Tout un programme!

Et si nous passions à l’Analyse Factorielle?

Premier exemple

3 espèces répertoriées dans 4 milieux (R1, R2, R3, R4)


VI : Milieux (écologique), variable indépendanteEspèce et milieu sont-ils reliés ?

;R1;R2;R3;R4

Sp1;69;172;133;27

Sp2;41;84;118;11

Sp3;18;127;157;43

rm(list=ls(all=TRUE))tab=read.csv2("dataset1.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tab# Analyse Factorielle# -------------------------library(FactoMineR)CA(tab)

Interpréter l’association qui a été testée par le chi-2

(d’indépendance) et mesurée par le V de Cramer

par cette Analyse en Facteurs de Correspondance

- On commence par rechercher les informations que les axes décrivent le mieux (les vecteurs des modalités se

projetant le mieux sur les axes) pour chaque variables séparément (en norme et en angle).

- On recherche les associations et les oppositions les plus importantes sur ces axes (par variable puis par couples

de variables), basées sur la mesure des angles des vecteurs associés, pour essayer d’interpréter (en français)

chacun des deux axes. Ceci permet de donner un sens aux axes qu’on appelle les facteurs de correspondance.

Le pourcentage d’inertie du nuage de points (variance) expliquée par un facteur est la valeur propre associée à

l’axe (notée l, « eigen value » en Anglais)

- On s’intéresse pour finir aux informations les plus excentrées, c’est-à-dire aux modalité qui sont dans une

situation favorables à expliquer la dépendance entre les deux variables.

- On peut également noter les informations trop proches du barycentre (profils moyens), ceci ne constitue pas une

non information mais peut-être une part de l’explication des différences observées (le centre de gravité

représentant l'information qui ne s'éloigne pas du comportement moyen=situation d'indépendance).

Donner un sens à l’association qui a été testée par le chi-deux ,

mesurée par le V de Cramer et analysée par l’analyse en Facteurs de Correspondance

Deuxième exemple

Le sentiment d’appartenir à une classe dépend-il de la catégorie socio-professionnelle ?

;Appartient;N’appartient pas;Ne sait pasAgriculteur;125;194;9Indépendant;190;300;6Cadre;588;433;9Intermédiaire;842;694;10Employé;1105;1227;38Ouvrier;888;1024;45

rm(list=ls(all=TRUE))tab=read.csv2("enquete_socio_2003.txt" , sep=";" , header=TRUE, na.strings="NA",row.names=1)tab# Analyse Factorielle# -------------------------library(FactoMineR)CA(tab)

Une vision moins approximative de la situation

Graphiquement, plus petit (aigu) est

l'angle entre un point et un axe (le

sommet de l'angle est à l'origine), plus

proche de 1 sera sa correspondance

sur cet axe. C'est donc le facteur (axe)

duquel un point sera le plus proche qui

exprimera le mieux son éloignement du

profil moyen. Par exemple, Agriculteur,

Cadre, Intermédiaire, sont poches de

l’axe 1 (facteur 1) et ne sait pas, le

mieux représenté par l’axe 2 (facteur 2)

La norme de la projection du vecteur

sur l’axe mesure, quant à elle, l’écart à

l’indépendance révélée par l’axe pour

la modalité considérée, Par exemple :

fort écart au profil moyen pour

Agriculteur tandis que pratiquement

pas d’écart à l’indépendance pour

Employé.

Une vision moins approximative de la situation

Ce sont en fait les angles par rapport

à l'origine entre un point-ligne et un

point-colonne qui vont nous donner

l’intensité des relations entres les

modalités des ligne et celles des

colonnes.

- Si l'angle entre les deux points est

aigu (< 90º), les deux modalités des

variables lignes et colonnes s'attirent.

- Au contraire, si l'angle est obtus

(>90º), les modalités se repoussent,

- Enfin, si l'angle est droit, les

modalités n'interagissent pas.

Par exemple Cadre et Appartient sont

très liées (produit scalaire des vecteurs

associés proche de 1) tandis que les

modalités Appartient et Agriculteur se

repoussent entre elles (produit scalaire

des vecteurs associés voisin -1).

Autre exemple : Génomique

Génome de la tuberculose comparé à celui d’autres pathogènes (publié dans la revue Nature)

Sans chercher à interpréter trop

d’informations, le premier axe

(premier facteur) révèle pour Mt

une très atypique fréquence de G

et C (codons associés aux acides

aminés les plus fréquents dans le

génome). Cette analyse apporte

de nouvelles connaissances sur

ce pathogène hyper résistant et

ouvre des pistes à explorer pour

lancer une recherche (ciblé)

d’antibiotiques efficaces (par ex

en s’intéressant aux enzymes ou

voies métaboliques associées à

ce codage particulier).

A + T G + C

Mycobacterium tuberculosis

Autre exemple : Agrochimie (Top Box Ranking)

Jugement herbicides cultures soja (3 marques) / top box ranking

Vulnérabilité des cultures de soja pour 2 mauvaises

herbes : Giant Ragweed et Lambsquarters.

et derrière le chi-deux d’indépendance · si le test du chi-deux permet d’évaluer la...

Documents