analyse statistique pour données à haut débit

123
Analyse statistique pour données à haut débit Sébastien Déjean www.lsp.ups-tlse.fr/Dejean Institut de Mathématiques de Toulouse Université Paul Sabatier (Toulouse III) Licence professionnelle Systèmes d'informations et de modélisations appliqués à la Bioinformatique Institut Universitaire de Technologie Aurillac, Université Clermont-Ferrand I Cours préparé en collaboration avec Pascal Martin Unité de Pharmacologie et Toxicologie, INRA Toulouse

Upload: others

Post on 18-Jun-2022

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse statistique pour données à haut débit

Analyse statistique pour données à haut débit

Sébastien Déjean www.lsp.ups-tlse.fr/Dejean

Institut de Mathématiques de ToulouseUniversité Paul Sabatier (Toulouse III)

Licence professionnelle Systèmes d'informations et de modélisations appliqués à la Bioinformatique Institut Universitaire de Technologie Aurillac, Université Clermont-Ferrand I

Cours préparé en collaboration avec Pascal Martin

Unité de Pharmacologie et Toxicologie, INRA Toulouse

Page 2: Analyse statistique pour données à haut débit

2Sébastien Déjean Analyse statistique pour données à haut débit

Objectif du coursL’objectif de ce cours est de présenter des méthodes statistiques standard ainsi que leur application à des données issues de biopuces(puce à ADN, microarray, DNA chip).

Pour la plupart des thèmes abordés, on retrouvera :

1. une « petite histoire » : pas forcément connectée à la statistique ou à la biologie, illustrant l’objectif ou le principe de la méthode

2. les aspects mathématiques

3. une application à des données transcriptomiques

Page 3: Analyse statistique pour données à haut débit

3Sébastien Déjean Analyse statistique pour données à haut débit

Limites du coursCe cours ne traite pas les étapes l’on peut globalement intégrerau pré-traitement des données visant à gommer les biais systématiques liés à la technologie.

Pour les microarrays, cela concerne essentiellement :

• La correction de bruit de fond ( analyse d’image)

• La suppression de valeurs aberrantes

• La normalisation des données. La procédure mise en œuvre dépend de la technologie adoptée : marquage fluorescent sur lame de verre, marquage radioactif sur membrane nylon, technologie Affymetrix.

• …

Dans le cadre de ce cours, nous nous plaçons après ces étapes. Cependant, dans la pratique, on peut très bien être amené à remettre en cause le pré-traitement si l’analyse statistique effectuée a posteriori révèle des incohérences.

Page 4: Analyse statistique pour données à haut débit

4Sébastien Déjean Analyse statistique pour données à haut débit

Au salon de coiffureQue se passe-t-il au salon de coiffure et quel est le rapport avec l’analyse de données de microarray ?

????

Au salon de coiffure, en général, on nous propose le pack lavage-coupe-coiffage. Une fois ce travail accompli, que se passe-t-il ? On se regarde attentivement dans la glace, on nous montre l’arrière du crâne avec un petit miroir. Bref, on nous montre le résultat sous différents points de vue. Si cela ne convient pas (un épi rebelle), on peut demander quelques coups de ciseaux supplémentaires et une nouvelle vérification.

Pour exploiter des données de microarray, la procédure peut très bien être analogue. On procède d’abord à un pré-traitement (correction-suppression-normalisation). Ensuite, on analyse le résultat avec différentes méthodes (tests, classification, ACP). Si les résultats montre des incohérences (un spot aberrant), on peut revenir au pré-traitement, supprimer cette donnée aberrante et reprendre l’analyse.

Page 5: Analyse statistique pour données à haut débit

5Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopucesÉtude de nutrition chez la souris

Étude réalisée à l’unité de Pharmacologie et Toxicologie de l’INRA de Toulouse

40 souris réparties selon 2 facteurs croisés dans un plan complet et équilibré à 4 répétitions :

• Génotype (2 niveaux) : sauvage (wild-type, WT) ou PPARαdéficientes

• Régime (5 niveaux) :dha (régime enrichi en acides gras de la famille ω3 et particulièrement en

acide docosahexaénoïque, à base d’huile de poisson)

efad (Essential Fatty Acid Deficient, régime constitué uniquement d’acides gras saturés, à base d’huile de coco hydrogénée) ;

lin (régime riche en ω3, à base d’huile de lin) ;

ref (régime dont l’apport en ω6 et en ω3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d’ω6 que d’ω3) ;

tsol (riche en ω6, à base d’huile de tournesol).

Données d’expression recueillies pour 120 gènes sur membranes nylon avec marquage radioactif.

Page 6: Analyse statistique pour données à haut débit

6Sébastien Déjean Analyse statistique pour données à haut débit

Plan

I. Indicateurs statistiques 1D et 2D

II. Statistique inférentielle

III. Statistique descriptive

IV. Ouvertures

Rappels ?

Page 7: Analyse statistique pour données à haut débit

7Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs statistiques unidimensionnels et bi-

dimensionnels

1. Indicateurs de position

2. Indicateurs de dispersion

3. Représentations graphiques

4. Statistiques bi-dimensionnelles

Page 8: Analyse statistique pour données à haut débit

8Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de position

∑=

=n

1iiX

n1X

Moyenne Médiane

Quartiles

Mode

Valeur qui sépare l’échantillon en 2 sous-ensembles de taille égales.

Valeur la plus fréquente dans un échantillon.

3 valeurs qui sépare l’échantillon en 4 sous-ensembles de taille égales.

Déciles 9 valeurs qui sépare l’échantillon en 10 sous-ensembles de taille égales.

Quantiles : généralisation de la notion de médiane, quartile…

Page 9: Analyse statistique pour données à haut débit

9Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de positionLors d’une négociation salariale entre le dirigeant d’une entreprise et les représentants du personnel, la discussion tourne autour d’une demande d’augmentation généralisée des salaires. Quels chiffres chaque camp doit-il avancer pour convaincre du bien fondé de sa position ?

• La direction a intérêt à avancer le montant du salaire moyen qui est plus largement influencé par les salaires de la direction.

• Du côté du personnel, il faut insister pour prendre en compte non pas le salaire moyen mais le salaire médian plus robuste aux valeurs extrêmes (que sont les salaires des dirigeants).

Exemple : supposons que l’entreprise compte 14 personnes :

• 10 ouvriers : 1000 € / personne

• Un chef d’atelier : 2000 €

• Un directeur technique : 5000 €

• Un directeur des ressources humaines : 8000 €

• Un directeur général : 10 000 €

Salaire moyen : 2500 € - Salaire médian : 1000 €

Page 10: Analyse statistique pour données à haut débit

10Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de position

0

2000

4000

6000

8000

10000

12000

Moyenne

Médiane

2500

1000

Page 11: Analyse statistique pour données à haut débit

11Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de dispersion

( )∑=

−=n

ii XXnX

1

21)var(

Variance Écart-type

Étendue

Espace inter-quartileCorrespond à l’étendue de l’échantillon privé de la moitié de ces observations (le ¼ le plus élevé et le ¼ le plus faible)

Différence entre la plus grande et la plus petite valeur d’un échantillon

)var()( XX =σ

Page 12: Analyse statistique pour données à haut débit

12Sébastien Déjean Analyse statistique pour données à haut débit

( )24 XX −

Variance

X4 X3 X2 X1 X5XXX −1XX −2

XX −3

XX −4

( )23 XX −

XX −5

( )22 XX −

( )25 XX −

« Moyenne des carrés des écarts à la moyenne »

( )21 XX −

Page 13: Analyse statistique pour données à haut débit

13Sébastien Déjean Analyse statistique pour données à haut débit

Écart-type« Racine carrée de la variance »

Quelques propriétés de l’écart-type :

• Positif (nul si la série est constante)

• Invariant par translation

• Sensible aux valeurs extrêmes

• Dépend de l’ordre de grandeur de l’échantillon d’où l’utilité, parfois, d’utiliser l’écart-type relatif, rapport de l’écart-type sur la moyenne.

• De la même unité que la donnée (et que la moyenne) :

Si l’échantillon est constitué de mesures en m alors l’écart-type s’exprime également en m (tout comme la moyenne) ; ce qui n’est pas le cas de la variance m² !

On peut ainsi additionner moyenne et écart-type (mais pas moyenne et variance), ce qui est fondamental pour la construction d’intervalle de confiance.

Page 14: Analyse statistique pour données à haut débit

14Sébastien Déjean Analyse statistique pour données à haut débit

Centrage-Réduction

X

XXZ ii σ−=

Centrer : retrancher la moyenne

Réduire : diviser par l’écart-type

• Permet d’exprimer des variables différentes sur une échelle commune, en les débarrassant de leurs unités physiques : les observations s’expriment en nombre d’écart-type par rapport à la moyenne.

• Après centrage-réduction, la moyenne des observations est nulle et l’écart-type vaut 1.

Appelé parfois « z-transformation » ou « z-score » dans la littérature anglophone

Page 15: Analyse statistique pour données à haut débit

15Sébastien Déjean Analyse statistique pour données à haut débit

Représentations graphiquesDiagramme-boîte (boxplot)

*

Q2 : Médiane (50%)

Q3 : 3ème quartile (75%)

Q1 : 1er quartile (25%)

Espace inter-quartile

Q3-Q1

Q3 + 1.5(Q3-Q1)

Q1 - 1.5(Q3-Q1)

Point extrême (aberrant ? outlier)

Page 16: Analyse statistique pour données à haut débit

16Sébastien Déjean Analyse statistique pour données à haut débit

Représentations graphiquesBoxplot et histogramme

-2 -1 0 1 2 3

-2 -1 0 1 2 3

05

1015

0 1 2 3 4 5 6

0 1 2 3 4 5 6 7

010

2030

4050

6070

Individuellement, ces graphiques apportent la même information sur la position et la répartition des données. Les boxplots ont cependant l’avantage d’être plus lisible pour un nombre important de séries à représenter.

Page 17: Analyse statistique pour données à haut débit

17Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Comparaison des histogrammes et boxplots pour 16 gènes.

Page 18: Analyse statistique pour données à haut débit

18Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Boxplot parallèles pour 120 gènes

Page 19: Analyse statistique pour données à haut débit

19Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Boxplot parallèles pour 40 souris

Page 20: Analyse statistique pour données à haut débit

20Sébastien Déjean Analyse statistique pour données à haut débit

98.5 99.0 99.5 100.0 100.5 101.0 101.5

-4-2

02

46

x

y

+

+-

-

Covariance

Indicateurs statistiques 2D

( )( )∑=

−−=n

iii YYXXnYX

1

1),cov(

Intuitivement :• Si les + l’emportent

liaison linéaire positive

• Si les – l’emportentliaison linéaire négative

Sur cet exemple : cov(X,Y)=-1.36 X

Y

La covariance dépend des unités de mesure coefficient de corrélation

Signe du produit (Xi-X)(Yi-Y)

)var(),cov( XXX =

Page 21: Analyse statistique pour données à haut débit

21Sébastien Déjean Analyse statistique pour données à haut débit

Coefficient(s) de corrélation

Coefficient de corrélation linéaire de Pearson

Coefficient de corrélation de SpearmanRobustesse due au travail sur les rangs

YX

YXYX σσρ ),cov(),( =

)1( 6 1),( 21

2

−−=∑=

nn

dYX

n

isρ

X Y RX RY d = RX-RY d²20,6 20,7 6 7 -1 121,6 21,8 2 2 0 018,8 20,4 9 8 1 120,8 21,1 3 4 -1 117,5 18,3 10 10 0 019,5 18,9 7 9 -2 420,8 21,1 4 4 0 020,6 21,2 5 3 2 419,2 20,9 8 6 2 422,2 22,9 1 1 0 0

Somme 15

1) Calcul des rangs des observations

2) Différence des rangs

3) Carrés des différences des rangs

∑=

n

id

1

24) Somme des

carrés des différences des

rangs

Page 22: Analyse statistique pour données à haut débit

22Sébastien Déjean Analyse statistique pour données à haut débit

Coefficient(s) de corrélation

Quelques propriétés des coefficients de corrélation :

• Compris entre –1 et 1.

• Les valeurs extrêmes –1 et 1 indique des corrélations parfaites entre les 2 variables.

• Si le coefficient est positif : quand une variable est élevée, l’autre l’est également. Quand une variable est faible, l’autre l’est également.

• Si le coefficient est négatif : quand une variable est élevée (resp. faible), l’autre est faible (resp. élevée).

• Un coefficient nul indique une absence de relation linéaireentre les variables.

Page 23: Analyse statistique pour données à haut débit

23Sébastien Déjean Analyse statistique pour données à haut débit

-1 0 1 2

01

23

45

x2cor1

x2co

r2

18 19 20 21 22

1214

1618

2022

xcor

zcor

18 19 20 21 22

1920

2122

23

xcor

ycor

Coefficient(s) de corrélation

ρ=0.884 - ρs=0.9 ρ=0.676 - ρs=0.912

ρ=0.584 - ρs=0.491

18 19 20 21 22

0 e

+00

1 e

+09

2 e

+09

3 e

+09

4 e

+09

xcor

exp(

xcor

)

ρ = 0.822 - ρs=1

ρ=-0.954 - ρs=-0.903

-1 0 1 2

-3-2

-10

1

x

mx

-1 0 1 2

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

x

xr

ρ=-0.248 - ρs=-0.164

Page 24: Analyse statistique pour données à haut débit

24Sébastien Déjean Analyse statistique pour données à haut débit

Corrélation ≠ Causalité

Quelques exemples d’événements corrélés n’impliquant pas forcément une causalité :

• Le fait de dormir avec ses chaussures est fortement corrélé avec le fait de se réveiller avec la « gueule de bois ». Doit-on en conclure que dormir avec ses chaussures donne la « gueule de bois » ? Ou un troisième facteur est-il impliqué ?

• Mon âge est très fortement corrélé à l’évolution du prix du carburant : les 2 ont augmenté durant les 30 dernières années. Sans minimiser mon impact sur la société, je crois bien que je n’y suis pas pour grand-chose.

• Les personnes qui meurent ont très fréquemment vu un médecin dans les jours qui ont précédé. Est-il si dangereux de rencontrer un médecin ?

• Dans la plupart des villes, on constate une forte corrélation positive entre le nombre de nids de cigognes et la natalité. Nous cacherait-on des choses ?

• …

Page 25: Analyse statistique pour données à haut débit

25Sébastien Déjean Analyse statistique pour données à haut débit

1. Loi de probabilité

2. Estimation

3. Test statistique

4. Gestion de la multiplicité dans les tests

5. Analyse de la variance (ANOVA)

Statistique inférentielle

Page 26: Analyse statistique pour données à haut débit

26Sébastien Déjean Analyse statistique pour données à haut débit

Variable aléatoireUne variable aléatoire est utilisée pour modéliser le résultat d’une expérience non déterministe qui génère un résultat aléatoire.

Exemples :

• lancement d’une pièce, d’un dé (v.a. discrète)

• taille d’un individu pris au hasard dans une population (v.a. continue)

La répartition des valeurs prises par une v.a. conduit à la notion de loi de probabilité.

Page 27: Analyse statistique pour données à haut débit

27Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de probabilité Fonction de répartition

)()( kXPkPX ==

Cas continu (densité f)

)()( kXPnFn

kX ==∑

−∞=

Cas discret

∫ ∞−=x

X dttfxF )()(∫=<<b

adxxfbXaP )()(

• croissante sur ]-∞;+∞[

• continue à droite en tout point

• tend vers 0 en -∞ et 1+∞

• dérivée de la fdr

• à valeur positive ou nulle

• 1)( =∫+∞

∞−dxxf1)( ==∑

∈ZkkXP

Page 28: Analyse statistique pour données à haut débit

28Sébastien Déjean Analyse statistique pour données à haut débit

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilité

0.31

0.31

Loi de probabilité Fonction de répartition

Page 29: Analyse statistique pour données à haut débit

29Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi binomiale B(n,p)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

knkkn ppCkXP −−== )1()(

Ex : n=20, p=0.5 )!( !!knk

nCkn −=

Loi de probabilité Fonction de répartition

Page 30: Analyse statistique pour données à haut débit

30Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de Poisson P(λ)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

!)( kekXPkλ

λ−==

Loi de probabilité Fonction de répartition

Ex : λ=4

Page 31: Analyse statistique pour données à haut débit

31Sébastien Déjean Analyse statistique pour données à haut débit

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Loi de probabilitéLoi normale N(μ,σ²)

N(0,1) N(1,1) N(0,2)

⎟⎠⎞

⎜⎝⎛ −

= 2

2

2

)(exp

21)( σ

μπσ

xxf

Ex :

Loi de probabilité Fonction de répartition-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Page 32: Analyse statistique pour données à haut débit

32Sébastien Déjean Analyse statistique pour données à haut débit

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilitéLoi exponentielle E(λ)

λ=1 – 0.5 - 2

)exp()( xxf λλ −=

Ex :

Loi de probabilité Fonction de répartition

Page 33: Analyse statistique pour données à haut débit

33Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de Student St(k)

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k=1 - 2 - 5 - 10

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi normale N(0,1) - - -Ex :

Loi de probabilité Fonction de répartition

( )( ) 2

12

12

21

)( +

⎟⎠⎞

⎜⎝⎛ +Γ

+Γ= k

ktkk

kxf

π

Γ fonction Gamma d’Euler

Page 34: Analyse statistique pour données à haut débit

34Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi du khi-deux χ2(k) ( ) 22

2

1

221)(

xk

k exkxf −−

Γ=

Loi de probabilité Fonction de répartition0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

k=1 - 5 - 10 - 20Ex :

Γ fonction Gamma d’Euler

Page 35: Analyse statistique pour données à haut débit

35Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilité Fonction de répartition

Loi de Fisher F(n1,n2)

Loi de probabilité

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

F(1,1) F(1,5) F(5,1) F(5,5) F(10,10)Ex :

( )( ) ( )( ) 22121

1221

21 21

1

22

21

22

2)( nn

n

nxnnnxnn

nnxfnn

+

+ΓΓ

+Γ=

Γ fonction Gamma d’Euler

Page 36: Analyse statistique pour données à haut débit

36Sébastien Déjean Analyse statistique pour données à haut débit

Estimation

Dans un fabrique de biscuit, le procédé mis en œuvre pour vérifier l’aspect moelleux du produit fini consiste à plier le biscuit et à mesurer l’angle d’inclinaison nécessaire pour le casser (un tel test est dit destructif). La règle étant qu’un bon biscuit doit avoir un angle de rupture de 50° (valeur fictive). Tout lot de biscuit doit être validé de la sorte avant d’être commercialisé.

Il va de soi qu’un biscuit cassé n’est pas commercialisable ainsi qu’un biscuit n’étant pas convenablement moelleux (angle de rupture ≠ 50°).

Dans de telles conditions, il est impossible de tester l’ensemble des biscuits (test destructif). Il est donc nécessaire d’effectuer les mesures sur un échantillon représentatif de la population des biscuits. L’angle moyen de rupture calculé sur l’échantillon est un estimateur de cet angle chez les biscuits du même lot (aux conditions de fabrication analogues).

Une histoire de biscuits

Page 37: Analyse statistique pour données à haut débit

37Sébastien Déjean Analyse statistique pour données à haut débit

EstimationQuelques estimateurs

Variance : σ2(X)

Espérance (mathématique) : E(X)

EmpiriqueThéorique

∑=

=n

1iiX

n1X

( )∑=

−=n

ii XXnS

1

22 1

( )∑=

−−=n

ii XXnS

1

221

1

Écart-type : σ (X)

(sans biais)

2SS=

Page 38: Analyse statistique pour données à haut débit

38Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueEncore quelques biscuits

Région critique [2]Région critique [1]

Exemple : Fabrication industrielle de biscuit dont l’angle de rupture doit être de 50°. Des facteurs incontrôlés font que cet angle est aléatoire : on suppose qu’il suit une loi N(μ,σ2) avec σ2=9.

Question : comment décider qu’un lot est conforme ?

Hypothèses :H0 : le lot est conforme (μ=50)H1 : le lot n’est pas conforme (μ≠50)

Pour trancher entre les 2 hypothèses, on tire au hasard un échantillon de nbiscuits et on en mesure l’angle de rupture (Xi)i=1,…n. Chaque Xi suit une loi N(μ,σ2).

Règle de décision (principe): Rejet de H0 ⇔ X∉[50-c ; 50+c]

5050-c 50+c

Page 39: Analyse statistique pour données à haut débit

39Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

βBonne décision

H1

Bonne décisionαH0Réalité

H0(accept. H0)

H1(rejet de H0)

Décision

Erreurs de décision

Interprétation des risques :

• α : rejeter le lot de biscuits alors qu’il est conforme (gaspillage !)

Le patron ne vas pas être content.

• β : déclarer conforme (et donc vendre) des biscuits « défectueux »

Dans ce cas, c’est le client qui n’est pas content.

Page 40: Analyse statistique pour données à haut débit

40Sébastien Déjean Analyse statistique pour données à haut débit

Xi ≈ N(μ,σ2) X ≈ N(μ,σ2/n)

Test statistique

Règle de décision : Rejet de H0 ⇔ X∉[50-c ; 50+c]

α = P[Rejeter H0 // H0 vraie] = P[X ∉ [50-c ; 50+c] // μ =50]

Avec n=16, α=0.05=P[« N(50,9/16) » ∉ [50-c ; 50+c] ]

R> qnorm(0.025,50,0.75) # 48.53

R> qnorm(0.975,50,0.75) # 51.47

c = 1.47 (=1.96*3/4)

Région critique

48.53 51.47

Densité de la loi N(50;9/16)

Page 41: Analyse statistique pour données à haut débit

41Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

Cas 1) : Jour J1, 16 biscuits tirés au hasard, diamètre moyen : 49.3

Cette valeur n’est pas dans la région critique, on ne peut pas rejeter H0, la production du jour est probablement conforme. La p-value associée à la valeur 49.3 est environ 0.34 ce qui est supérieur au seuil de 5%.

• Cas 2) : Jour J2, 16 biscuits tirés au hasard, diamètre moyen : 52.4

Cette valeur est dans la région critique, on rejette H0, la production du jour n’est pas conforme (au seuil de 5%). La p-value associée à la valeur 52.4 est de l’ordre de 0.0007 ce qui est inférieur au seuil de 5%.

49.3 52.4

p-value

Page 42: Analyse statistique pour données à haut débit

42Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

X1, X2, …, Xn : n observations aléatoires supposées indépendantes et identiquement distribuées (i.i.d.) de même loi N(μ,σ2) où μ et σ2 sont inconnus.

∑=

=n

1iiX

n1X ( )∑

=−−=

n

ii XXnS

1

221

1

)(n-nS

XT 1/

0 St ≈−= μ

Estimateur de la moyenne

• Hypothèse alternative

H1 : μ > μ0 Rejet de H0 ⇔ Tobs ≥ tn-1,α (test unilatéral)

H1’ : μ < μ0 Rejet de H0 ⇔ Tobs ≤ tn-1,α (test unilatéral)

H1’’ : μ ≠ μ0 Rejet de H0 ⇔ |Tobs| ≥ tn-1,α/2 (test bilatéral)

Si cette hypothèse est vraie, alors on a :

Estimateur de la variance

• Hypothèse nulle : H0 : μ = μ0

Test de Student pour un échantillon

Page 43: Analyse statistique pour données à haut débit

43Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueTest de Fisher d’égalité des variances

X1, X2, …, Xn : n1 observations supposées i.i.d. N(μ1,σ12) où μ1 et σ1

2 sont inconnus.

Y1, Y2, …, Yn : n2 observations supposées i.i.d. N(μ2,σ22) où μ2 et σ2

2 sont inconnus.

( )∑=

−−=1

1

2

12

1 11 n

ii XXnS

( )1,1 2132

21 −≈= n-nSSF F

• Hypothèse alternative

H1 : σ12 > σ2

2 Rejet de H0 ⇔ Fobs > fn1-1,n2-1α

H1’ : σ12 < σ2

2 Rejet de H0 ⇔ Fobs < fn1-1,n2-1α

H1’’ : σ12 ≠ σ2

2 Rejet de H0 ⇔ |Fobs| > fn1-1,n2-1,α/2

Si cette hypothèse est vraie, alors on a :

Estimateurs des variances

• Hypothèse nulle : H0 : σ12 = σ2

2

( )∑=

−−=2

1

2

222 1

1 n

ii YYnS

Page 44: Analyse statistique pour données à haut débit

44Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueTest de Student pour 2 échantillons

Pour effectuer ce test, on suppose les 2 variances égales. Cela peut être contrôlé par un test de Fisher d’égalité des variances.

x y

-20

-10

010

2030

( ) ( )2

1121

2222

112−+−+−= nnSnSnS

( ) ( ) )-n(n

nnSYXT 2

11/21

21

21 +≈+

−−−= St μμ

• Hypothèse alternative

H1 : μ1 > μ2 Rejet de H0 ⇔ Tobs ≥ tn1+n2-2,α

H1’ : μ1 < μ2 Rejet de H0 ⇔ Tobs ≤ tn1+n2-2,α

H1’’ : μ1 ≠ μ2 Rejet de H0 ⇔ |Tobs| ≥ tn1+n2-2,α/2

Si cette hypothèse est vraie, alors on a :

• Hypothèse nulle : H0 : μ1 = μ2

Estimateur de la variance commune σ

Dans le cas ci-contre, la comparaison des moyennes n’a pas vraiment de sens.

Page 45: Analyse statistique pour données à haut débit

45Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueQuelques autres tests (en vrac)

Test du chi-deux : indépendance, homogénéité

Test de Bartlett : homogénéité de variances

Test de Kolmogorov-Smirnov : distribution de variables aléatoires

Test de Shapiro-Wilk : normalité

Test de Wilcoxon (test des rangs signés) : comparaison de distributions

Page 46: Analyse statistique pour données à haut débit

46Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

0 1

-1.1

-1.0

-0.9

-0.8

-0.7

0 1

-1.2

5-1

.20

-1.1

5-1

.10

-1.0

5

L’expression du gène OCTN2 est-elle identique chez les souris WT et PPARα ?

L’expression du gène BIEN est-elle identique chez les souris WT et PPARα ?

Comparaison des variancesF test to compare two variances

F = 0.9745, num df = 19, denom df = 19, p-value = 0.9557

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval: 0.3857185 2.4620238

sample estimates: ratio of variances 0.974499

Comparaison des variances

F = 0.8557, num df = 19, denom df = 19, p-value = 0.7376

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval: 0.3386984 2.1618964

sample estimates: ratio of variances 0.8557049

Comparaison des moyennes

t = -0.9872, df = 38, p-value = 0.3298

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: -0.05948870 0.02048870

sample estimates: mean of x / mean of y -1.1490 / -1.1295

Comparaison des moyennes

t = 4.3584, df = 38, p-value = 9.618e-05

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: 0.06613658 0.18086342

sample estimates: mean of x / mean of y -0.8595 / -0.9830

La conclusion des tests de comparaison de variance permet de procéder à la comparaison des moyennes.

La différence est significative pour BIEN mais pas pour OCTN2.

Page 47: Analyse statistique pour données à haut débit

47Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéPetite histoire (sordide)

La roulette russe est un jeu consistant à mettre une ou plusieurs cartouches (suivant la probabilité souhaitée) dans le barillet d'un revolver, à tourner ce dernier de manière aléatoire puis à pointer le revolver sur sa tempe avant d'actionner la détente. Si une cartouche se trouve alors dans la chambre placée dans l'axe du canon elle sera percutée et le « joueur » mourra ou sera blessé. (Wikipedia)

Supposons que le barillet contienne 100 emplacements de cartouche et que le « joueur » mette 5 cartouches aléatoirement. Sa probabilité d’être blessé (soyons optimiste) est de 5%.

Supposons maintenant que l’individu « joue » plusieurs fois de suite. Intuitivement, on sent bien qu’il va finir par « se faire mal » et que la probabilité de « perdre » au moins une fois augmente à chaque tentative.

Nous allons traduire mathématiquement cette petite histoire.

Page 48: Analyse statistique pour données à haut débit

48Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéPetits calculs

Calculons la probabilité qu’à le « joueur » de rester bien portant après n tentatives

• Pour n=1, P[bp(1)]=1-0.05=0.95

• Pour n=2, il faut que le « joueur » soit bien portant après le 1er essai ET après le second

P[bp(2)]=(1-0.05)*(1-0.05)=0.952=0.9025

• Et ainsi de suite…

Règle générale : P[bp(n)]=(1-0.05)n

n 1 2 5 10 100 1000

P[bp(n)] 0.95 0.902 0.774 0.599 0.006 10-23

Quelques valeurs

Page 49: Analyse statistique pour données à haut débit

49Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

Nombre de tentatives

Pro

babi

lité

de re

ster

bie

n po

rtant

1 chance sur 2 au bout de 7 tentatives

1 chance sur 10 au bout de 45 tentatives

1 chance sur 100 au bout de 90 tentatives

Représentation de la fonction

n f(n)=0.95n

Graphiquement

Page 50: Analyse statistique pour données à haut débit

50Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

Une autre façon de considérer le problème consiste à envisager plusieurs « joueurs » jouant simultanément. Si le risque est toujours fixé à 5% (avec 5 cartouches sur 100 emplacements), et si 100 joueurs actionne la détente, on peut s’attendre à ce que 5 joueurs perdent. Ils seront 50 pour 1000 joueurs…

Cette façon de voir le problème de multiplicité est plus proche de la problématique de la détection de gènes différentiellement exprimés. En effet, un test statistique effectué pour l’ensemble des tests d’une biopuce (plusieurs milliers) au risque de 5% implique nécessairement la détection de gènes non pertinents.

Page 51: Analyse statistique pour données à haut débit

51Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéApplication aux biopuces

Dans le cas de l’analyse des biopuces, la conséquence de l’erreur est moins radicale que pour la roulette russe.

Si les tests sont effectués pour détecter les gènes différentiellement exprimés (DE) entre 2 conditions alors le risque consiste à déclarer un gène DE alors qu’il ne l’est pas : on parle de gène faux-positif (FP). Au contraire, un gène « réellement » DE non détecté par le test est dit faux-négatif (FN).

Les conséquences de ces 2 types d’erreur sont de natures diverses. Dans le premier cas, on va engager des moyens (humains et financiers) pour valider l’hypothèse que le gène FP est effectivement intéressant alors qu’il ne l’est pas. Dans le second cas (FN), on passe peut-être à côté de la découverte du siècle en négligeant un gène important !!!

Page 52: Analyse statistique pour données à haut débit

52Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

• 1 comparaison : α = P[Rejeter H0 // H0 vraie] = 5%

• 3 comparaisons :α1 = P[Rejeter H01 // H01 vraie] = 5%α2 = P[Rejeter H02 // H02 vraie] = 5%α3 = P[Rejeter H03 // H03 vraie] = 5%

Probabilité de ne pas commettre d’erreur : 1-0.05 = 0.95

Probabilité de ne pas commettre d’erreur = produit des probabilités de ne pas commettre d’erreur à chacune des 3 comparaisons = (1-0.05) * (1-0.05) * (1-0.05) = 0.86

Le risque (global) de commettre au moins une erreur est :

1-0.86 = 0.14

Il faut donc diminuer le risque associé à chaque comparaison pour contrôler le risque global.

Retour sur les tests

Page 53: Analyse statistique pour données à haut débit

53Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

En prenant α1=α2=α3=αg/3=0.05/3, on a la probabilité de ne pas commettre d’erreur :

(1-0.05/3) * (1-0.05/3) * (1-0.05/3) = 0.9508

Ce qui correspond à un risque global inférieur à 5%.

Méthode de Bonferroni

La méthode de Bonferroni consiste à corriger le risque associé à chaque comparaison (αi) en le divisant par le nombre de comparaisons à effectuer pour contrôler le risque global (αg)

Dans le cas des biopuces comportant plusieurs centaines voire plusieurs milliers de gènes, cette correction peut devenir trop conservative et conduire à la détection d’aucun gène. D’autres méthodes plus sophistiquées existent : Sidak, Holm, Westfall et Young, Hochberg…

Page 54: Analyse statistique pour données à haut débit

54Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéComparaison de méthodes de prise en compte de la multiplicité

Dans le graphique ci-contre, on constate que les 2 méthodes extrêmes sont l’absence d’ajustement (rawp) et la correction de Bonferroni qui détectent respectivement le plus grand (~55) et le plus petit (~25) nombre de gènes. Les autres méthodes d’ajustement sont des intermédiaires entre ces 2 extrêmes.

5%

Page 55: Analyse statistique pour données à haut débit

55Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)Notations

• Yij : jème observation pour la ième modalité du facteur

• Yi. : moyenne des observations de la ième modalité

• Y.j : moyenne des observations de la jème répétition

• Y.. : moyenne générale

• I modalités, J observations par modalité (plan équilibré)

• N=IJ observations

RépétitionsModalité

1

Y11

Y21

YI1

Y.1

2 … J

1

Moyenne

Y12

Y22

2

Y1.

YI2

Y.2

Y1J…

Y2J

YIJ

… Y.I

Y2.

I YI.

Moyenne Y..

Page 56: Analyse statistique pour données à haut débit

56Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)

Modèle d’ANOVA :

SCtotale SCfacteur SCrésidu

Test de l’effet du facteur :

Modèle et somme de carrés

ijiij εαμY ++=

0 ,...,1 : 0 ==∀ iIiH α

( ) ( ) ( )∑∑∑∑∑= === =

−+−=−I

i

J

jiij

I

ii

I

i

J

jij yyyyJyy

1 1

2.

1

2...

1 1

2..

μ : effet moyen général

αi : effet différentiel de la ième modalité du facteur

Page 57: Analyse statistique pour données à haut débit

57Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)

P value

F= CMf/CMr

Statistique de test F

SCtotaleN-1Variation

totale

CMr= SCr/(N-I)SCrésiduN-I

Variation « résidu »

CMf= SCf/(I-1)SCfacteurI-1

Variation « facteur »

Carrés moyens

Somme de carrés

Degrés de liberté

Source de variation

Plus la variabilité due au facteur est importante par rapport à celle due au résidu, plus le test est susceptible de conclure à un effet du facteur.

Table d’ANOVA

Règle de décision : F > FI-1,N-I,αrejet de H0

Page 58: Analyse statistique pour données à haut débit

58Sébastien Déjean Analyse statistique pour données à haut débit

Degré de liberté

Dans la table d’ANOVA présentée précédemment, on retrouve une colonne « degré de liberté ». Cette information est essentielle dans tous les aspects de la statistique liés à la modélisation et aux tests. Elle traduit la quantité d’information dont on dispose pour estimer une quantité inconnue. Dans le calcul des degrés de liberté, on se retrouve systématiquement avec une valeur –1.

Imaginons 3 personnes (X, Y, Z) face à 3 vêtements (R, V, B). Chacune des personnes doit choisir à son tour un vêtement.

• X commence et a le choix entre 3 vêtements R, V, B. Il choisit R.

• Y vient ensuite. Il ne reste que 2 choix possibles : V et B. Il choisit B.

• Z arrive et n’a plus le choix, il prend V !

Ainsi, dans une situation où 3 unités sont initialement présentes, on constate que seulement 2 choix sont possibles ; le troisième étant nécessairement imposé.

Page 59: Analyse statistique pour données à haut débit

59Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

Facteur B (J modalités)Facteur A

(I modalités) 1

Y111

Y11K

Y211

Y21K

YI11

YI1K

Y.1.

2 … J

1

Moyenne

Y121

Y12K

Y221

Y22K

2

Y1..

YI21

YI2K

Y.2.

Y1J1

Y1JK

Y2J1

Y2JK

YIJ1

YIJK

… Y.3.

Y2 ..

I YI ..

Moyenne Y…

Notations

Y11. Y12. Y1J.

Y21. Y22. Y2J.

YI1. YI2. YIJ.

Page 60: Analyse statistique pour données à haut débit

60Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

ijkijjiijk εαμY ++++= γβ

( ) ( ) ( ) ( )∑∑∑∑∑∑∑= = == ===

−++−−+−+−I

i

J

j

K

kijijk

I

i

J

jjiij

I

ij

I

ii yyyyyyKyyIKyyJK

1 1 1

2.

1 1

2........

1

2.....

1

2.....

Modèle

SCtotale

Scfacteur A SCrésidu

Décomposition

Scfacteur B Scinteraction

( )∑∑∑= = =

=−I

i

J

j

K

kijk yy

1 1 1

2...

μ : effet moyen général αi : effet différentiel de la ième modalité du facteur Aβi : effet différentiel de la jème modalité du facteur Bγij : effet d’interaction de la ième modalité du facteur A avec la jème du facteur B

Page 61: Analyse statistique pour données à haut débit

61Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

CMresid = SCErésidu /IJ(K-1)SCErésiduIJ(K-1)Résiduelle

…CMA*B / CMrésidu

CMA*B = SCEA*Bt /(I-1)(J-1)

SCEA*B(I-1)(J-1)Interaction

…CMB / CMrésiduCMB = SCEB /(J-1)SCEBJ-1Facteur B

…CMA / CMrésiduCMA = SCEA/(I-1)SCEAI-1Facteur A

p-valueFCM

(carré moyen)

SCE(Somme de carrés d’écarts)

Degrés de liberté

Sources de

variation

Page 62: Analyse statistique pour données à haut débit

62Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)Graphes d’interaction

Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2

L’effet d’un facteur dépend de la modalité de l’autre facteur l’interaction sera

probablement déclarée significative lors du test statistique

L’effet d’un facteur ne dépend pas de la modalité de l’autre facteur l’interaction

sera probablement déclarée non significative lors du test statistique

Y11.

Y21.

Y12.

Y22.

Y11.

Y21.

Y12.

Y22.

Page 63: Analyse statistique pour données à haut débit

63Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA

1) Homoscédasticité

2) Indépendance

3) Normalité

Les données doivent vérifier 3 hypothèses :(de la plus importante à la moins importante)

Dans quels cas peut-on utiliser l’analyse de variance ?

Page 64: Analyse statistique pour données à haut débit

64Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAHomoscédasticité

La variance de la variable à expliquer ne dépend pas des facteurs i.e., la variance est homogène entre les groupes d’individus.

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Hétéroscédasticité Homoscédasticité ☺

Page 65: Analyse statistique pour données à haut débit

65Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAIndépendance

L’effet d’un facteur sur un individu n’a pas d’effet sur un autre individu.

En général, l’indépendance est postulée car elle est définie par le protocole expérimental.

Si il y a une coïncidence spatiale et temporelle des observations, l’indépendance est à mettre en doute.

Page 66: Analyse statistique pour données à haut débit

66Sébastien Déjean Analyse statistique pour données à haut débit

ANOVANormalité

Pour une combinaison donnée des facteurs explicatifs, la distribution des données doit être normale (gaussienne).

Il existe des tests pour vérifier si un ensemble de valeurs est issu d’une loi normale : test de Kolmogorov-Smirnov, test de Shapiro-Wilk…

En général, on se limite à une étude graphique : qqplot (qq : quantile-quantile)

Quan

tile

s em

piriq

ues

des

rés

idus

Quantiles de la loi normale N(0,1)

Page 67: Analyse statistique pour données à haut débit

67Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA

Que faire si les conditions ne sont pas vérifiées par les données ?

Homoscédasticité : faire une transformation des variables (par exemple en prenant le log) et réévaluer l’homoscédasticité.

Indépendance : il existe d’autres méthodes qui permettent de gérer la dépendance.

Normalité : un écart modéré à l’hypothèse de normalité est sans conséquence sur les résultats de l’ANOVA. Si l’écart est trop important, tester des transformations de variables.

Page 68: Analyse statistique pour données à haut débit

68Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAInterprétation des résultats

vérification des hypothèses : homoscédasticité, indépendance et normalité

dans le cas d’un modèle à plusieurs facteurs, analyser en premier lieu les termes d’interactions d’ordre le plus élevé

se servir au mieux des sorties graphiques

gestion de la multiplicité ?

Page 69: Analyse statistique pour données à haut débit

69Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAModèle à 1 facteur : test de l’effet régime pour les souris WTGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.089270 0.022318 4.4546 0.01429

Residuals 15 0.075150 0.005010

Gène OCTN2 Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.010520 0.002630 0.6109 0.6611

Residuals 15 0.064575 0.004305

Le régime a un effet sur l’expression du gène BIEN, ce qui n’est pas le cas pour OCTN2.

Modèle à 2 facteurs : test des effets régime et génotypeGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.063725 0.015931 4.2740 0.007435

geno 1 0.152523 0.152523 40.9182 4.626e-07

reg:geno 4 0.129565 0.032391 8.6898 8.790e-05

Residuals 30 0.111825 0.003727

Gène ApoA.I Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.058565 0.014641 2.3717 0.0746722

geno 1 0.086490 0.086490 14.0103 0.0007697

reg:geno 4 0.044935 0.011234 1.8197 0.1510557

Residuals 30 0.185200 0.006173

Le régime et le génotype ont un effet sur l’expression du gène BIEN. Seul le génotype influence significativement l’expression du gène OCTN2.

Page 70: Analyse statistique pour données à haut débit

70Sébastien Déjean Analyse statistique pour données à haut débit

Un peu de logiqueIls sont tous égaux

Ils ne sont pas tous égaux

Ils sont tous différents Au moins un est différent

?

Page 71: Analyse statistique pour données à haut débit

71Sébastien Déjean Analyse statistique pour données à haut débit

Logique… et ANOVA

II αααα ==== −121 L Cette relation est fausse (rejetée)

Négation de l’affirmation : « ils sont tous égaux »

1) « ils sont tous différents » ?

OU

2) « il en existe au moins un qui est différent des autres » ?

En cas de rejet de l’hypothèse H0

Oui, mais le(s)quel(s) ? tests multiples

0 ,...,1 : 0 ==∀ iIiH α

Page 72: Analyse statistique pour données à haut débit

72Sébastien Déjean Analyse statistique pour données à haut débit

1. Classification hiérarchique

2. Nuées dynamiques

3. Analyse en Composantes Principales

4. Positionnement multidimensionnel

Statistique descriptive multidimensionnelle

Page 73: Analyse statistique pour données à haut débit

73Sébastien Déjean Analyse statistique pour données à haut débit

Multidimensionnel

Variable v1

Variable V2

Intérêt d’une approche multidimensionnelle ?

Ce qui n’est pas visible en 1 dimension (séparation des points bleus et rouges) devient évident en 2 dimensions

Page 74: Analyse statistique pour données à haut débit

74Sébastien Déjean Analyse statistique pour données à haut débit

Jeu de données• 20 individus : 10 femmes, 10 hommes

• 5 variables :

V1 V2 V3 V4 V5

H 1 106.2 89.5 71.5 65.6 174.0

H 2 110.5 97.0 79.0 71.8 175.3

H 3 115.1 97.5 83.2 80.7 193.5

H 4 104.5 97.0 77.8 72.6 186.5

H 5 107.5 97.5 80.0 78.8 187.2

H 6 119.8 99.9 82.5 74.8 181.5

H 7 123.5 106.9 82.0 86.4 184.0

H 8 120.4 102.5 76.8 78.4 184.5

H 9 111.0 91.0 68.5 62.0 175.0

H 10 119.5 93.5 77.5 81.6 184.0

V1 V2 V3 V4 V5

F 1 105.0 89.0 71.2 67.3 169.5

F 2 100.2 94.1 79.6 75.5 160.0

F 3 99.1 90.8 77.9 68.2 172.7

F 4 107.6 97.0 69.6 61.4 162.6

F 5 104.0 95.4 86.0 76.8 157.5

F 6 108.4 91.8 69.9 71.8 176.5

F 7 99.3 87.3 63.5 55.5 164.4

F 8 91.9 78.1 57.9 48.6 160.7

F 9 107.1 90.9 72.2 66.4 174.0

F 10 100.5 97.1 80.4 67.3 163.8

V1 : tour au niveau des épaules (cm)V2 : tour de poitrine (cm)V3 : tour de taille (cm)V4 : masse (kg)V5 : taille (cm)

Page 75: Analyse statistique pour données à haut débit

75Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationObjectif : classer des individus en groupes

« homogènes »

Critère d’homogénéité : Taille ? Couleur ? Sourire ?

Page 76: Analyse statistique pour données à haut débit

76Sébastien Déjean Analyse statistique pour données à haut débit

Classif. ascendante hiérarchique

• Préalable : distance inter-individus ET critère

d’agglomération (entre groupes d’individus)

• Procédure :

Début : chaque individu est une classe

Déroulement : à chaque étape, on regroupe les 2

« objets » les plus proches

Fin : une classe regroupe tous les individus

• Résultat : construction d’un arbre de classification

(dendrogramme)

Page 77: Analyse statistique pour données à haut débit

77Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationDistance euclidienne

H 1 H 2 H 3 H 4 H 5 …H2 13.08H3 29.81 21.20H4 17.44 12.79 16.01H5 22.05 14.17 10.55 7.28H6 23.56 12.43 14.39 17.16 14.55

2nn211n

1i

2ii2 )YX(...)YX()YX()Y,X(d −++−=−= ∑=

08.13)3.175174()8.716.65()795.71()975.89()5.1102.106()2,1( 222222 =−+−+−+−+−=HHd

Exemple

V1 V2 V3 V4 V5H1 106,2 89,5 71,5 65,6 174,0H2 110,5 97,0 79,0 71,8 175,3H1-H2 -4,3 -7,5 -7,5 -6,2 -1,3(H1-H2)² 18,5 56,3 56,3 38,4 1,7 171,1

13,08

Détail d’un calcul

Page 78: Analyse statistique pour données à haut débit

78Sébastien Déjean Analyse statistique pour données à haut débit

Classification

H 1 H 2 H 3 H 4 H 5 …H2 0.0003H3 0.0035 0.0048H4 0.0051 0.0045 0.0032H5 0.0058 0.0062 0.0016 0.0009H6 0.0011 0.0016 0.0077 0.0108 0.0121

( )( )

( ) ( )∑ ∑

= =

=

−−

−−−=−=−

n

i

n

iii

n

iii

YX YYXX

YYXXYXYXcor

1 1

22

11),cov(1),(1σσ

Distance 1-corrélationPlutôt que d’utiliser directement la corrélation, on préfère, dans ce contexte, calculer 1-cor(X,Y) qui fournit des valeurs faibles pour des éléments proches. Les valeurs sont alors comprises entre 0 et 2.

V1 V2 V3 V4 V5 E-TH1 106,2 89,5 71,5 65,6 174,0 39,02H2 110,5 97,0 79,0 71,8 175,3 36,88

cov(H1,H2) 1438,3cor(H1,H2) 0,9997 0,0003

Exemple

Détail d’un calcul

Valeur proche de 0 : corrélation forte et positive

Valeur proche de 1 : pas de corrélation

Valeur proche de 2 : corrélation forte et négative

Page 79: Analyse statistique pour données à haut débit

79Sébastien Déjean Analyse statistique pour données à haut débit

Classification

0

0

0

5

4

3

2

1

X

0

0

2

6

5

4

3

2

Y1

0.99500

1.102

56717

150-6

440-5

530-4

320-3

210-2

Y4Y3Y2

Comparaison de distance

Distance euclidienne

Corrélation 1-cor(X,Yi)

Corrélation carrée

sqrt(1-cor2(X,Yi))

Il n’existe pas une distance meilleure que les autres ! Le choix de la distance dépend de l’objectif.

Page 80: Analyse statistique pour données à haut débit

80Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationComparaison de distance

1 2 3 4 5

-10

010

2030

4050

xy1y2y3y4

Page 81: Analyse statistique pour données à haut débit

81Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Minimum (single) Maximum (complete) Moyen (average)

Ward ( ) ( ) ( )∑∑∑∑∑= === =

−+−=−p

1j

n

1i

2Gij

p

1j

2GG

p

1j

n

1i

2Gij XXXXXX j

Minimiser l’inertie intra-classe

Maximiser l’inertie inter-classes

Critère d’agglomération (linkage)

Page 82: Analyse statistique pour données à haut débit

82Sébastien Déjean Analyse statistique pour données à haut débit

Classification

H 2 13 H 3 30 21 H 4 17 13 16 H 5 22 14 11 7 H 6 24 12 14 17 15 H 7 35 24 17 26 20 14 H 8 26 16 13 18 14 8 11 H 9 7 16 31 20 25 24 36 25 H10 24 16 13 18 14 11 15 10 25 F 1 5 14 33 21 25 26 37 28 10 26 F 2 20 19 37 27 29 30 38 33 26 31 17 F 3 10 14 30 17 21 26 36 29 17 27 10 15 F 4 14 19 40 28 32 29 40 32 14 33 12 19 18 F 5 25 21 38 30 31 29 36 34 30 32 22 8 20 23 F 6 8 11 25 14 17 20 30 20 10 18 10 21 13 18 26 F 7 18 29 47 33 39 40 51 42 18 41 16 27 21 15 33 24 F 8 31 44 61 46 52 55 66 57 32 55 30 39 34 30 45 37 15 F 9 2 11 29 16 21 22 33 24 7 23 5 20 10 14 25 7 19 33 F10 17 16 36 24 27 27 37 31 21 32 14 10 11 14 13 20 23 36 16

H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 F1 F2 F3 F4 F5 F6 F7 F8 F9

1 32 5 6 7

Critère : Saut minimum (single)

4

Dendrogramme

Page 83: Analyse statistique pour données à haut débit

83Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationcH

MG

CoA

SA

CC

2P

LTP

AD

SS1 MS

eif2

gTR

bP

PAR

gV

LDLr

Pex1

1aB

cl.3

CO

X1C

YP4

A10

CY

P4A1

4H

MG

CoA

red

FX

Rm

ABC

1S

R.B

IA

CO

TH

CAR

1C

AC

PC

PT2

BIE

NM

RP6

FD

FT

PP

ARa

IL.2

MT

HF

RA

DIS

PR

XR

b2P

XR

LPL

LXR

bS

HP1

FAT

SIAT

4cU

CP2

i.BA

TP

PAR

dTR

aG

SA

CC

1i.N

OS

CY

P24

CY

P27

b1 ap2

CID

EA

CY

P2b

10P

ALc.

fos

RX

Rg1

UC

P3Tp

beta

G6P

DH

CO

X2i.F

ABP

Waf

1C

YP

2b13

NU

RR

1P

DK4

VDR

M.C

PT1

hABC

1R

AR

b2C

YP2

6Lp

in3

NG

FiB

OC

TN2

MD

R1

RAR

aC

16S

Rap

oA.I

SP

I1.1

apoE

PON

AM

2RA

CA

T1M

CA

DR

XRa

LXR

aT

HB

CY

P7a

MD

R2

i.BAB

PA

LDH

3P

ECI

Lpin

2LD

LrT

palp

hacM

OA

TS1

4Lp

inLp

in1

AC

AT2

CYP

8b1

GK

HP

NC

LB

SEP

CY

P27

a1G

6Pas

ePM

DC

Iap

oBG

STa

LCE

CY

P2c

29G

ST

mu

GS

Tpi2

L.F

ABP

FAS

CY

P3A1

1T

HIO

LA

CB

PC

BS

X36

b4N

tcp

AO

Xm

HM

GC

oAS

BA

CT

LPK

apoC

3

020

4060

8010

012

0

Dendrogramme issu de la classification ascendante hiérarchique des 120 gènes avec distinction de 5 groupes.

Page 84: Analyse statistique pour données à haut débit

84Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationQuelques remarques sur la classification hiérarchique :

• aucune connaissance a priori sur le phénomène étudié n’est requise

• réflexion préalable sur le choix de la distance et du critère d’agglomération. Il est même vivement conseillé de procéder à plusieurs classifications et de s’intéresser aux choses qui changent

• critère de saut minimum effet de chaîne (dendrogramme en forme d’escalier)

• le résultat est « figé ». Une fois effectué, un regroupement ne peut plus être défait.

Quand on dit oui, c’est pour la vie !

• un dendrogramme doit être vu comme un mobile pour bébé (le truc que l’on pend au dessus d’un berceau et dont les branches peuvent tourner). Ainsi, les « distances » entre les individus ne sont valables qu’en remontant les branches pas selon leur proximité « visuelle » (T.S.V.P.)

Page 85: Analyse statistique pour données à haut débit

85Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationAu gré de la rotation du mobile, le singe (rose) pourra très bien se retrouver à côté du chien (jaune) ou du lapin (bleu), mais le lapin sera toujours proche de sa balle bleue, le singe de sa balle rose et le chien de sa balle jaune.

Un dendrogramme… c’est pareil !

Page 86: Analyse statistique pour données à haut débit

86Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationFl

orid

aN

orth

Car

olin

aC

alifo

rnia

Mar

ylan

dA

rizon

aN

ew M

exic

oD

elaw

are

Ala

bam

aLo

uisi

ana

Illin

ois

New

Yor

kM

ichi

gan

Nev

ada

Ala

ska

Mis

siss

ippi

Sou

th C

arol

ina

Was

hing

ton

Ore

gon

Wyo

min

gO

klah

oma

Virg

inia

Rho

de Is

land

Mas

sach

uset

tsN

ew J

erse

yM

isso

uri

Ark

ansa

sTe

nnes

see

Geo

rgia

Col

orad

oTe

xas

Idah

oN

ebra

ska

Ken

tuck

yM

onta

naO

hio

Uta

hIn

dian

aK

ansa

sC

onne

ctic

utP

enns

ylva

nia

Haw

aii

Wes

t Virg

inia

Mai

neS

outh

Dak

ota

Nor

th D

akot

aV

erm

ont

Min

neso

taW

isco

nsin

Iow

aN

ew H

amps

hire

050

100

150

Pour enfoncer le clou !Exemple extrait de l’aide en ligne de la fonction hclust() de R

Page 87: Analyse statistique pour données à haut débit

87Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationEncore un coup pour les sportifs !Tableau masculin de l’US Open 2007 de Tennis (à partir des ¼ de finales)

Ferrer Chela Moya Djokovic Federer Roddick Davydenko Haas

Ferrer Djokovic Federer Davydenko

Djokovic Federer

Federer

Djokovic Moya Ferrer Chela Davydenko Haas Roddick Federer

Les rencontres successives ne dépendent pas de l’ordre des joueurs sur le tableau initial. Federer et Djokovic ne pouvaient se rencontrer qu’en finale quelle que soit leur position « visuelle » dans le tableau.

Page 88: Analyse statistique pour données à haut débit

88Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationImage de la matrice des données brutes

H3

H4

H5

H7

H10 H

6

H8 F7 F8 F2 F5 H9 F6 F1 H1 F9 F4 H2 F3 F10

020

4060

8010

012

014

0

Hei

ght

Taill

e

T.ta

ille

Mas

se

T.ep

aule

T.po

itrin

e

010

020

030

040

050

0

Hei

ght

Classification des variables

Classification des individus

Représentation simultanée des classifications des individus et des variables autour d’une image de la matrice des données restructurée selon les dendrogrammes.

Restr

uctura

tion

Page 89: Analyse statistique pour données à haut débit

89Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Cla

ssif

icati

on

des

sou

ris

Classification des gènes

Page 90: Analyse statistique pour données à haut débit

90Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiques

• Préalable : déterminer le nombre de groupes (k) soit par une

connaissance a priori du phénomène étudié, soit par une autre méthode

(classification hiérarchique par exemple)

• Procédure :

Début : k centres (soit tirés aléatoirement, soit imposés par l’utilisateur)

Déroulement : à chaque étape,

tous les individus sont affectés au centre le plus proche

les centres de chaque groupe sont recalculés

Fin : les individus ne changent pas de groupe entre 2 étapes successives

• Résultat : répartition des individus en k groupes

Objectif : répartir des individus dans des groupes « homogènes » dont le nombre est fixé a priori

Page 91: Analyse statistique pour données à haut débit

91Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiques

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

Exemple sur données simuléesRépartition en 2 groupes avec tirage aléatoire des centres initiaux

Page 92: Analyse statistique pour données à haut débit

92Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiquesQuelques remarques sur les nuées dynamiques :

• nécessite de déterminer préalablement le nombre de groupes

• si les centres initiaux sont tirés aléatoirement, des exécutions successives de l’algorithme peuvent donner des résultats différents. Face à cela, on peut :

imposer les centres initiaux (par exemple, les barycentres des classes issues d’une classification hiérarchique)

s’intéresser aux formes fortes : quels que soient les centres, certains points se retrouvent toujours dans le même groupe

• un algorithme de nuées dynamiques exécuté après une classification hiérarchique permet de « stabiliser » la classification obtenue : l’algorithme de nuées dynamiques va permettre à des points de changer de groupe au gré de l’évolution de l’algorithme (ce que ne permet pas la classification hiérarchique (Quand on dit oui…)

Page 93: Analyse statistique pour données à haut débit

93Sébastien Déjean Analyse statistique pour données à haut débit

ACP

Exemple tiré de S. Jay Gould (La mal-mesure de l’homme, chapitre 6)

Devinette : Que représente l’image ci-dessous ?(Attention, il y a un piège…)

Page 94: Analyse statistique pour données à haut débit

94Sébastien Déjean Analyse statistique pour données à haut débit

ACPRéponse : C’est la représentation d’un poisson…

en 2 dimensions !!!

1ère composante principale

2ème composante principale

Centre de gravité du poisson

Page 95: Analyse statistique pour données à haut débit

95Sébastien Déjean Analyse statistique pour données à haut débit

ACPL’image de la diapositive précédente est la représentation en 2 dimensions d’un poisson. En d’autres termes, c’est la projection d’un poisson sur un espace de dimension 2. Cette représentation est tellement fidèle à l’original en 3 dimensions (même si certains spécimens sont plutôt plats comme la sole, ils sont quand même en 3D) que nous n’avons aucun mal à le reconnaître. L’information apportée par la 3ème

dimension est minimale et sa perte n’est pas préjudiciable à la reconnaissance de l’objet.

Parmi les projections possibles en 2D, toutes ne permettent pas de reconnaître aussi facilement l’original. Imaginons par exemple, la projection de face (et non plus latéralement) du poisson, il estprobable que la réponse à la devinette soit aussi évidente.

L’ACP permet de déterminer les espaces de dimension inférieure à l’espace initial sur lesquels la projection du nuage de pointsinitial soit la moins déformée possible, autrement dit celle qui

conserve le plus d’information c’est-à-dire de variabilité.

Quelques explications

Page 96: Analyse statistique pour données à haut débit

96Sébastien Déjean Analyse statistique pour données à haut débit

ACP

T.ep T.p T.t Masse Taille

T.ep 1.00 0.74 0.48 0.72 0.71

T.p 0.74 1.00 0.78 0.81 0.51

T.t 0.48 0.78 1.00 0.86 0.37

Masse 0.72 0.81 0.86 1.00 0.61

Taille 0.71 0.51 0.37 0.61 1.00Matrice des corrélations

Tour de Taille Tour

de

Poitr

ineT

ou

r d

’Ép

au

le

Plus mathématiquement (mais pas trop)

Les 5 variables morphologiques recueillies sur les 20 individus présentent des corrélations importantes. On peut en effet supposer qu’une personne ayant un tour d’épaule important a également un tout de poitrine élevé (la carrure de Casimir étant peu répandue chez l’Homo Sapiens). Dans ces conditions, l’information apportée par les 5 variables est redondante. Graphiquement, sur les 3 premières variables (« Tour des épaules », « Tour de poitrine » et « Tour de taille »), cela se traduit par des zones vides de points dans le cube. Une variable unique calculée comme combinaison de ces 3 variables (représentée par le flèche en pointillés) suffirait à représenter les individus avec une perte d’information minimale

car tous les points sont relativement proches de ce nouvel axe qui est la première composante principale.

Page 97: Analyse statistique pour données à haut débit

97Sébastien Déjean Analyse statistique pour données à haut débit

T.Ep. T.P. T.T. M T

H2 110.5 97.0 79.0 71.8 175.3

H3 115.1 97.5 83.2 80.7 193.5

H7 123.5 106.9 82.0 86.4 184.0

H9 111.0 91.0 68.5 62.0 175.0

H10 119.5 93.5 77.5 81.6 184.0

F2 100.2 94.1 79.6 75.5 160.0

F5 104.0 95.4 86.0 76.8 157.5

F8 91.9 78.1 57.9 48.6 160.7

ACP

73 %

17 %

7 %2 % 1 %

Représentation graphique

Page 98: Analyse statistique pour données à haut débit

98Sébastien Déjean Analyse statistique pour données à haut débit

ACPApplication aux biopuces

Représentation des individus (souris) et des variables (gènes) sur le premier plan principal

Page 99: Analyse statistique pour données à haut débit

99Sébastien Déjean Analyse statistique pour données à haut débit

Positionnement multidimensionnel MultiDimensional Scaling

(MDS)

DonnéesBrutesn x p

Distanceinter-individus

n x n

• Principe : mettre en œuvre une ACP sur un tableau de distance

• Objectif : fournir une représentation des individus sur un espace de petitedimension respectant au mieux les distances initiales

La mise en œuvre du MDS peut se faire soit directement sur des données de type distance, soit, sur des distances calculées à partir d’un tableau individus ×variables selon n’importe quelle distance.

Page 100: Analyse statistique pour données à haut débit

100Sébastien Déjean Analyse statistique pour données à haut débit

MDSExemple : distance entre 21 villes européennes

Athens Barcelona Brussels Calais Cherbourg Cologne Copenhagen . . .

Barcelona 3313

Brussels 2963 1318

Calais 3175 1326 204

Cherbourg 3339 1294 583 460

Cologne 2762 1498 206 409 785

Copenhagen 3276 2218 966 1136 1545 760

Geneva 2610 803 677 747 853 1662 1418

Gibraltar 4485 1172 2256 2224 2047 2436 3196

. . .

Jeu de données extrait de « TheCambridge Encyclopaedia » disponible directement dans R

La projection sur le premier plan obtenu par MDS donne une assez bonne répartition

géographique des villes européennes.

Pour des données de ce type, le format individus × variables n’a pas lieu d’être. Les données sont par nature de type distance.

Page 101: Analyse statistique pour données à haut débit

101Sébastien Déjean Analyse statistique pour données à haut débit

MDSComparaison de distances

Distance euclidienne Corrélation Corrélation carrée

Influence du choix de la distance sur la position relative des gènes CAR1 et GSTpi2.

Page 102: Analyse statistique pour données à haut débit

102Sébastien Déjean Analyse statistique pour données à haut débit

ConclusionBiologiste 1 – 0 Statisticien (Traduit de R. Tibshirani)

Avant d’être exécutés, on accorde une dernière volonté à un statisticien et à un biologiste. Le statisticien demande l’autorisation de donner une dernière conférence sur sa Grande Théorie des Statistiques. Le biologiste demande à être exécuté en premier (…avant la conférence…)

Aujourd’hui les biologistes sont confrontés à un afflux massif de données dont la gestion et l’analyse nécessitent des outils adaptés que seuls les statisticiens et les informaticiens maîtrisent.

INTERACTIONS

Biologiste 1 – 1 Statisticien (R.A. Fisher)

To call in a statistician after the experiment is done may beno more than asking him to perform a postmortemexamination: he may be able to say what the experimentdied of.

Les statisticiens se confrontent à des questions nouvelles apportées par les biologistes et à des données d’origine biologique avec leurs spécificités (dimensions, bruits, etc…)

Page 103: Analyse statistique pour données à haut débit

103Sébastien Déjean Analyse statistique pour données à haut débit

Statistique• L. Lebart, A. Morineau, M. Piron - Statistique exploratoire multidimensionnelle, Dunod (1995).

• G. Saporta - Probabilités analyse des données et statistique, Éditions Technip (1990).

Bibliographie

Web• www.lsp.ups-tlse.fr/Biopuces : publications, supports de formation, bibliographie…

Vulgarisation scientifique• Jay Gould S. La mal-mesure de l’homme, Livre de Poche (1997).Corrélation-causalité, analyse factorielles (ACP)…

• Jay Gould S. L’éventail du vivant, Points Sciences (2001).Indicateurs statistiques : moyenne, médiane, mode…

Page 104: Analyse statistique pour données à haut débit

104Sébastien Déjean Analyse statistique pour données à haut débit

Ouvertures

1) Classification de courbesLissage spline

2) Recherche de corrélations entre 2 jeux de données

Analyse canonique

Traitement de problèmes spécifiques

Page 105: Analyse statistique pour données à haut débit

105Sébastien Déjean Analyse statistique pour données à haut débit

Cas n°1

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de jeûne chez la souris 11 temps de mesure entre 0 et 72h (0 – 3 – 6 – 9 – 12 – 18 – 24 – 36 – 48 – 60 – 72)

4 souris par temps~200 gènes étudiés (130 après « nettoyage »)Objectif : classification des gènes selon leur profil temporeld’expression au cours du jeûne

Page 106: Analyse statistique pour données à haut débit

106Sébastien Déjean Analyse statistique pour données à haut débit

Les données

Page 107: Analyse statistique pour données à haut débit

107Sébastien Déjean Analyse statistique pour données à haut débit

Méthodologie

1) Lissage par spline cubique2) Calcul de la fonction dérivée3) Discrétisation de la courbe

dérivée4) Classification sur la base des

valeurs de la dérivée aux points de discrétisation

Page 108: Analyse statistique pour données à haut débit

108Sébastien Déjean Analyse statistique pour données à haut débit

Lissage

Paramètre de lissage :

• plus λ est élevé, plus la courbe lissé se rapproche d’une droite (régression linéaire)

• quand λ est faible, la solution du problème d’optimisation se rapproche d’une fonction d’interpolation

Page 109: Analyse statistique pour données à haut débit

109Sébastien Déjean Analyse statistique pour données à haut débit

Influence de λ

Page 110: Analyse statistique pour données à haut débit

110Sébastien Déjean Analyse statistique pour données à haut débit

Courbes dérivées

Page 111: Analyse statistique pour données à haut débit

111Sébastien Déjean Analyse statistique pour données à haut débit

Courbes lissées et dérivées

Page 112: Analyse statistique pour données à haut débit

112Sébastien Déjean Analyse statistique pour données à haut débit

Choix de λ

Question centrale dans les problèmes de lissage (et plus généralement dans l’optimisation de fonctions pénalisées)

Méthodes automatiques : validation croisée, sélection de modèle…

Méthodes « pragmatiques » : intégration du phénomène biologique sous-jacent, pertinence du nombre de changements de signe de la dérivée

λ = 0.6

Page 113: Analyse statistique pour données à haut débit

113Sébastien Déjean Analyse statistique pour données à haut débit

Discrétisation20 points de discrétisation équi-répartis entre 0 et 72h

Page 114: Analyse statistique pour données à haut débit

114Sébastien Déjean Analyse statistique pour données à haut débit

Nouvelles données

Les gènes ne sont plus caractérisés par des mesures à 11 temps différents mais par 20 valeurs de la dérivée de leur profil lissé

Le nouveau tableau de données a donc 130 lignes et 20 colonnes

Dans ce nouveau cadre, les variables sont les temps de discrétisation (et non plus les temps réels d’acquisition)

Page 115: Analyse statistique pour données à haut débit

115Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Mise en œuvre d’un algorithme de type kmeans pour stabiliser les groupes issus de la CAH

Page 116: Analyse statistique pour données à haut débit

116Sébastien Déjean Analyse statistique pour données à haut débit

ACP

Page 117: Analyse statistique pour données à haut débit

117Sébastien Déjean Analyse statistique pour données à haut débit

Groupes de profils

Page 118: Analyse statistique pour données à haut débit

118Sébastien Déjean Analyse statistique pour données à haut débit

Cas n°2

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de nutrition chez la souris 40 souris (4 souris × 5 régimes × 2 génotypes)

2 types de mesure :Expression de 120 gènesConcentration de 21 acides gras hépatiques

Objectif : recherche de corrélationsentre les niveaux d’expression desgènes et les concentrations en acides gras hépatiques

Page 119: Analyse statistique pour données à haut débit

119Sébastien Déjean Analyse statistique pour données à haut débit

Les données

X(40 ×20)

Y(40×120)

40 souris

120 gènes21 lipides

2121 XXXX ... = 12021 YYYY ... =

Page 120: Analyse statistique pour données à haut débit

120Sébastien Déjean Analyse statistique pour données à haut débit

Analyse canoniquePrincipe : rechercher les combinaisons linéaires, une dans chaque groupe de variables, les plus corrélées ( analogie avec l’ACP ?)

21121

212

111

1 XaXaXaU +++= L1201

12021

211

11 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

111 ==ρ

Premières variables canoniques

21221

222

121

2 XaXaXaU +++= L1202

12022

212

12 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

222 ==ρDeuxièmes variables canoniques

( ) ( ) 0,, 2121 == VVcorUUcor

Page 121: Analyse statistique pour données à haut débit

121Sébastien Déjean Analyse statistique pour données à haut débit

Mathématiquement

( ) ttX XXXXP 1−= ( ) ttY YYYYP 1−=

Soit PX et PY les projecteurs sur les espaces engendrés respectivement par les colonnes des matrices X et Y

Les corrélations canoniques ρs sont égales aux racines carrées des valeurs propres de la matrice PXPY

Les vecteurs Us sont les vecteurs propres de la matrice PXPY associés aux valeurs propres λs

Les vecteurs Vs sont les vecteurs propres de la matrice PYPX associés aux valeurs propres λs

Page 122: Analyse statistique pour données à haut débit

122Sébastien Déjean Analyse statistique pour données à haut débit

AC régularisée

( ) ttX XIXXXP 11

−+= λ ( ) ttY YIYYYP 12

−+= λ

Quand on dispose de plus de variables que d’individus, les matrices XtX et YtY deviennent mal conditionnées et leur inversion délicate.

Pour remédier à cela, on peut avoir recours à une technique de régularisation consistant à ajouter un terme, plus ou moins grand, à la diagonale de la matrice à inverser.

Problème de réglage des paramètres de régularisation λ1 et λ2 : validation croisée …

Page 123: Analyse statistique pour données à haut débit

123Sébastien Déjean Analyse statistique pour données à haut débit

Résultats

VariablesIndividus

?

ConnuRésultat de l’étude (validé par ailleurs)