découverte de e-dépendances fonctionnelles : application à des données de biopuces alexandre...

22
Découverte de e- dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002, Evry

Upload: alberi-faucher

Post on 03-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Découverte de e-dépendances fonctionnelles : Application à des données de biopuces

Alexandre Aussem, Jean-Marc Petit

LIMOS, Clermont-Ferrand

BDA 2002, Evry

Page 2: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Plan

Les biopuces Intérêts Données produites Analyse des données de biopuces

Techniques non supervisées classiques Les DFs sur des données de biopuces

Relaxation de la satisfaction des DFs Un nouveau problème d’inférence Adaptation d’un cadre conçu pour les DFs

Premiers résultats expérimentaux Conclusion et perspectives

Page 3: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Notions de biologie

Génome : ensemble de tous les gènes humains Présent dans toute cellule humaine

Transcriptome : sous ensemble de gènes actifs dans une cellule, i.e. les gènes qui sont transcrits en ARN messager (ARNm) dans une cellule Expression d‘un gène = transcription du gène

en ARNm Protéome : sous ensemble de protéines

dans une cellule, i.e. de ARNm qui sont traduits en protéines

Page 4: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Qu’est qu’une biopuce ?

Dispositif pour mesurer le transcriptome d’une cellule Donne les gènes qui s’expriment dans un

type cellulaire donné Intérêts des biopuces

Permet de mesurer le transcriptome de différents types de cellule

Permet de trouver des différences dans le profile d‘expression

e.g. trouver des gènes sur ou sous exprimés dans des cellules tumorales vs cellules normales

Page 5: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,
Page 6: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Exemple : 8 gènes, 6 expériences

YHR051W YKL181W YHR124W YHL020C YGR072W YGR145W YGR218W YGL041C

Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06

Exp2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23

Exp3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20

Exp4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01

Exp5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01

Exp6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19

Page 7: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Les données issues des biopuces

Tableaux à 2 dimensions : gènes x expériences

Beaucoup de gènes (jusqu’à 30 000)Peu d’expérience (quelques

centaines) Valeurs réelles uniquement Données bruitées, comportant des

valeurs nulles, peu fiables

Page 8: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Analyse des données de biopuces

Peut être vu comme un problème de découverte de connaissance dans les données

Quelles techniques de fouille de données utiliser ? Techniques supervisées

E.g. prédire le comportement d’un gène avec un arbre de décision

Techniques non supervisées E.g. regroupement, règles d’association

Ce que souhaite les biologistes ? Très ouverts Les implications entre gènes frappent leur bon sens,

e.g. : Si G1 et G3 sont sur exprimés alors G2 l’est aussi

Page 9: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Les problèmes posés pour déterminer des implications

Si implication = règles d’association Discrétisation des données

Transformation des données dans {0,1} Le nombre de gènes augmentent

Si implication = dépendances fonctionnelles Pas besoin de discrétiser Hélas, chaque gène est une clé

Page 10: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Idée de base

Considérer les DFs comme une connaissance sur les données Au même titre que les règles d’association …

Prendre en compte les caractéristiques des données de biopuces Relaxer la définition de la satisfaction d’une DF

=> e-DF Adapter un cadre d’inférence au problème

de fouille de données sous jacent

Page 11: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Relaxer la définition de la satisfaction d’une DF

Rappel :

On relaxe l’égalité, on obtient les e-DFs

[B]t[B]Y tB[A] t[A]X tA

r,ttYXr

2121

21

alors si

ssi

ε[B]t[B]tYB ε[A]t[A]tX A

r,ttYXr

2121

21

alors si

ssi

Page 12: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Exemples avec un seuil à 0.05

543

71

GGG

GG

G0 G1 G2 G3 G4 G5 G6 G7

Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06

Exp2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23

Exp3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20

Exp4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01

Exp5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01

Exp6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19

et beaucoup d’autres …

5453 et avec GGGG

Page 13: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

G1 détermine G7

-0,30

-0,20

-0,10

0,00

0,10

0,20

0,30

0,40

G1

G7

Exp1 Exp2 Exp3 Exp4 Exp5 Exp6

Entre l’expérience 3 et 6, le niveau d’expression de G1 et G7 est le même.Ailleurs, les couples ne vérifient pas la condition

Page 14: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

G3, G4 déterminent G5

-1,40

-1,20

-1,00

-0,80

-0,60

-0,40

-0,20

0,00

0,20

0,40

G3

G4

G5

Exp1 Exp2 Exp3 Exp4 Exp5 Exp6

Entre l’expérience 2 et 5, le niveau d’expression de G3, G4 et G5 est le même.Entre l’expérience 1 et 3, G4 ne varie pas alors que G5 varieEntre l’expérience 3 et 6, G3 ne varie pas alors que G5 varie

Page 15: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Une nouvelle tâche d’inférence

« Etant donnés une relation à valeurs réelles r et un seuil e, déterminer les DFs e-satisfaites dans r »

Peut on utiliser les techniques développées pour l’inférence des DFs ?

Page 16: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Opérateur de fermeture

Soient G un ensemble fini de gènes et r une relation

On définit .r+ une application sur P(G)

comme :

.r+ est un opérateur de fermeture sur P(G)

pour r Bonne nouvelle

AXrGAX r

Page 17: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Opérateur de fermeture, fermés et implications

Équivalence entre un système de fermeture et des implications Des algorithmes existent pour passer de l’un à

l’autre Les ensembles en accord sont inclus dans

les fermés Il suffit de calculer ces fermés particuliers puis

d’utiliser une technique d’inférence classique les ensembles en accord

Page 18: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Comment calculer une représentation des fermés ?

Pour deux tuples t1 et t2, on peut calculer le fermé correspondant, i.e. l’ensemble des gènes qui varient dans la limite du seuil e

Pour une relation r, on calcule p(p-1)/2 fermés

][][ tq),( 2121 AtAtGAttag

Page 19: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Exemple avec un seuil à 0.05

G0 G1 G2 G3 G4 G5 G6 G7

1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06

2 0.30 -0.20 0.08 0.03 -0.43 -1.15 -0.23 0.23

3 0.37 -0.12 0.06 0.21 0.22 -1.03 0.12 0.20

4 0.38 -0.01 -0.30 -0.10 -0.36 -0.76 0.04 -0.01

5 -0.14 0.07 0.00 0.06 -0.39 -1.12 0.26 -0.01

6 -0.12 -0.07 -0.23 0.25 -0.42 -0.30 -0.18 0.19

Agree ={

{} {G3} {G4} {G6} {G2,G7} {G3,G4,G5} {G4,G7} {G0} {G1,G3,G7} {G0,G4}

}

Exemple pour G7• e-DF exclues : {G3,G4,G5} {G6} {G0,G4}• e-DF : {G7} {G5,G6} {G4,G6} {G3,G6} {G2} {G1} {G0,G6} {G0,G5} {G0,G3}

Page 20: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Couverture canonique

Des ensembles en accord, déduire la plus petite famille génératrice GEN (inf-irréductible)

Pour un gène G donné Déterminer les éléments de GEN qui ne

contiennent pas G Calculer l’ensemble des parties

gauches minimales qui détermine G Exponentiel en le nombre de gènes

YXrAGenYGeneXrAlhs

,),(min),(

Page 21: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Premiers résultats expérimentaux

Test sur des données issues du Web Données de la levure Sélection de 180 gènes, 50 expériences Beaucoup de règles de la forme Beaucoup de clés

Validation en cours, pas encore de résultats concrets Partenaire : LOM, Laboratoire du centre anti-

cancéreux de Clermont-Ferrand Etape difficile liée en partie au domaine traitée

G0

Page 22: Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Conclusion et Perspectives

Premier bilan A partir d’une nouvelle application

Nouvelle mesure de l’interaction des gènes Évite la discrétisation des données

Définition d’un nouveau problème de fouille Justification et mise en œuvre d’une technique

d’inférence Difficile d’interpréter simplement la K extraite

Travail en cours Validation avec des experts Autres définitions de la satisfaction d’une DF pour mieux

prendre en compte les besoins des biologistes Classement des règles extraites