chapitre v modelisation de reseaux de regulation

Chapitre V : Modélisation de réseaux de régulation

CHAPITRE V

MODELISATION DE RESEAUX DE REGULATION

1. INTRODUCTION

L’analyse de données d’expression issues de puces à ADN dans le contexte d’un

modèle mathématique permet en principe la reconstruction (« reverse-engineering ») du

réseau de régulation de l’expression des gènes étudiés. Ces dernières années, une multitude de

méthodes mathématiques et informatiques ont été développées pour relever ce défi

(D’haeseleer et al. 2000 ; Smolen et al. 2000 ; de Jong, 2002 ; van Someren et al. 2002 ;

Perkins et al. 2004 ; Quayle & Bullock 2006 ; Schlitt & Brazma, 2007 ; Li et al. 2008 ; Chou

& Voit 2008). Il convient de distinguer les modèles sous divers angles: (1) les modèles

statiques, i.e. indépendants du temps, et les modèles dynamiques, qui tiennent comptent du

temps, (2) les modèles qualitatifs tels que certains réseaux booléens (Tomas 1973, Kauffman

1974, Liang et al. 1998), probabilistes, tels que les réseaux bayésiens (Friedman et al. 2000)

issus de la théorie des graphes, et déterministes, tels que les systèmes d’équations

différentielles, qui en outre tiennent comptent explicitement du temps, ce qui facilite l’étude

du comportement dynamique de l’expression des gènes (Gebert et al. 2006, De Jong 2002).

Les réseaux booléens quantifient les niveaux d’expression de façon binaire : soit un

gène est « allumé » soit il est « éteint » et utilisent un temps discret. L’état de chaque gène est

alors déterminé par des fonctions booléennes dépendant de l’état des autres gènes. Les

avantages incontestables de cette approche résident dans sa simplicité, qui s’avère utile

lorsqu’on désire modéliser de grands réseaux de régulation, et dans le fait qu’elle nécessite un

faible temps de calcul. De plus, malgré leur simplicité, ces réseaux permettent de reproduire

des comportements dynamiques tels que des oscillations, des hystérèses ou la convergence

vers de points fixes. Néanmoins, l’inconvénient majeur de ces réseaux est qu’ils n’offrent que

des informations et prédictions qualitatives et qu’elles se limitent à des états discrets des

niveaux d’expression des gènes. En effet, ces modèles ont été développés pour traiter les

premières données expérimentales qui étaient généralement statiques et trop peu précises pour

en extraire plus que de l’information binaire. Il est aujourd’hui possible de traiter les niveaux

d’expression des gènes comme des variables continues.

Les réseaux bayésiens, quant à eux, sont des graphes directionnels acycliques. Chaque

nœud du réseau représente un gène et est associé à une variable aléatoire correspondant au

niveau d’expression de ce gène et à une distribution de probabilité de cette variable aléatoire.

61


On exprime ainsi la probabilité du niveau d’expression d’un gène en fonction des niveaux

d’expression des gènes qui lui sont connectés en amont (« gènes parents »). Les avantages de

cette méthode sont son caractère probabiliste, qui reflète la nature stochastique des processus

cellulaires et du bruit sur les données expérimentales, et sa capacité à gérer des données

manquantes (Li et al. 2004 ; Kim et al. 2004).

Enfin, les systèmes d’équations différentielles s’avèrent une voie séduisante pour ce

type de problème car ils permettent d’exprimer explicitement et de manière continue

l’évolution du niveau d’expression d’un gène en fonction du temps et des niveaux

d’expression de tous les gènes, soit de manière linéaire (Chen et al. 1999 ; Gebert et al. 2006 ;

D’haeseleer et al. 1999 ; Weaver et al. 1999 ; Holter et al, 2001 ; Yeung et al. 2002 ; De

hoon et al. 2002 ; de Jong et al. 2003 ; Guthke et al. 2005 ; Bansal et al. 2006 ; Kramer & Xu

2007 : d’Alché-Buc et al. 2005) soit de manière non linéaire (von Dassow et al. 2000; Wang

et al. 2006; Sakamoto et Iba 2001 ; Quach et al. 2007 ; Gennemark & Wedlin 2009). Ces

équations constituent le formalisme de modélisation dynamique le plus puissant et ont été

largement utilisées pour la modélisation de systèmes biochimiques (Crampin et al. 2004 ;

Sible & Tyson, 2006). En outre, elles permettent de modéliser des comportements

dynamiques complexes tels que des oscillations, des comportements cycliques ou des états de

multi-stationnarité (Thomas 1981, Kauffman & Thomas 2003, d’Alché-Buc & Schachter

2005). Pour ces raisons, nous choisissons de modéliser le réseau de régulation de l’expression

des gènes de la drosophile par un système d’équations différentielles, linéaires dans un

premier temps et non linéaires par la suite. Signalons finalement que d’autres méthodes ont

également été proposées pour ce type de problème (De Jong 2002, Crampin et al. 2004).

Citons les réseaux logiques (D’Ari & Thomas 2003), les réseaux bayésiens dynamiques

(Murphy & Mian 1999), les modèles autorégressifs (Schmitt & Stephanopoulos 2003) et les

réseaux de Petri (Peleg et al. 2005).

Comme cela a été expliqué au chapitre précédent, la première difficulté rencontrée

dans cette démarche est la grande dimensionnalité du problème. Le nombre élevé de gènes

impliqués dans le système, les hauts niveaux de bruits présents dans les données disponibles

et l’indétermination structurelle inhérente à certains types de réseaux contribuent au fait que

les problèmes de modélisation sont généralement sous-déterminés. C’est pourquoi on

regroupe généralement les gènes dont les profils d’expression sont similaires (chapitre IV).

Une autre manière courante de réduire la dimensionnalité des modèles de réseaux est

d’utiliser des connaissances biologiques pour établir a priori certaines connexions entre gènes

(Sible & Tyson, 2007). Néanmoins, les connaissances actuelles à ce sujet sont généralement

fragmentaires et si certaines stratégies pour gérer ces informations incomplètes dans la

modélisation de réseaux de régulation génique ont été proposées (de Jong & Ropers, 2006),

elles demandent en pratique une implémentation parfois laborieuse.

Enfin, toujours dans le but de réduire le nombre de paramètres des modèles, des

méthodes ont été proposées pour concevoir des réseaux de régulation contenant un minimum

62


de connexions, soit en intégrant cette contrainte dans l’identification des réseaux (Deng et al.

2005), soit en définissant a priori un nombre maximal de connexions par (classe de) gène

(Gardner & Faith, 2005; Yeung et al. 2002; Ciliberti et al. 2007). Cette hypothèse de faible

connectivité est basée sur le faible nombre de facteurs de transcription régulant l’expression

de chaque gène. Toutefois, sa validité peut être remise en question si l’on considère les

nombreuses interactions entre gènes et produits de gènes gouvernées par d’autres processus

biologiques que l’action des facteurs de transcription (Brazhnik et al. 2002).

Dans le but de maximiser la généralité des résultats obtenus, nous choisissons de

réduire autant que possible le nombre d’hypothèses ou de connaissances a priori intégrées aux

modèles développés mais d’identifier les solutions, optimales au sens des critères qui seront

choisis, au problème de la régulation génique de la drosophile.

En 1999, Chen et al. ont proposé un modèle basé sur un système d’équations

différentielles linéaires à coefficients constants décrivant l’évolution des concentrations à la

fois des ARNm et des protéines du système biologique étudié, comme l’ont fait, entre autres,

Thomas et al. (2004) et Sontag et al. (2004). Toutefois, si des technologies équivalentes aux

puces à ADN ont également été développées pour mesurer la concentration en protéines, le

coût de ces technologies reste élevé et l’exploitation de ces données en plus de celles des

puces à ADN rendrait la dimension du problème démesurée. Aussi, dans l’étude de la

régulation de l’expression des gènes, on fait couramment l’hypothèse d’un réseau de

régulation simplifié dans lequel les ARNm et les protéines sont confondus en une unique

entité. On quantifie cette variable par le niveau d’expression du gène et on étudie les

interactions directement d’un gène à l’autre (Gebert et al. 2006). Il est à noter que cette

hypothèse implique l’intégration d’une série de processus biologiques impliqués dans la

régulation de l’expression des gènes, tels que la transcription, le transport et la traduction des

molécules d’ARNm, les modifications post-traductionnelles, la dégradation des ARNm, etc.

Dans cette optique, on choisit d’utiliser des systèmes d’équations différentielles pour

modéliser les profils d’expression des 4005 gènes de la drosophile, classifiés de manière à ce

que les gènes présentant des profils d’expression similaires soient regroupés, selon les

algorithmes et distances décrits au chapitre IV. Dans un premier temps, on utilise une version

simplifiée du modèle de Chen et al. (1999) dans laquelle on ne différentie pas les ARNm des

protéines. Cette étude est décrite au point 2 de ce chapitre. Dans un second temps, cette

analyse sera étendue au cas non linéaire. Cette approche est décrite au point 3 de ce chapitre.

Enfin, notons que dans ce travail, les réseaux de régulation sont étudiés au niveau de

leurs performances en termes de reproduction de données, de robustesse aux perturbations

paramétriques et de stabilité des profils estimés et du nombre de connexions qu’ils

contiennent plutôt que sur leurs structures à proprement parler. Ainsi, les caractéristiques

structurelles telles que les boucles de rétroaction, dont la présence et l’utilité ont été mises en

évidence dans les réseaux de régulation génique (Demongeot et al. 2000, Thomas et al. 1995),

bien qu’observées dans nos résultats, ne seront pas étudiées davantage.

63


2. APPROCHE LINEAIRE

2.1. Méthodes

2.1.1. Données étudiées

Dans cette étude, on choisit de modéliser les profils temporels de niveaux d’expression

de la drosophile en considérant la série temporelle complète (l=67 points de mesure pendant

40 jours). Afin de réduire le bruit de mesure inhérent à la technologie des puces à ADN, les

h=4005 profils temporels de niveaux d’expression de la drosophile yg (g=1,…,h), définis en

(I.8) comme le logarithme en base 2 d’un rapport de concentration en ARNm, sont tout

d’abord soumis à un filtrage en moyennes mobiles (équations IV.1). On note F ( ) g ky (g=1,…,h) les profils d’expression filtrés :

F

F 1 1 11 12 4 4

( ) ( ) pour 1,

( ) ( ) ( ) ( ) pour 1

g k g k

g k g k g k g k

y y k

y y y y k

l

l (V.1)

2.1.2. Classification des données

Les profils filtrés F ( ) g ky sont ensuite classifiés par la méthode de classification

Smoothing Spline Clustering (Ma et al. 2006) (voir chapitre IV, section 2.1). Les profils

d’expression moyens (c kx ) (c=1,…,n) des n=17 classes ainsi formées sont définis comme

les moyennes arithmétiques des profils d’expression filtrés F ( ) g ky des hc gènes de chaque

classe c et la disparité ( ) c k des données dans chaque classe comme l’écart-type entre ces

profils d’expression et la courbe moyenne ( ) c kx correspondante (équations IV.4) :

F

2F

1( ) ( )

[1, ], [1, ], 1

( ) ( ) ( )

c k g kg cc

c k g k c kg cc

x yh

c n k l

y xh

(V.2)

où hc est le nombre de gènes dans la classe c. Cette grandeur sera exploitée dans l’estimation

paramétrique du modèle, à la section 2.1.4.

2.1.3. Structure de modèle

Le premier modèle étudié dans ce travail est le système d’équations différentielles le

plus simple possible, c’est-a-dire linéaire, autonome et à coefficients constants. Dans ce type

de modèle, l’évolution temporelle du niveau d’expression de la classe de gène c ne dépend

que des niveaux d’expression xc de toutes les classes de gènes c (c=1,…,n) où n=17 est le

64


nombre de classes de gènes. En définissant le vecteur 1 2( , ,..., )Tnx x xx et en notant t le temps

réel continu, ce système d’équations s’écrit :

d ( )

( )d

tt

t

xM x (V.3)

où M est une matrice n x n de coefficients constants qu’il nous faudra estimer.

Le choix d’un système d’équations linéaires, plutôt qu’un modèle comprenant

explicitement des paramètres cinétiques d’activation et d’inhibition, est motivé par 2

considérations. Premièrement, on cherche ici à modéliser un système dans lequel d’autres

molécules que les facteurs de transcription peuvent jouer un rôle important, même indirect,

dans la régulation génique. Deuxièmement, ce modèle est ici appliqué à des profils

d’expression relatifs à des classes de gènes plutôt qu’à des gènes individuels. Par conséquent,

les processus de régulation impliqués sont ici moyennés pour chaque classe de gènes et les

paramètres du modèle représentent l’effet global de différents effets. Ils ne permettent donc

pas une simple interprétation biophysique. Ainsi, dans l’équation (V.3), le paramètre Mij de la

matrice M représente l’effet global du niveau d’expression de la classe de gènes j sur

l’évolution temporelle du niveau d’expression de la classe de gènes i. Dès lors, nous

proposons d’étudier la modélisation de l’ensemble des processus impliqués dans le système

étudié en nous détachant tout d’abord d’une formulation cinétique classique pour proposer

une représentation aussi simple que possible de l’effet produit par cet ensemble de processus,

i.e. un modèle linéaire. L’analyse des résultats permettra d’établir les performances et les

limites d’un tel modèle pour le problème posé. Par la suite, des structures non linéaires seront

étudiées (voir section 3).

Le problème revient donc à estimer les n² éléments de la matrice M de manière à

reproduire les n profils expérimentaux moyens filtrés xc(τk), où les 67 instants de mesure τk

sont distribués de manière non uniforme dans le temps de mesure. Cette estimation

paramétrique est effectuée en deux étapes : une première étape d’estimation paramétrique linéaire qui mène analytiquement à une solution pour les dérivées temporelles de c kx ,

laquelle est utilisée comme valeur initiale pour la seconde étape d’optimisation paramétrique

(non linéaire), résolue numériquement.

2.1.4. Estimation paramétrique

a) Estimation paramétrique linéaire

Pour estimer les n² éléments de M, on propose d’exploiter les propriétés inhérentes à

la linéarité du problème. Ainsi, on constate qu’une estimation des dérivées temporelles de x

permet de résoudre analytiquement l’équation (V.3). Pour cela, on applique une méthode

d’interpolation en « splines » cubiques (voir définition au chapitre IV, section 2.1) des profils

expérimentaux, à l’aide de la routine csaps du programme Matlab. Comme l’estimation de ces

65


dérivées temporelles aux instants initial et final τ1 et τl sont moins fiables, on supprime ces

deux points pour tous les calculs ultérieurs. La résolution de l’équation (V.3) est réalisée en

utilisant la routine mrdivide de Matlab sur les mesures aux l=65 instants restants. Cette

estimation paramétrique, dite « au sens des moindres carrés », correspond à la valeur

minimum de la norme 2 des écarts entre les dérivées temporelles de x estimées par

interpolation et par le modèle M x :

21

LS

2 2

d ( )ˆ ( )d

lk

kk

ArgMint

M

xM M

x (V.4)

Comme cette estimation utilise des algorithmes numériques, elle dépend notamment

de la fréquence d’échantillonnage des données qui est largement plus élevée dans le stade

embryonnaire (1 mesure toutes les 30 minutes) que dans le stade adulte (1 mesure tous les 3

jours). En interpolant les niveaux d’expression et de leurs dérivées temporelles sur toute la

série temporelle en conservant la fréquence de mesure du stade embryonnaire (ce qui donne

lieu à 1920 points de mesure au lieu de 65 sur toute la série temporelle), il a été constaté que

l’estimation paramétrique de M donne de meilleurs résultats, en termes d’écarts entre les

profils interpolés et estimés des dérivées temporelles des profils d’expression. Notons que

dans ce cas, un poids plus important est attribué aux mesures du stade adulte car celles-ci

s’étalent sur ¾ de la période de mesure alors que ces mesures sont au départ les moins

nombreuses. Dès lors, une perspective intéressante serait de pondérer ces mesures artificielles

de manière à soit mettre tous les stades sur un pied d’égalité, soit respecter la proportion des

points de mesures, soit respecter la quantité d’information apportée par les mesures dans

chaque stade. Notons que tous les calculs ultérieurs à cette estimation sont faits en ne

considérant que les 65 points de mesures réels.

Pour évaluer la validité de cette estimation paramétrique linéaire, les profils estimés LSˆ ( )kx (k=1,...,l) sont générés en intégrant les équations (V.3) avec la matrice et les

conditions initiales expérimentales x(τ1). Cette intégration est réalisée à l’aide d’un algorithme

classique de Runge-Kutta (Forsythe et al. 1977) (routine ode45 de Matlab). On définit ensuite

une fonction de coût qui quantifie la qualité de reproduction des profils expérimentaux par un profil estimé . Cette fonction, notée , correspond à l’écart quadratique moyen entre les

profils estimé et expérimental, pondéré par l’inverse de la variance des données

LSM̂

x̂ ˆ( )S x2( )c k ,

définie aux équations (V.2).

21

21 1

ˆ( ) ( )1ˆ( )

( )

n lc k c k

c k c k

x xS

nl

x (V.5)

La pondération par 2( )c k dans permet d’affecter un poids plus important aux termes

de la fonction de coût relatifs aux points expérimentaux présentant une faible disparité des

ˆ( )S x

66


données. De ce fait, on privilégie les solutions pour lesquelles le modèle reproduit mieux les

données associées à un intervalle de confiance plus étroit.

b) Optimisation paramétrique non linéaire

L’estimation paramétrique linéaire se base sur l’estimation des dérivées temporelles

des niveaux d’expression faite par la fonction de lissage csaps de Matlab et non sur les

valeurs exactes de celles-ci. Les valeurs des paramètres sont donc nécessairement entachées

d’une certaine erreur due à cette estimation.

Dès lors, on propose d’effectuer une optimisation non linéaire des paramètres, de

façon à corriger l’écart dû à l’erreur d’estimation des dérivées temporelles des courbes

expérimentales. Plus précisément on recherche une nouvelle matrice et de nouvelles

conditions initiales

OptM̂Opt

1ˆ ( )x qui minimisent la fonction de coût , telle qu’elle est

définie à l’équation (V.5). Cette recherche locale est initialisée aux valeurs et

Optˆ( )xSLSM̂ 1( )x et

réalisée par un algorithme de simplexe (Lagarias et al.1998) implémenté dans la routine

fminsearch de Matlab.

L’inconvénient de cette méthode est, comme dans toute optimisation numérique, le

risque que la recherche se termine prématurément, piégée dans un minimum local de la

fonction de coût choisie. Toutefois, étant donné que la recherche est initialisée à la solution de

l’estimation paramétrique linéaire, on peut espérer qu’elle aboutira à une solution proche du

minimum global de la fonction de coût.

2.1.5. Réduction paramétrique

La matrice traduit les influences mutuelles entre les classes de gènes. A ce stade,

elle correspond à un réseau de régulation de l’expression des gènes hautement, voire

totalement, connecté. Cependant, il est possible que d’autres ensembles de paramètres, plus

réduits, c’est-à-dire contenant des éléments nuls, puissent modéliser aussi bien les profils

d’expression. Pour trouver de tels ensembles de paramètres, on effectue une réduction

paramétrique du modèle, de manière à identifier les connections entre classes qui sont

nécessaires pour conserver une bonne modélisation des profils d’expression. On suppose alors

que ces connexions sont les plus plausibles biologiquement.

OptM̂

On propose 2 procédures (A et B) et 2 critères d’arrêt (1 et 2) pour déterminer les

éléments de M qui pourraient être annulés. Les deux procédures se basent sur l’estimation des

moindres carrés et tentent de maintenir à une valeur aussi faible que possible. Bien

que l’estimation des moindres carrés offre des solutions qui ne sont optimales que pour la

reproduction des dérivées temporelles des profils d’expression, elle offre l’avantage d’être

analytique et rapide comparée à l’estimation paramétrique non linéaire. C’est pourquoi seule

celle-ci est considérée pour déterminer les paramètres à éliminer.

LSˆ(S x )

67


La procédure A est itérative et trace une trajectoire unique dans l’ordre des paramètres

à éliminer. A chaque itération, le paramètre qui, une fois éliminé, mène au plus petit

est définitivement annulé. Lorsque le critère d’arrêt choisi est atteint, une optimisation non

linéaire finale est effectuée et est calculé. En notant N le nombre de paramètres

éliminés du modèle, le premier critère d’arrêt est choisi comme la valeur N =N* à laquelle on

observe une augmentation brusque et importante de et au-delà de laquelle la bonne

reproduction des profils expérimentaux n’est plus assurée. Comme on le verra dans les

résultats, à la Figure V.2, cette valeur est identifiée en N*=227. L’ensemble de paramètres

correspondant à cette solution est noté .

LSˆ( )S x

Optˆ(S x

M̂

)

)

)

Optˆ(S x

NA

La procédure B est similaire à la procédure A mais possède une composante aléatoire :

le choix du paramètre à éliminer n’est plus systématique mais résulte d’une sélection aléatoire

parmi les paramètres qui, une fois éliminés, mènent à une valeur de qui n’excède pas

110% de la valeur minimum de l’itération. Cette procédure est exécutée 50 fois, avec le même

critère d’arrêt que pour la procédure A, i.e. N=227, et on note (i=1,…,50) le ième

ensemble réduit de paramètres obtenu de cette façon.

LSˆ(S x

B, iˆNM

Les 2 procédures sont également exécutées avec un second critère d’arrêt, défini par

une condition sur les profils d’expression modélisés. Pour chaque classe de gènes c, on définit

un intervalle de confiance, dont la largeur vaut le double de l’écart-type des données, autour du profil moyen : ( ) 2 ( )c k c kx . La réduction paramétrique est alors poursuivie jusqu’à ce

qu’un profil d’expression modélisé Optˆ ( )kx (k=1,...,l) sorte de cet intervalle. On note 2ˆ

AM

l’ensemble de paramètres correspondant. Ensuite, la procédure B est exécutée 50 fois avec ce

même critère d’arrêt et on note B,2

ˆ iM (i=1,…,50) les ensembles de paramètres obtenus.

Enfin, la qualité des 102 matrices réduites ainsi obtenues est évaluée en termes des

valeurs de N et . Une sélection est alors effectuée pour conserver uniquement les

meilleures solutions : celles présentant un nombre de paramètres éliminés supérieur à une

valeur seuil, déterminée après examen des résultats, et une valeur de des profils

d’expression inférieure à une valeur seuil, également déterminée après examen des résultats.

Ces solutions optimales, notées

M̂Optˆ(S x )

)Optˆ(S x

ˆ M sont alors comparées entre elles et analysées en détail.

2.1.6. Etude de robustesse

Outre la bonne reproduction des profils expérimentaux, on souhaite également évaluer

à quel point le modèle développé est robuste aux perturbations de ses paramètres. En effet, un

modèle de réseau de régulation génique dans lequel une légère perturbation d’une de ses

connections, i.e. d’interactions entre gènes et produits de gènes, mènerait à des profils

d’expression estimés totalement différents, voire présentant des comportements divergents,

n’est pas plausible biologiquement (Perumal et al. 2008). De la même manière, une petite

variation de niveaux d’expression de gènes, attribuable notamment à la nature stochastique

68


des phénomènes moléculaires impliqués dans le processus de régulation, ne devrait pas

affecter les profils estimés de manière drastique. Certes, on sait que les modèles linéaires sont

susceptibles de présenter des comportements divergents après une telle perturbation, mais la

question est ici de savoir si ceux-ci surviennent suite à des perturbations biologiquement

plausibles et dans un intervalle de temps raisonnable, i.e. pendant la période de vie de

l’organisme étudié. Pour cela, les paramètres estimés de la matrice M et les conditions

initiales estimées sont perturbées, individuellement et collectivement, et les profils perturbés

sont comparés aux profils estimés initiaux. Cette analyse est également réalisée pendant la

procédure A de réduction paramétrique décrite ci-avant, pour chaque valeur prise par N, de

manière à évaluer l’effet de la connectivité du réseau sur sa robustesse aux perturbations

paramétriques.

a) Robustesse aux perturbations des paramètres de régulation

La robustesse des réseaux de régulation avant et après réduction paramétrique, définis

par les matrices , est évaluée suite à des perturbations individuelles (P1) et collectives

(PAll) de faible amplitude (1-10%).

OptˆNM

Dans le premier cas, les éléments de OptˆNM

1ˆ P pNx

sont modifiés un à la fois en leur ajoutant

ou soustrayant un pourcentage de leur valeur absolue. Ces perturbations sont fixées à P1=±1%

et ensuite à P1=±5%. Les profils d’expression estimés avec des paramètres perturbés

sont alors générés. Ensuite, pour chaque perturbation P1 = p d’un paramètre Mcd, on identifie la perturbation P* pour laquelle l’écart maximum entre les profils perturbé

( )t

1ˆ ( )P pkN x et initial

Optˆ ( )kx est observé. On calcule alors la fonction de coût 1ˆ( )P pNS x

ˆ[ (

qui leur est associée.

Finalement, les valeurs minimum ( ) et maximum (1ˆ[ ( NMin S x )]P p 1 )]P pNMax S x ) de ces fonctions,

obtenues en comparant les perturbations de chaque élément de Mcd sont examinées pour

interprétation.

Dans le second type de perturbation, tous les paramètres Mcd du réseau sont perturbés

en même temps. Pour cela, on ajoute à chaque paramètre Mcd un pourcentage aléatoire (et

différent pour chaque paramètre) de sa valeur. Ces pourcentages, de distribution normale de

moyenne nulle, sont compris dans l’intervalle [-p, +p], avec p=1% puis p=10%. Les profils d’expression perturbés et les fonctions ˆ ( )AllP p

N tx ˆ( All )P pNS x relatives à ces profils sont ensuite

calculés. Cette procédure est répétée 50 fois pour différentes perturbations aléatoires et la

moyenne et l’écart-type de ˆ( All )P pNS x sont retenues. Etant donné que le scores sont

toujours positifs et ne suivent par conséquent pas une distribution normale, on définit un

écart-type à gauche σL et un écart-type à droite σR, défini en ne considérant, respectivement,

que les score inférieurs (σL) ou supérieurs (σR) à la moyenne de

ˆ( )S x

ˆ( )AllP pNS x .

69


b) Robustesse aux perturbations des conditions initiales

Enfin, un autre type de perturbation envisagé est la modification des conditions

initiales Opt1ˆ ( )N x , plutôt que les paramètres de . Dans ce dernier cas, on évalue l’effet de

perturbations individuelles et collectives, notées Pin1 et PinAll , définies exactement de la même

manière que P1 et PAll.

OptˆNM

2.1.7. Etude de stabilité

Enfin, on extrapole les profils estimés au-delà de la période de temps de mesure de

manière à constater si des comportements divergents apparaissent. Dans les données

d’Arbeitman et al. 2002, le denier point de mesure correspond au 40e jour de la vie des

drosophiles, i.e. τl = 40 jours. La période d’extrapolation ]τl,τlife] après la période de mesure

[τ1,τl] est choisie de manière à couvrir la durée de vie τlife de l’organisme. Il est à noter que les

drosophiles de laboratoire ont une durée de vie moyenne dépendant, notamment, de la

température de l’environnement dans lequel elles se développent (Lamb 1968). Plusieurs

études (Bonilla et al. 2002 ; Troen et al. 2010) ont permis de mesurer une durée de vie

moyenne de l’ordre de 60-65 jours et une durée de vie maximum de l’ordre 80-85 jours, sous

les mêmes conditions d’environnement mais en soumettant les drosophiles à un régime

particulier. En supposant que le système de régulation de l’expression des gènes a fonctionné

pendant la durée de vie de l’organisme, on décide de fixer τlife à 80 jours et d’évaluer l’état

des variables du modèle développé en extrapolant la période de temps jusqu’à cette limite

maximum.

2.2. Résultats et discussion


L’estimation linéaire des paramètres du modèle (V.3) mène, pour la fonction de coût

choisie, à une valeur de . Cette faible valeur témoigne de la qualité de cette

première estimation. Après optimisation non linéaire des paramètres cette valeur décroît à

=0,16. Les profils expérimentaux

LSˆ( ) 0.2S x 7

)Optˆ(S x ( )kx et modélisés LSˆ ( )kx et Optˆ ( )kx sont

représentés à la Figure V.1 pour la classe de gènes 3. Les profils des autres classes de gènes se

trouvent en annexe A.12. Signalons que pour des raisons de clarté, ces profils sont représentés

en fonction des instants de mesure τk plutôt que du temps t réel continu.

On constate que les profils LSˆ ( )kx obtenus par l’indentification paramétrique linéaire

reproduisent parfaitement les profils expérimentaux dans la première partie de la série, proche

des conditions initiales. Toutefois, la déviation entre ces profils estimés et les données

augmente légèrement avec le temps. Elle reste cependant très petite pour la plupart des classes

de gènes. Pour rappel, cette déviation est attribuée à l’estimation des dérivées temporelles de

x qui s’avère moins bonne dans une région de la série temporelle ou les données sont éparses.

70


En effet, les délais entre les points de mesure sont de plusieurs jours dans le stage adulte, alors

qu’ils ne sont que de 30 minutes dans le stage embryonnaire. Par ailleurs, les profils

d’expression sont quasiment constants dans le stade adulte. Les dérivées temporelles de ces

profils sont donc nettement plus petites que dans les autres stades. Enfin, ces profils étant

obtenus par intégration des équations différentielles (V.3) à partir du premier point de mesure,

il est normal que la déviation entre le profil estimé et les mesures augmente avec la période

d’intégration. On observe finalement sur cette même figure que les profils Optˆ ( )kx

)

reproduisent les profils expérimentaux encore mieux que ne le font les profils LSˆ ( kx .

Figure V.1 : Profils d’expression expérimentaux et modélisés de la drosophile en fonction des points de mesure τk. Points: Points expérimentaux filtrés ( )c kx ; ligne

pleine: version continue et lissée de ( )c kx utilisée pour l’estimation des dérivées

temporelles; ligne en traits-points: profil LSˆ ( )c kx modélisé par l’estimation

paramétrique linéaire; ligne en pointillés : profil Optˆ (cx )k modélisé par l’estimation

paramétrique linéaire. Les lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).

Finalement, on calcule la variation relative ΔM des paramètres avant et après

l’optimisation non linéaire : Opt LS

LS

ˆ ˆ

ˆij ij

ijij

M M

M

M (V.6)

Ces variations vont de 0 à 7,5%, avec une moyenne de 0,3% Ces valeurs témoignent

de la haute sensibilité du modèle, où des variations faibles mais spécifiques des paramètres

induisent une amélioration de la reproduction des données expérimentales.

71


2.2.2. Réduction paramétrique

La Figure V.2 représente l’évolution de et au cours de la procédure A

de réduction paramétrique. On constate que la valeur de reste relativement constante

ou augmente légèrement jusqu’à ce que N atteigne 227. A ce stade de réduction, =

0,44 et il reste 62 paramètres, ce qui correspond à une moyenne de 3,65 connexions par

classe. Toute réduction paramétrique supplémentaire induit un saut de . La réduction

jusqu'à ce point, N=N*=227 est choisie comme premier critère d’arrêt pour les 50 exécutions

de la procédure B.

LSˆ(S x ) )

)

)

Optˆ(S xOptˆ( )S x

Optˆ(S x

Optˆ(S x

Figure V.2 : Evolution de (ligne discontinue) et (ligne continue) en LSˆ(S x ) )Optˆ(S x

fonction de N, le nombre de paramètres éliminés, en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération.

Les 2 procédures sont ensuite exécutées avec le second critère d’arrêt, défini par une

condition sur les profils d’expression modélisés. Avec la procédure A, ce critère d’arrêt est

atteint lorsque N=212 et = 0,38. Une sélection est alors effectuée parmi les 102

matrices ainsi identifiées pour conserver uniquement les meilleures solutions : celles

présentant un nombre suffisant de paramètres éliminés et une modélisation satisfaisante des

profils d’expression, i.e. N ≥ 227 et ≤ 0.44, ce qui correspond aux valeurs de N et

pour . 35 matrices au total sont ainsi sélectionnées. Leurs valeurs de N et

sont représentées à la Figure V.3. On constate tout d’abord une certaine diversité dans les

solutions en ce sens que pour un nombre donné de paramètres N, la valeur de la fonction de

coût peut varier de manière significative et que, inversement, pour une valeur donnée de la

fonction de coût, différents niveaux de réductions peuvent être atteints. Ensuite, on constate

que les meilleures solutions sont obtenues avec la procédure B. En effet, les solutions

optimales au sens de l’estimation des moindres carrés ne correspondent pas forcément aux

solutions optimales au sens de l’optimisation non linéaire. Par exemple, avec N=227

paramètres éliminés avec le critère d’arrêt 1, une des exécutions de la procédure B atteint une

valeur de = 0,33, ce qui inférieur à la valeur de 0,44 obtenue avec la procédure A.

Cette solution est entourée par une ligne discontinue sur la Figure V.3.

Optˆ(S x )

)

)

)

Optˆ(S xOptˆ(S x ˆ

NAM

Optˆ(x

Optˆ( )S x

S

72


Figure V.3. Evolution du score en fonction du nombre N de paramètres Optˆ(S x )

éliminés, pour les 35 matrices réduites ˆ M . Les matrices ˆ M sont issues des deux procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ

NAM ; points: ,ˆ B i

NM ; croix : ,2

ˆ B iM . Les deux grands cercles

discontinus indiquent deux solutions décrites dans le texte.

Par ailleurs, le plus haut niveau de réduction est atteint pour N=247, ce qui correspond à une

moyenne de 2,47 connexions par classe de gènes. Cette solution est obtenue par la procédure

B et le critère d’arrêt 2 et présente une valeur de = 0,43. Cette solution est également

entourée par une ligne discontinue sur la Figure V.3. Les profils d’expression modélisés

correspondant à ces 2 solutions sont représentés à la Figure V.4 pour la classe de gènes 3 et en

annexe A.13 pour les autres classes.

Optˆ(S x )

Figure V.4 : Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Lignes continues : profil filtré et lissé ( )c kx et intervalle de confiance ( ) 2 ( )c k c kx ; ligne fine en

traits-points : profil modélisé Optˆ ( )c kx ; ligne épaisse en traits-points : profil modélisé Optˆ ( )c kx après réduction paramétrique avec N = 247 et = 0.43; ligne discontinue Optˆ( )S x

: profil modélisé xOpt( )c kˆ après réduction paramétrique avec N =227 et =0.33. Les Opt( ˆS x )

lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).

73


On observe que, bien que le soit plus grand qu’avant la réduction

paramétrique, les profils d’expression modélisés après réduction paramétrique reproduisent

relativement bien les tendances globales des profils expérimentaux. On peut donc en conclure

que 2 à 4 connexions par classe de gène, en moyenne, suffisent à représenter le réseau de

régulation de l’expression des gènes de la drosophile.

Optˆ(S x )

)

)

Enfin, notons que la sensibilité de la matrice M décroît avec le processus de réduction

paramétrique. En particulier la variation relative des paramètres lors de l’optimisation non

linéaire s’étend de 0 à 306%, avec une moyenne de 17%, pour la solution caractérisée par

N=227 et =0.33, et de 0 à 145%, avec une moyenne de 12%, pour la solution

caractérisée par N=247 and =0.43. Pour rappel, ces variations s’étendaient 0 à 7,5%,

avec une valeur moyenne de 0,3%, pour la solution non réduite.

Optˆ(S xOptˆ(S x

2.2.3. Interprétation des solutions obtenues

Finalement, on compare les 35 matrices réduites sélectionnées, notées ˆ M , pour en

souligner les similarités. On définit pour cela la matrice nxn C telle que :

35

1

ˆsgn( )cd cdC

M (V.7)

où c et d sont des indices matriciels. La matrice C contient un résumé des similarités entre les

matrices ˆ M : plus souvent un élément Ccd présente une valeur absolue élevée (avec un

maximum de 35), plus la connexion entre les classes c et d est conservée après réduction

paramétrique, et plus l’élément correspondant Ccd a une haute valeur absolue. Par ailleurs, le

signe des éléments Ccd traduit l’effet principal des interactions entre les classes c et d. Ainsi, si

un élément Ccd a une valeur positive (négative), plus les gènes de la classe d ont un effet

activateur (répresseur) sur la transcription des gènes de la classe c. La matrice C est

représentée à la Figure V.5a.

Enfin, pour analyser si certains des paramètres sont éliminés ou maintenus dans la

plupart des schémas de réductions, on se focalise sur les éléments qui ont systématiquement le

même signe dans au moins 80% des matrices ˆ M (i.e. aux éléments Ccd ≤-28 ou Ccd ≥28). On

observe que 15 éléments sont conservés dans la matrice résultant de cette opération, notée

Ccutoff. Ceux-ci correspondent à des connexions nécessaires entre classes de gènes, dont l’effet

activateur ou répresseur est net. Le réseau de régulation correspondant à la matrice Ccutoff est

représenté à la Figure V.5b, et, sous la forme d’un graphe dirigé, à la Figure V.6. Pour rappel,

les fonctions et processus assignés à chaque classe ont été obtenus par Ma et al. (2006) à

l’aide de leur programme GeneMerge qui évalue pour chaque classe si une surreprésentation

est observée dans les ontologies des gènes présents dans la classe.

74


a b

Figure V.5 Représentations de la matrice C. (a) : Les carrés les plus rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 35 matrices ˆ M .; (b) : La matrice Ccutoff contenant les éléments de Ccd -28 ou ≥ 28; les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 35 matrices ˆ M . les carrés verts signalent que la connexion correspondante est conservée dans plus de 20% des cas que son signe est mal défini, i.e. |Ccd| < 28.

On constate que 3 classes de gènes (3, 7 et 14) présentent un élément non nul sur la

diagonale de la matrice Ccutoff et que ces 3 éléments sont négatifs. Rappelons que les profils

d’expression que l’on cherche à modéliser ici sont exprimés en termes de niveaux

d’expression, c’est-à-dire en logarithmes du rapport de la concentration en ARNm sur une

valeur de référence. Ainsi, l’effet d’auto-répression observé dans ces 3 classes de gènes

traduit, dans l’espace des logarithmes, un effet d’autorégulation qui s’efforcera d’amener les

niveaux d’expression à une valeur constante. Les fonctions associées à ces classes de gènes,

qui correspondent aux ontologies les plus souvent partagées par les protéines à l’intérieur de

ces classes, sont respectivement la dérivation de l’énergie, le développement et la

communication cellulaire, et la perception visuelle (voir chapitre IV section 3.1).

On observe également que 199 paramètres sur les 17²=289 sont éliminés dans plus de

80% des réductions paramétriques, ce qui correspond à 69% du nombre total de paramètres.

En y ajoutant les 15 connexions de la matrice Ccutoff, 214 connexions sont bien définies ; elles

représentent soit une répression, soit une activation, soit une absence de connexion. Seules 75

connexions demeurent mal définies, soit parce que le bruit expérimental est trop important,

soit parce que certaines classes de gènes ont mal été définies, soit encore parce que la

différentiation spatiale entre les cellules ne peut être négligée pour certains gènes.

En outre, on constate que la moitié des éléments non nuls de Ccutoff correspondent à

des connexions avec la classe 3 qui contient une majorité de gènes impliqués dans des

processus cellulaires énergétiques. Il n’est en effet pas étonnant que la classe de gènes avec

cette fonction centrale soit connectée à beaucoup d’autres. La classe 13, dont les principales

fonctions sont la transmission synaptique et le développement du mésoderme, est également

bien connectée au réseau de régulation.

75


Figure V.6 : Réseau de régulation génique de la drosophile, avec les connexions qui sont conservées dans au moins 80% des réductions paramétriques. La valeur moyenne des éléments de M et leur écart-type sont indiqués pour chaque connexion. Les fonctions les plus représentées dans chaque classe (“cluster”) sont également indiquées ; si aucune fonction n’est indiquée, la classe ne contient pas de fonction suffisamment représentée.

Notons finalement qu’une connexion entre deux classes de gènes n’implique pas que

tous les gènes d’une classe interagissent avec tous les gènes de l’autre classe. Il est probable

que certains gènes d’une classe, comme par exemple un gène codant pour un facteur de

transcription et les protéines qui interagissent avec lui, interagissent avec les gènes que le

facteur de transcription régule, présents dans une autre classe.

Par ailleurs, une classe de gènes peut contenir plusieurs groupes distincts de gènes co-

régulés, indépendants les uns des autres mais présentant globalement les mêmes dépendances

temporelles. Toutefois, cette information ne peut être déduite des données issues de puces à

ADN utilisées sans l’apport d’autres connaissances issues d’autres types d’expériences. En

résumé, la Figure V.6 peut être vue comme un réseau de régulation à un niveau global,

complémentaire aux graphes habituels reliant les gènes qui interagissent entre eux pendant le

processus de régulation génique (Margolin et al. 2006). Dans ce réseau, les gènes co-régulés

sont généralement regroupés dans les mêmes classes et les liens entre classes correspondent

aux interactions dynamiques entre certains gènes de différentes classes.

76


2.2.4. Etude de robustesse

Les solutions réduites obtenues par la procédure A ont été ensuite soumises aux

perturbations paramétriques décrites à la section 2.1.6.

a) Robustesse aux perturbations des paramètres de régulation

Perturbations individuelles

L’évolution des scores avant et après perturbation individuelle des paramètres de M, i.e. et avec p = ±1% et p = ±5% est représentée à la Figure V.7 en fonction du

nombre N de paramètres éliminés. On y observe, pour chaque valeur de N, les valeurs minimale (

OptNˆ(S x ) )1P =p

Nˆ(S x

1ˆ[ ( )]P pNn S xMi ) et maximale ( 1ˆ[ ( )]P p

NMax S x ) des scores obtenus en perturbant chaque

paramètre individuellement (voir section 2.1.6). Par soucis de lisibilité, l’évolution de ces

scores est représentée en échelle logarithmique.

a b

Figure V.7: Log10 des scores S avant et après les perturbations individuelles en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt

Nˆ(S x )

perturbation ; ligne verte discontinue et ligne rouge continue : log10 des scores 1P =p

Nˆ[ ( )]Min S x et , respectivement. (a) P1=±1% ; (b) P1 =± 5%. in1P =pˆ[ ( )]NMax S x

Dans cette figure, la courbe discontinue verte est confondue avec la courbe bleue en

pointillés. Cela signifie que, quel que soit le nombre de paramètres dans le réseau de

régulation, il y a toujours au moins un paramètre dont la perturbation ne modifie pas le score

moyen. En revanche, on remarque que, pour N<215 (c’est-à-dire jusqu’à ce que 74% des

paramètres soient fixés à zéro), le modèle est toujours extrêmement sensible à la perturbation

d’au moins un paramètre. Le modèle reste sensible jusqu’à N=241 (lorsque 83% des

paramètres sont éliminés) pour les perturbations à ±5%.

En conséquence, on constate que le modèle linéaire est toujours robuste aux

perturbations de certains paramètres mais ne devient réellement robuste à toutes les

perturbations paramétriques individuelles que lorsque le réseau est réduit à environs 3

77


connexions par classe de gène en moyenne. Toutefois, à ce niveau, la reproduction des

données devient insuffisante.

Perturbations collectives

Le comportement du score en fonction de N lorsque tous les paramètres sont

perturbés en même temps est représenté à la Figure V.8 pour p=1% or p=10%. On y retrouve l’évolution de la valeur moyenne < > des scores obtenus pour 50 perturbations

aléatoires ainsi que l’intervalle de confiance [< >-σL, >+σR], définis à la

section 2.2.6.

Optˆ(S x

ˆ NS x

)

)

) )

( AllP p

ˆ( AllP pNS x ˆ( AllP p

NS x

a b Figure V.8 : Log10 des scores S avant et après les perturbations collectives en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt

Nˆ(S x )

perturbation ; ligne noire discontinue : log10 du score moyen pour les 50 perturbations aléatoires ; ligne verte en étoiles et ligne rouge continue : log10 des scores

1Lˆ( )P p

NS x et 1Rˆ( )P p

NS x , respectivement. (a) PAll=1%; (b) PAll=10% .

La première observation faite dans la partie gauche de la Figure V.8b est que, lorsque le

modèle contiens plus de 74 paramètres (N<215), les scores après perturbation sont supérieurs

à celui avant perturbation de plusieurs ordres de grandeur. En effet, ces scores sont en

moyenne de 1060 et 0.5, respectivement. Cela implique que, dans cette région de N, le modèle

linéaire étudié est extrêmement instable face à de petites perturbations collectives de ses

paramètres. Néanmoins, lorsque le nombre de paramètres décroît en-deçà de 48 (N=241), les

scores moyens avant et après perturbation deviennent plus proches. Notons que cette valeur

seuil est nettement plus loin dans la réduction que la valeur de réduction optimale N=227, au-

delà de laquelle les profils d’expression estimés sont considérés comme insatisfaisants pour

reproduire les profils expérimentaux.

78


Robustesse d’une solution réduite particulière

La robustesse de la solution réduite optimale, pour N=227, est ensuite évaluée. Dans

ce cas, il reste 62 paramètres dans le modèle, la connectivité moyenne est donc de 3 à 4

connexions par classe de gènes. Des profils d’expression estimés typiques de cette solution,

obtenus en perturbant les paramètres de M collectivement et individuellement, sont

représentés à la Figure V.9 et comparés aux données et aux profils estimés non perturbés . Optˆ ( )N tx

a b Figure V.9: Profils d’expression expérimental et estimés pour la classe 11, après la réduction optimale et avant et après perturbations individuelles et collectives des paramètres du modèle. Points bleus : profils expérimentaux ( )kx ; ligne bleue

continue : profils estimés avant perturbation Optˆ ( )kN x ; ligne verte en étoiles et ligne

rouge discontinue : deux profils 1ˆ ( )P pkN x de réseaux réduits correspondent à la

perturbation individuelle P1 menant aux scores Mi et , 1P =pNˆ[ (n S x )] 1P =pˆ[ ( )]NMax S x

respectivement; ligne noire en pointillés: profil estimé d’un ensemble ˆ AllP pN

x ( )t

particulier de perturbations collectives aléatoires PAll. (a) P1=±1% et PAll=1%. Notons que les lignes bleue continue, verte en étoiles, noire en pointillés et rouge discontinue coïncident. (b) P1=±5% et PAll=10%.

On remarque, à la Figure V.9a, que les profils d’expression estimés après réduction

paramétrique jusque N=227 sont clairement insensibles aux faibles perturbations, tant

collectives qu’individuelles, i.e. P1=±1% et PAll=1%. Ce constat est similaire pour toutes les

perturbations aléatoires avec PAll=1% et pour toutes les classes de gènes. Cependant, on voit à

la Figure V.9b que lorsque les paramètres du réseau sont perturbés plus fortement, i.e. lorsque

P1=±5% et plus encore avec PAll=10%, on observe des changements radicaux des profils

estimés et l’apparition de comportements instables. Il est à noter que ceci ne se produit pas

pour toutes les perturbations aléatoires testées avec PAll=10% car, d’une part, certains

paramètres sont moins sensibles au bruit que d’autres et, d’autre part, dans la génération des

pourcentages aléatoires p, certaines valeurs de p sont en réalité très proches de zéro. Cette

figure montre donc que les profils d’expression obtenus après la réduction paramétrique

79


optimale sont robuste aux faibles perturbations paramétriques alors que les profils des réseaux

moins (ou non) réduits ne sont pas robustes du tout (Figure V.7 et Figure V.8).

b) Robustesse aux perturbations des conditions initiales

Perturbations individuelles

Le comportement du score avant et après perturbation des conditions initiales, avec

Pin1=1% or Pin1=5%, est représenté à la Figure V.10.

a b Figure V.10: Log10 des scores S avant et après les perturbations individuelles en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt

Nˆ(S x )

perturbation ; ligne verte discontinue et ligne rouge continue : log10 des scores 1P =p

Nˆ[ ( )]inMin S x et , respectivement. (a) Pin1 = ±1% ; (b) Pin1 =± 5%. in1P =pˆ[ ( )]NMax S x

Le modèle linéaire apparaît comme peu sensible aux perturbations de chacune de ses

conditions initiales. En outre, la robustesse du modèle face à ces perturbations semble

dépendre beaucoup moins de la connectivité du réseau de régulation que pour les paramètres

du réseau. Notons enfin que le pic aux environs de N=160 correspond probablement à une

mauvaise optimisation paramétrique avant perturbation qui devient évidemment encore moins

optimale après perturbation.

80


Perturbations collectives

La Figure V.11 montre le comportement des scores avant et après les perturbations

collectives PinAll=1% et PinAll=10% des conditions initiales.

a b Figure V.11 : Log10 des scores S avant et après les perturbations collectives en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt

Nˆ(S x )

perturbation ; ligne noire discontinue : log10 du score moyen pour les 50 perturbations aléatoires ; ligne verte en étoiles et ligne rouge continue : log10 des scores

1Lˆ( )P p

NS x et 1Rˆ( )P p

NS x , respectivement.(a) PinAll =1% ; (b) PinAll =10%.

On constate que, pour toutes les valeurs de N, les faibles perturbations aléatoires PinAll=1% ne

modifient pratiquement pas le score moyen. Le score moyen après perturbation reste

généralement en-deçà du score de la réduction optimale non perturbée à N=227. De plus, les

écarts-types sont toujours très petits et, quelle que soit la valeur de la perturbation, il semble

qu’après chaque perturbation, le score augmente d’environs la même valeur. Lorsque PinAll

=5%, les scores et leurs écarts-types augmentent un peu mais restent très proches du score de

la réduction optimale non perturbée N=227.

Robustesse d’une solution réduite particulière

Enfin, on se focalise sur la solution de la réduction optimale N = 227 et on observe, à

la Figure V.12, le comportement des profils d’expression estimés avant et après perturbation

des conditions initiales. On voit que même lorsque les perturbations sont plus grandes

(Pin1=±5% ou PinAll=10%), les profils expérimentaux sont toujours reproduits de manière

satisfaisante avec les conditions initiales perturbées. Il en est de même pour toutes les classes

de gènes. On en déduit qu’avec cet ensemble de paramètre, le modèle linéaire développé est

robuste aux perturbations de ses conditions initiales.

81


Figure V.12: Profils d’expression expérimental et estimés pour la classe 11, après la réduction optimale et avant et après perturbations individuelles et collectives des conditions initiales Pin1=±5% et PinAll=10%. Points bleus : profils expérimentaux

( )kx ; ligne bleue continue : profils estimés avant perturbation Optˆ ( )kN x ; ligne verte en

étoiles et ligne rouge discontinue : deux profils 1ˆ inP pN ( )k

x de réseaux réduits

correspondent à la perturbation individuelle P1 menant aux scores et 1P =pNˆ[ ( )]inn S xMi

1P =pˆ[ ( )]inNMax S x , respectivement; ligne noire en pointillés: profil estimé d’un ˆ ( )inAllP p

N tx

ensemble particulier de perturbations collectives aléatoires PinAll. Notons que les lignes bleue continue, verte en étoiles, noire en pointillés et rouge discontinue coïncident.

2.2.5. Etude de stabilité

Enfin, on extrapole les profils estimés après le dernier instant de la période de mesure,

en τl = 40 jours ; jusqu’à la mort présumée de l’organisme, fixée à τlife = 80 jours (voir section

2.1.7) de manière à évaluer l’état des variables du modèle développé en prolongeant la

période de temps jusqu’à cette limite maximum. Les profils extrapolés des solutions non

réduites sont représentés pour les paramètres issus de l’estimation linéaire (Figure V.13a) et

de l’optimisation non linéaire (Figure V.13b).

a b Figure V.13 : Profils estimés par le modèle linéaire avec les paramètres obtenus par estimation linéaire (a) et par optimisation non linéaire (b) jusqu’au temps τlife=80 jours de la mort de l’organisme, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure.

82


On observe (Figure V.13a) que les profils issus de l’estimation paramétrique linéaire

présentent rapidement une divergence du type exponentiel, menant les niveaux d’expression à

atteindre des valeurs invraisemblables. On remarque que cette tendance à diverger diminue

avec l’optimisation paramétrique non linéaire (Figure V.13b) mais qu’elle apparaît toujours

pendant la durée de vie de l’organisme.

Ensuite, comme lors de l’étude de robustesse, on évalue l’évolution de cette propriété

après certaines réductions paramétriques optimales. La Figure V.14 représente les quatre

types de comportements possibles, qui sont tous observés pour ces profils dans les 35

solutions ˆ M sélectionnées.

a b

c d Figure V.14 : Profils estimés par le modèle linéaire avec quatre des meilleurs ensembles ˆ M de paramètres obtenus après réduction jusqu’au temps τxp = 80

jours. (a) ; (b) B, ˆ iNM [1,50]i B, ˆ j

NM [1,50]j ; (c) ˆNAM ; (d) B,

2ˆ k

M [1,50]k , Sur

cette dernière figure, les profils sont estimés jusqu’à 200 jours, pour toutes les classes de gènes. La ligne grise verticale représente le temps τlife = 80 jours de la mort de l’organisme et, dans toutes les figures, la ligne noire verticale désigne la fin de la période de mesure.

Quatre types de comportement sont observés : (a) divergent de manière exponentielle, (b)

convergent vers zéro, (c) convergent vers une valeur non nulle pour certains profils mais

instable pour un profil, et enfin (d) oscillatoire instable. Les comportements divergents (pour

tous ou certains profils) ou oscillatoires instables sont ceux les plus observés dans les

83


solutions étudiées. Le comportement convergent vers zéro est quant à lui beaucoup plus rare.

Pour rappel, les profils d’expression correspondant ici à des taux d’expression relatifs en

échelle logarithmique, cette convergence vers zéro traduit en réalité une stabilisation moyenne

des concentrations en ARNm vers la valeur de référence (voir II.1). Par ailleurs, aucune

solution de ce modèle ne présente un comportement convergent vers une valeur non nulle

pour tous les profils estimés. Comme représenté à la Figure V.14c, il existe toujours un des

profils qui finit par croître ou décroître de manière monotone. Cette constatation se justifie par

la structure de modèle utilisée. En effet, sans terme indépendant dans l’équation (V.3), celle-ci

ne peut permettre à la fois une annulation une valeur non nulle des profils d’expression et une

annulation de leurs dérivées temporelle que si la matrice M n’est pas de rang plein, i.e. si son

déterminant est nul.

Notons en outre que, dans les cas (c) et (d), les profils d’expression conservent des

valeurs vraisemblables dans la première partie de la période et leur instabilité ou leur

divergence se déclare après la mort présumée de l’organisme. Dès lors l’évaluation de ces

solutions dépend de l’objectif poursuivi : si seules les valeurs prises par les profils importent,

alors ce type de solutions ne peut être exclu ; si l’on désire identifier des solutions

intrinsèquement stables, i.e. dont les valeurs propres sont à partie réelle strictement négative,

alors ces solutions sont inacceptables. Par la suite, sur la base de connaissances biologiques

supplémentaires, l’un ou l’autre comportement stable identifié pourra être choisi comme

critère de sélection des modèles.

Signalons enfin qu’à ce stade de la réduction paramétrique, les modèles sont encore

sensibles aux perturbations paramétriques et ces dernières induisent facilement un

changement de comportement des profils en extrapolation temporelle.

2.3. Autres approches linéaires envisagées

L’interprétation biologique du modèle développé présente des limitations. En effet, les

niveaux d’expression peuvent prendre des valeurs positives ou négatives selon que le gène en

question est respectivement plus ou moins exprimé dans l’échantillon étudié que dans

l’échantillon de référence. Dès lors, les signes des coefficients de la matrice M ne traduisent

en général pas de simples interactions d’activation ou de répression des gènes du réseau de

régulation qui induiraient respectivement une hausse ou une baisse des niveaux d’expression

car l’effet d’une interaction avec une classe de gène dépend du signe du niveaux d’expression

moyen de cette classe régulatrice et de la valeur du niveau d’expression de l’échantillon de

référence. Dès lors, trois nouvelles voies de modélisation sont proposées pour tenter de

simplifier l’interprétation des résultats de l’estimation paramétrique des coefficients de la

matrice M.

84


2.3.1. Modèle avec terme d’entrée

Premièrement, on ajoute un terme indépendant dans l’équation du modèle linéaire

initial, et ce, pour chaque profil temporel à modéliser. D’un point de vue biologique, l’ajout

de ce terme d’entrée est susceptible de modéliser les interactions des protéines encodées dans

les gènes du réseau de régulation avec de petits métabolites, tels que des ions, ce que le

modèle précédent ne pouvait traiter. Ce terme d’entrée est choisi comme étant un vecteur de

n=17 paramètres constants à estimer. En définissant le vecteur u = (u1,…,un)T, le modèle

initial (V.3) devient :

d ( )( )

d

tt

t

xM x u (V.8)

On constate que les courbes obtenues par intégration de ce modèle après estimation

paramétrique reproduisent les courbes expérimentales avec légèrement moins de précision

que les courbes initiales. En effet, l’écart-quadratique entre les courbes expérimentales et

estimées, après l’étape d’optimisation paramétrique, est de 0.19 alors qu’il était de 0.16 sans

le terme d’entrée. Cette baisse de qualité de reproduction des données est surprenante car le

modèle dispose ici de 17 degrés de libertés supplémentaires. On en déduit que la nouvelle

solution de l’estimation paramétrique linéaire pour ce modèle initialise la recherche

d’optimisation locale en un point de l’espace des paramètres qui, d’une part, ne permet pas de

trouver une solution meilleure que pour le modèle précédent et, d’autre part, rend l’accès à

cette solution particulière (uc=0, c=1,….,n) impossible. On attribue la cause de cette situation

à l’augmentation du nombre de paramètres qui multiplie les minima locaux de la fonction de

coût et fausse l’optimisation paramétrique. Pour preuve, le score obtenu lors de la première

étape de l’estimation paramétrique est ici de 0.21 au lieu de 0.27 sans le terme d’entrée. Dès

lors, il apparu comme logique d’initialiser l’optimisation paramétrique non plus à la solution

de l’étape de moindres carrés mais bien à la solution optimale pour le modèle sans terme

d’entrée et à zéro pour les éléments de u. Néanmoins, on constate que, dans ce cas, les

paramètres de u restent très proches de zéro, ce qui signifie que la recherche paramétrique

locale ne permet pas de s’éloigner de la solution optimale pour le modèle sans terme d’entrée.

Par ailleurs, en observant les valeurs estimées pour les paramètres du vecteur u

(constants pour chaque instant de la série temporelle), on constate que l’effet du terme

d’entrée est, dans la majorité des cas, de translater verticalement les courbes expérimentales

(positivement ou négativement) de manière telle que leur effet régulateur sur les autres classes

de gènes soit toujours du même signe.

L’évolution de avec la procédure A de réduction paramétrique est représentée

à la Figure V.15. Notons que lors de la réduction paramétrique, on choisit ici de n’éliminer

que les éléments de la matrice M et ce, pour faciliter la comparaison des modèles développés.

Les paramètres du vecteur u sont quant à eux toujours conservés. On constate que, tout

comme pour le modèle initial (courbe bleue), la valeur de reste relativement

Optˆ(S x )

)Optˆ(S x

85


constante ou augmente légèrement une valeur critique de N ici de 215. A ce stade de

réduction, = 0,31. L’écart de 0.44 est, quant à lui, atteint lorsque N=217 et il est de

0.5 lorsque N=227. La réduction paramétrique semble donc a priori presque aussi efficace

avec ce modèle.

Optˆ(S x )

Figure V.15 : Evolution de en fonction de N, le nombre de paramètres éliminés, Optˆ(S x )

en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue : modèle avec terme d’entrée

Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée parmi

les 102 matrices ainsi identifiées pour conserver uniquement les meilleures solutions selon les

mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). 63 matrices sont ainsi

sélectionnées. Leurs valeurs de N et sont représentées à la Figure V.16a.

Optˆ(S x )

)Optˆ(S x

a b Figure V.16 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S x )

nombre N de paramètres éliminés, pour les 45 matrices réduites, issues des deux M̂

procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ


NM ; croix : ,2


discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Points : Profil expérimental (cx )k . Ligne bleue : profil modélisé

non réduit Optˆ ( )c kx ; ligne verte : profil modélisé Opt ( )c kx̂ après réduction

paramétrique avec N=227 et = 0.23 ; ligne noire : profil modélisé Optˆ(S x ) Optˆ ( )c kx après

réduction paramétrique avec N=239 et = 0.32. Opt( )ˆS x

86


On observe deux solutions réduites optimales, entourées par une ligne discontinue sur

cette figure. L’une, notée solution 1, correspond à l’écart-quadratique minimum entre les

courbes modélisées et expérimentales après élimination de 227 paramètres, ici de 0.23 au lieu

de 0.33 avec le modèle initial. Le profil estimé par cette solution pour la classe 3 est

représenté à la Figure V.16b en vert. L’autre solution, notée solution 2, correspond au nombre

maximum de paramètres éliminés, selon les mêmes critères que précédemment. Il est de 239

avec un écart-quadratique entre les courbes modélisées et expérimentales de 0.32 au lieu de

247 avec un écart-quadratique entre les courbes modélisées et expérimentales de 0.43. Le

profil estimé par cette solution pour la classe 3 est représenté à la Figure V.16b en noir. Les

profils estimés par ces 2 solutions pour les autres classes se trouvent en annexe A.14.

On constate donc qu’après sélection des solutions, la réduction paramétrique s’avère

plus efficace que pour le modèle initial. Néanmoins, il convient de nuancer ces résultats par

l’augmentation du nombre initial de paramètres. En effet, le modèle avec terme d’entrée

contient 17 paramètres en plus que le modèle initial. Dès lors, pour un même nombre de

paramètres éliminés, on s’attend à ce que le présent modèle reproduisent les données au moins

aussi bien que le modèle initial. Néanmoins, le but poursuivi est ici de pourvoir comparer la

structure et la connectivité des réseaux de régulation obtenus par les différents modèles plutôt

que les valeurs des scores S. Ensuite, afin d’évaluer les similarités existant entre ces solutions,

la matrice CCutoff, telle que définie au point 2.2.3, est représenté à la Figure V.17.

Figure V.17 Représentation de la matrice Ccutoff. Les carrés rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 45 matrices ˆ M . Les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 45 matrices ˆ M . Les carrés verts signalent que la connexion correspondante est mal définie.

On dénombre ici 13 connexions conservées dans au moins 80% des 63 matrices

sélectionnées, dont 3 interactions d’auto-régulation, et 185 connexions éliminées dans au

moins 80% des matrices. Ainsi, 69% des 289 connexions possibles s’avèrent bien définies

pour ce modèle, ce qui équivaut aux performances du modèle initial. Si l’on compare ce

réseau commun avec celui obtenu pour le modèle initial, on constate que 2 connexions et 157

87


« non-connexions » sont communes aux 2 modèles. L’accord entre les modèles est donc de

55% des 289 connexions possibles.

Par ailleurs, l’étude de robustesse, décrite au point 2.1.6, montre, d’une part, que les

réseaux pleins sont toujours extrêmement sensibles aux perturbations paramétriques et,

d’autre part, que les deux solutions optimales sont ici plus sensibles aux perturbations que la

solution réduite optimale du modèle initial. En effet, les écarts-quadratiques moyens entre les

données et profils estimés, après ces deux réductions optimales et après les perturbations

individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés sont

respectivement de 95.65 et 1.66, alors que cet écart atteignait 1.19 pour le modèle initial. Les

profils estimés pour ces 2 solutions optimales, avant et après les perturbations individuelles

décrites sont représentés à la Figure V.18. Les classes choisies correspondent au plus grand

écart observé entre profils avant et après perturbation. On observe qu’une légère perturbation

paramétrique individuelle provoque l’apparition de comportements instables et divergents

dans les profils estimés. Ainsi, si certaines perturbations paramétriques modifient peu la

reproduction des données, il en est toujours au moins une qui rend la solution inacceptable.

a b Figure V.18: Profils d’expression expérimental et estimés, après les deux réductions optimales et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kx ; ligne bleue continue :

profils estimés avant perturbation Optˆ ( )kN x ; ligne rouge : profil 1ˆ ( )P pkN x correspondant

à la perturbation individuelle P1 menant au score Ma . (a) Solution 1 (classe 1P =pˆ )]Nx[ (x S

8) ; (b) Solution 2 (classe 4).

Enfin, l’étude de stabilité des profils estimés après extrapolation jusqu’à la mort de

l’organisme révèle deux des quatre types de comportement observés dans le modèle initial :

divergent de manière exponentielle et oscillatoire instable ainsi qu’un nouveau

comportement observé : convergent vers une constante non nulle (pour tous les profils). Les

profils extrapolés pour les 2 solutions optimales sont représentés, pour toutes les classes de

gènes, à la Figure V.19a (solution 1) et à la Figure V.19b (solution 2).

88


a b Figure V.19 : Profils estimés par le modèle avec translation des profils après les 2 réductions optimales jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. (a) solution 1 ; (b) solution 2. La ligne noire verticale désigne la fin de la période de mesure.

Notons enfin que dans ce modèle, on observe que les profils peuvent, pour certaines

solutions, atteindre un valeur constante et la conserver à l’infini, contrairement au modèle

initial, pour lequel les plateau observés tendaient toujours à diverger après un certain temps,

plus ou moins long. En ne se focalisant que sur la période de vie de l’organisme, il n’est

toutefois ni possible ni utile de distinguer les 2 phénomènes. Néanmoins, la forte sensibilité à

certaines perturbations paramétriques rend ces solutions aussi fragiles que pour le modèle

initial.

2.3.2. Translation verticale forcée des profils

Deuxièmement, on décide de forcer la translation des profils temporels d’expression

verticalement de manière à ce que ceux-ci conservent constamment un signe positif. Ainsi, en

observant les 17 profils d’expression de la drosophile, on détermine une valeur constante à

ajouter à chaque profil d’expression. Le modèle linéaire (V.3) s’écrit alors:

d '( )'( )

d

tt

t

xM x (V.9)

avec

,( ) min[ ( ) , ( ) 0] ( 1,..., )c c

c tt x t x t c x x n

On espère ainsi profiter de l’avantage que comporte des données positives sans pour autant

augmenter le nombre de paramètres du modèle, comme pour le modèle avec terme d’entrée.

On constate que les courbes obtenues par intégration de ce modèle sont capables de

reproduire les courbes expérimentales translatées très légèrement mieux que le modèle

précédent. En effet, l’écart-quadratique entre les courbes modélisées et expérimentales est de

0.15 alors qu’il était de 0.16 sans translation des données. L’évolution de cet écart avec la

procédure A de réduction paramétrique est représentée à la Figure V.20. On constate que, tout

89


comme pour le modèle initial (courbe bleue), la valeur de reste relativement


réduction, = 0,28. L’écart de 0.44 est, quant à lui, atteint lorsque N=209, soit avec 18

paramètres de plus que le modèle initial et il est de 0.56 lorsque N=227. La réduction

paramétrique semble donc a priori moins efficace avec ce modèle.

Optˆ(S x )

)Optˆ(S x

Figure V.20 : Evolution de en fonction de N, le nombre de paramètres éliminés, en Optˆ(S x )

utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue: modèle avec translation des profils

Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée parmi

les 102 matrices ainsi identifiées pour conserver uniquement les meilleures solutions selon les

mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). 45 matrices sont ainsi

sélectionnées. Leurs valeurs de N et sont représentées à la Figure V.21a.

Optˆ(S x )

)Optˆ(S x

a b Figure V.21 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S x )

nombre N de paramètres éliminés, pour les 45 matrices réduites, issues des 2 M̂

procédures de réduction et des 2 critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ


NM ; croix : ,2


discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, pour la classe 3, en fonction des points de mesure τk.. Points : profil expérimental ( )c kx . Ligne

bleue : profil modélisé non réduit Optˆ (cx )k ; ligne verte : profil modélisé Optˆ (cx )k après

réduction paramétrique avec N=227 et =0.30 ; ligne noire : profil modélisé Optˆ(S x )Optˆ ( )c kx après réduction paramétrique avec N=236 et =0.37. Optˆ(x )S

90


L’examen de la Figure V.21a révèle 2 solutions réduites optimales, entourées par une

ligne discontinue sur cette figure. L’une, notée solution 1, correspond à l’écart-quadratique

minimum entre les courbes modélisées et expérimentales après élimination de 227

paramètres, ici de 0.3 au lieu de 0.33 avec le modèle initial. Le profil estimé par cette solution

pour la classe 3 est représenté à la Figure V.21b en vert. L’autre solution, dite solution 2,

correspond au nombre maximum de paramètres éliminés, selon les mêmes critères que

précédemment. Il est de 236 avec un écart-quadratique entre les courbes modélisées et

expérimentales de 0.37 au lieu de 247 avec un écart-quadratique entre les courbes modélisées

et expérimentales de 0.43. Le profil estimé par cette solution pour la classe 3 est représenté à

la Figure V.21b en noir. Les profils estimés par ces 2 solutions optimales pour les autres

classes se trouvent en annexe A.15. On constate donc qu’après sélection des solutions, la

réduction paramétrique s’avère légèrement plus efficace que pour le modèle initial. Ensuite,

afin d’évaluer les similarités existant entre ces solutions, la matrice CCutoff, telle que définie au

point 2.2.3, est représentée à la Figure V.22.


On dénombre ici 11 connexions conservées dans au moins 80% des cas et 191 connexions

éliminées dans au moins 80% des cas, dont trois interactions d’auto-régulation. On retrouve

également ce résultat dans les 3 autres modèles linéaires étudiés à la fin du chapitre. Ainsi,

70% des 289 connexions possibles s’avèrent bien définies pour ce modèle, ce qui équivaut

aux performances du modèle initial. Si l’on compare ce réseau commun avec celui obtenu

pour le modèle initial, on constate que 6 connexions et 158 « non-connexions » sont

communes aux 2 modèles. L’accord entre les modèles est donc de 55 % des 289 connexions

possibles.

91




d’autre part, que les 2 solutions optimales sont ici un peu moins sensibles aux perturbations

que la solution réduite optimale du modèle initial. En effet, les écarts-quadratiques moyens

entre les données et profils estimés, après ces 2 réductions optimales et après les perturbations

individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés sont

respectivement de 0.79 et 0.91, alors que cet écart atteignait 1.19 pour le modèle initial. Les

profils estimés pour ces 2 solutions optimales, avant et après les perturbations individuelles

décrites sont représentés à la Figure V.23. Les classes choisies correspondent au plus grand

écart observé entre profils avant et après perturbation. On constate donc que la robustesse aux

perturbations paramétriques est un peu améliorée dans ce modèle mais qu’elle reste non

négligeable

a b Figure V.23: Profils d’expression expérimental et estimés, après les 2 réductions optimales et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kx ; ligne bleue continue : profils estimés avant perturbation

Optˆ ( )kNx ; ligne rouge : profil 1ˆ ( )P pkN x correspondant à la perturbation individuelle P1

menant au score Ma . (a) Solution 1 (classe 6) (b) Solution 2 (classe 15) 1P =pˆ )]Nx[ (x S


l’organisme révèle les même quatre types de comportement observés dans le modèle initial :

convergent vers une constante, convergent vers zéro, divergent de manière exponentielle et

oscillatoire instable. Les profils extrapolés pour les solutions optimales sont représentés, pour

toutes les classes de gènes, à la Figure V.24a (solution 1) et à la Figure V.24b (solution 2). Si

les profils de la solution 1 tendent lentement vers zéro, ouvrant ainsi la porte à une

interprétation biologique plausible, ceux de la solution 2 tendent à diverger avant la mort de

l’organisme. Par ailleurs, ces derniers profils prennent rapidement des valeurs négatives,

remettant ainsi en question l’utilité même de ce modèle. On pourrait dès lors, par la suite,

imposer une contrainte lors de la réduction paramétrique de manière à éliminer de telles

solutions.

92


a b

Figure V.24 : Profils estimés par le modèle avec translation des profils après les 2 réductions optimales jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure. (a) solution 1 ; (b) solution 2

2.3.3. Données exprimées en concentrations relatives en ARNm

Troisièmement, on propose de considérer les taux d’expression ( )cX plutôt que leur

forme logarithmique ( )cx . En effet, les données issues des puces à ADN sont généralement

exprimées sous la forme de logarithmes des concentrations relatives en ARNm ou, plus

précisément, sous forme de rapports d’intensités de fluorescence entre les échantillons étudiés

et un échantillon de référence. En définissant le vecteur , l’équation (V.3)

devient donc : 1 2( , ,...,X XX )T

nX

d ( )( )

d

tt

t

XM X (V.10)

Dans ce cas, la positivité des profils temporels à modéliser est imposée et

l’interprétation biologique des éléments de M devient plus aisée puisqu’ils correspondent

alors véritablement à de simples interactions d’activation ou de répression des gènes du réseau

de régulation. En effet, en considérant les définitions (I.2) et (IV.4) :

ref

[ARNm ]( )( )

[ARNm ]

g kg k

g

Y

et ( ) ( )c k g k g cX Y

(V.11)

et comme la concentration dans l’échantillon de référence est constante dans le

temps, le modèle peut être exprimé comme :

ref[ARNm ]g

d[ARNm ]( )

)d

c tt

t M[ARNm]( (V.12)

où est une concentration théorique moyenne en ARNm associée au profil

d’expression

[ARNm ]c

( )cX de la classe c et [ARNm le vecteur des n variables [A . ] RNm ]c

93


Dans notre problème, toutefois, deux approches peuvent être suivies. D’une part, les

profils d’expression Yg(τκ) en concentrations relatives en ARNm pour les 4005 gènes de la

drosophile peuvent être considérés pour une nouvelle classification. On utilise alors les profils

moyens des nouvelles classes de gènes comme données à modéliser. Malheureusement, la

méthode SSC, conçue pour classifier les profils de niveaux d’expression, s’est avérée

incapable de classifier les données Yg(τκ) d’exponentielles de ces profils (voir chapitre IV).

C’est pourquoi une nouvelle méthode de classification a été développée pour classifier les

profils Yg(τκ). La modélisation des nouveaux profils moyens formés sera, quant à elle,

développée au point 3 de ce chapitre.

D’autre part, on peut conserver les classes définies par SSC lors de la classification des profils yg(τκ) et considérer simplement les profils moyens d’expression ( )cX des 17 classes

de gènes en les calculant cette fois à partir des profils Yg(τκ). Devant l’impossibilité de

classifier les profils Yg(τκ) avec SSC, cette première option a d’abord été choisie. On constate,

dans ce cas, que les courbes obtenues par intégration de ce modèle après estimation

paramétrique reproduisent les courbes expérimentales avec une très bonne précision.

L’évolution de cet écart avec la procédure A de réduction paramétrique est représentée à la

Figure V.25. En définissant de la même manière que dans l’équation (V.3), On constate

que, tout comme pour le modèle initial (courbe bleue), la valeur de reste relativement


réduction, = 0,49. Les courbes des 2 modèles se confondent pratiquement jusqu’à

N=227, où = 0,44. La réduction paramétrique semble donc aussi efficace avec ce

modèle qu’ave le modèle initial pour N<227 et nettement plus efficace par la suite. Signalons

toutefois que seule la forme de ces courbes, et plus particulièrement l’endroit où le score

augmente de manière brutale, est à observer sur cette figure car les valeurs de scores

concernent des profils dans des échelles différentes et ne sont, par conséquent, pas

comparables.

X̂ x̂Opt( )ˆS X

Optˆ(S XOptˆ(S X

)

)

Figure V.25 : Evolution de en fonction de N, le nombre de paramètres Optˆ(S X )éliminés, en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue: modèle en considérant les données sous forme de concentrations relatives

94


Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée

parmi les 102 matrices ainsi identifiées pour conserver uniquement les meilleures

solutions selon les mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). Bien

que ces valeurs aient été définies dans une échelle logarithmique, elles sont également

choisies ici de manière à faciliter la comparaison des résultats avec les différents modèles. 42

matrices sont ainsi sélectionnées. Leurs valeurs de N et sont représentées à la Figure

V.26a.

Optˆ(S X )

)Optˆ(S X

a b Figure V.26 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S X )

nombre N de paramètres éliminés, pour les 45 matrices ˆ M réduites, issues des deux procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227

et ≤0.44. Petit cercle :Optˆ(S X ) ˆNAM ; points: ,ˆ B i

NM ; croix : ,2


discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Points : Profil expérimental (cX )k . Ligne bleue : profil modélisé

non réduit Optˆ ( )c kX ; ligne noire : profil modélisé Opt ( )c kX̂ après réduction

paramétrique avec N = 227 et = 0.33. Optˆ(S x )

L’examen de cette figure révèle une solution réduite optimale, entourée par une ligne

discontinue sur cette figure. Celle-ci correspond à l’écart-quadratique minimum entre les

courbes modélisées et expérimentales après élimination de 227 paramètres : 0.33. Le profil

estimé par cette solution pour la classe 3 est représenté à la Figure V.26b en noir. Les profils

estimés par cette solution réduite optimale pour les autres classes sont en annexe A.16. On

constate donc qu’après sélection des solutions, les scores obtenus et l’examen visuel des

profils estimés montrent que la réduction paramétrique s’avère aussi efficace que pour le

modèle initial. Ensuite, afin d’évaluer les similarités existant entre ces solutions, la matrice

CCutoff, telle que définie au point 2.2.3, est représentée à la Figure V.27. On dénombre ici 14

connexions conservées dans au moins 80% des 42 matrices sélectionnées et 189 connexions

éliminées dans au moins 80% des cas. Ainsi, 70% des 289 connexions possibles s’avèrent

bien définies pour ce modèle, ce qui équivaut aux performances du modèle initial. Si l’on

compare ce réseau commun avec celui obtenu pour le modèle initial, on constate que 4

connexions et 152 non-connexions sont communes aux 2 modèles. L’accord entre les modèles

est donc de 53 % des 289 connexions possibles.

95





d’autre part, que la solution réduite optimale est ici un peu moins sensibles aux perturbations

que la solution réduite optimale du modèle initial. En effet, l’écart-quadratique moyen entre

les données et profils estimés, après cette réduction optimale et après la perturbation

individuelle P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés est de

0.55. Le profil estimé pour cette solution, avant et après perturbation est représenté à la Figure

V.28, pour la classe de gènes correspondant au plus grand écart observé entre profils avant et

après perturbation.

Figure V.28: Profils d’expression expérimental et estimés, après la réduction optimale (classe 12) et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kX ; ligne bleue

continue: profils estimés avant perturbation Optˆ ( )kN X ; ligne rouge : profil 1ˆ ( )P pkN X

correspondant à la perturbation individuelle P1 menant au score . 1P =ˆ[ ( Nx S X p )]Ma

96



l’organisme révèle trois des quatre types de comportement observés dans le modèle initial :

convergent vers une constante, divergent de manière exponentielle et oscillatoire instable. Les

profils extrapolés pour la solution optimale sont représentés, pour toutes les classes de gènes,

à la Figure V.29.

Figure V.29 : Profils estimés par le modèle avec translation des profils après la réduction optimale jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure.

2.3.4. Comparaison des modèles linéaires

Le Tableau V.1 reprend les résultats obtenus avec les quatre modèles linéaires

développés ci-avant.

Modèle d ( )( )

d

tt

t

xM x

d ( )( )

d

tt

t

xM x u

d '( )'( )

d

tt

t

xM x

d ( )( )

d

tt

t

XM X

Equation (V.3) (V.8) (V.9) (V.10)

Nombre de paramètres 289 306 289 289 Optˆ(S x ) non réduit 0.16 0.19 0.15 0.17

N solution 1 227 227 227 227 Optˆ(S x ) solution 1 0.33 0.23 0.30 0.33

N solution 2 247 239 236 - Optˆ(S x ) solution 2 0.43 0.32 0.37 -

ˆ M / 102 35 63 45 42 Tableau V.1 Récapitulatif des résultats obtenus pour les quatre modèles linéaires.

On constate que les quatre modèles linéaires présentent des résultats similaires. La meilleure

reproduction des données après réduction paramétrique est atteinte par la solution 1 du

modèle (V.8) avec terme d’entrée et le plus grand nombre de paramètres éliminés est atteint

par la solution 2 du modèle (V.3) initial. Signalons enfin que les valeurs de scores du modèle

(V.10), définis en échelle non logarithmique, ne sont pas directement comparables avec ceux

des autres modèles.

97


2.4. Conclusions

Les résultats de la modélisation dynamique linéaire des profils d’expression des gènes

de la drosophile montrent qu’avec une structure de modèle simple, dans laquelle l’évolution

temporelle du niveau d’expression d’une classe de gènes est exprimée comme une

combinaison linéaire, à coefficients constants, des niveaux d’expression de toutes les classes

de gènes, les scores sont impressionnants : l’écart entre les profils d’expression

expérimentaux et modélisés est de 0,16 en moyenne. Ceci montre qu’un modèle linéaire ne

peut a priori pas être exclu pour modéliser le développement d’un organisme.

Par ailleurs, on cherche ici à établir des connexions entre des classes de gènes et non

entre des gènes individuels. Dès lors, les connexions en question englobent en fait un

ensemble de processus biologiques plus complexes que la simple action de régulation d’un

gène par un facteur de transcription et l’utilisation de modèles dits « physiques », i.e. dont la

formulation mathématique traduit explicitement un ou plusieurs phénomène(s) physique(s),

ne permettrait pas de meilleure interprétation des paramètres estimés. Il est donc logique de

commencer cette approche de modélisation par la formulation mathématique la plus simple,

i.e. un modèle linéaire.

On constate ensuite que la puissance de l’estimation paramétrique en 2 étapes est ici

remarquable. La première étape est analytique et rapide mais souffre d’erreurs dues à

l’estimation des dérivées temporelles. Les valeurs des paramètres obtenues lors de cette

première étape sont alors utilisées comme valeurs initiales d’une seconde estimation

paramétrique, non linéaire et donc nécessitant plus de temps de calcul, dans laquelle tous les

paramètres sont libérés et optimisés. L’amélioration acquise en passant de la première à la

seconde étape est visible dans la reproduction des profils (Figure V.1 et annexe A.12),

diminuant l’écart entre les profils expérimentaux et modélisés de 0,27 à 0,16. Remarquons

enfin que la seconde étape sans la première, et donc sans estimations initiales fiables, est

beaucoup moins efficace et plus propice à maintenir le système dans un minimum local de la

fonction de coût.

En outre, deux remarques doivent être faites au sujet de la structure de modèle choisie.

Premièrement, cette structure est linéaire en x, et donc linéaire en le logarithme de la

concentration relative X en ARNm par rapport à une référence. Ainsi, si l’on considère les

concentrations moyennes en ARNm pour chaque classe de gènes c, dans l’échantillon analysé

ARNmc

et dans l’échantillon de référence refARNm

c, et si l’on néglige l’étape de filtrage,

le modèle peut s’écrire :

2 ref

d ARNm ( ) ARNm ( )ln(2) ARNm ( ) log

d ARNm

c k d kc k cd

d d

Mt

(V.13)

98


Cela signifie donc que le modèle développé dans ce travail est bien non linéaire en les

concentrations en ARNm. Ainsi, un effet d’auto-répression de la classe c dans le réseau

signifie, dans l’espace des logarithmes des concentrations en ARNm, que la valeur de la

concentration en ARNm tendra à atteindre la valeur de référence refARNm

c.

Deuxièmement, si l’on suppose que les 17 courbes d’expression peuvent être décrites

analytiquement par une fonction du temps contenant 17 paramètres, on peut dans ce cas

définir les dérivées temporelles de x explicitement et M a alors une solution unique constante

et analytique. Ce raisonnement montre que la dynamique de tout vecteur x(t) de dimension n

qui peut être approché par n fonctions à n paramètres, peut être représentée par un système

dynamique autonome dx(t)/dt = M x(t). Donc, le fait que la dynamique du réseau de

régulation de l’expression des gènes des 17 classes de gènes puisse être représentée par un

modèle linéaire n’est pas surprenante. En revanche, le nombre de paramètres de M qui

peuvent être éliminés sans grande perte de précision, est moins évident. Nos résultats

soutiennent l’hypothèse de faible connectivité (en moyenne 3 connexions par classe de gènes)

du réseau de régulation de l’expression des gènes de la drosophile sur la base de séries

temporelles de données issues de puces à ADN et sans hypothèse a priori. Cette conclusion

corrobore de manière générale des résultats précédents de modélisation de réseaux de

régulation de l’expression des gènes (Holter et. al, 2001). Elle est également en accord avec

les résultats expérimentaux à propos de la faible connectivité des réseaux de régulation de

l’expression des gènes. Par exemple, Thieffry et. al (1998) ont analysé la régulation de

l’expression des gènes chez la bactérie E. coli et ont établi une connectivité moyenne du

réseau de régulation de 3, sur la base du nombre de facteurs de transcription par gène et

l’existence de connexions d’auto-régulation de l’expression des gènes. Bien que ces résultats

aient été obtenus chez un organisme procaryote, ils corroborent ceux obtenus dans ce travail

chez la drosophile.

Ensuite, les différents schémas de réduction paramétrique révèlent 15 connexions qui

sont presque toujours conservées avec le même signe et 199 connexions qui sont presque

toujours éliminées. Seules 75 connexions diffèrent selon les réductions. Ce nombre peut

sembler encore élevé mais ce résultat est malgré tout encourageant étant donné le bruit que

contiennent données, les approximations et les choix faits. En outre, bien que l’interprétation

biologique du réseau de régulation de l’expression des gènes obtenu soit encore prématurée,

ses connexions semblent biologiquement pertinentes. L’examen des matrices Ccutoff obtenues

avec les autres modèles linéaires étudiés montrent des résultats similaires.

Le modèle linéaire ne peut donc pas être exclu sur la base de ces résultats. Toutefois,

ce modèle est sérieusement remis en question par l’analyse de robustesse aux perturbations

paramétriques. En effet, cette analyse a montré que le modèle linéaire d’un réseau pleinement

connecté est extrêmement sensible à toutes les perturbations paramétriques, aussi petites

soient elles. Cette tendance reste vraie pour les réseaux réduits pour lesquels la connectivité

moyenne dépasse 3 à 4 connexions par classe de gènes. A ce stade, le modèle commence à

99


devenir robuste à certaines perturbations, mais pas à toutes. Il devient réellement robuste

lorsque le nombre moyen de connexions par classe est inférieur à 2.5. Malheureusement, à ce

stade le modèle n’est plus capable de reproduire les profils expérimentaux de manière

satisfaisante. Notons également que le modèle est nettement plus robuste aux perturbations

des conditions initiales qu’aux paramètres du réseau lui-même. On peut donc en conclure que

les modèles linéaires semblent gagner en robustesse lorsque le nombre de paramètres décroît,

mais qu’ils ne deviennent réellement robustes que lorsqu’ils perdent leur capacité à reproduire

les données correctement. Pour ces deux critères, la validité du modèle linéaire dépend donc

des niveaux d’exigence d’un point de vue biologique. En revanche, les profils d’expression

perturbés tendent parfois à présenter des comportements divergents suite à une perturbation,

ce qui ôte toute plausibilité biologique aux solutions obtenues. Notons toutefois que certaines

solutions particulières présentent un comportement convergent.

Enfin, en extrapolant les profils estimés par les solutions paramétriques pleines et

réduites optimales, on constate que les réseaux totalement connectés induisent

systématiquement l’apparition d’instabilités après un temps inférieur à la durée de vie

l’organisme et que les différentes réductions paramétriques peuvent, dans certains cas, soit

stabiliser le réseau vers un état stationnaire, soit mener à des solutions de type oscillatoire

pour lesquelles l’apparition d’instabilités est retardée. Toutefois, si un simple examen des

valeurs atteintes par les niveaux d’expression de ces solutions oscillatoires après extrapolation

jusqu’à la mort de l’organisme ne permet pas d’exclure directement ces solutions, on

comprend aisément que ces solutions instables ne peuvent être acceptables étant donné la

faible amplitude des perturbations réalisées.

Signalons également que dans le cas des solutions non divergentes pendant la durée de

vie de l’organisme, la tendance observée des profils d’expression de ces solutions à tendre

vers un constante, en échelle logarithmique, traduit une stabilisation des concentrations en

ARNm vers des valeurs de concentrations en ARNm des gènes correspondants dans les

échantillons de référence de l’expérience. Ainsi, on constate que pour ce type de solutions, le

modèle linéaire atteint un état stationnaire dans lequel les concentrations en ARNm

conservent une valeur constante. Cette tendance à la stabilisation des concentrations survenant

après le passage au stade adulte, on peut imaginer qu’elle correspond à la fin du

développement de l’organisme étudié.

Finalement, nous avons étendu notre analyse à 3 nouvelles structures de modèle: ajout

d’un terme d’entrée, translation forcée des profils d’expression et considération des taux

d’expression en échelle non logarithmique. Nous avons pu constater que ces trois modèles

présentaient des réductions paramétriques légèrement plus efficaces que le modèle initial et

qu’ils lui équivalaient globalement en termes de reproduction des profils expérimentaux.

Toutefois, comme dans le modèle initial, une généralement forte sensibilité paramétrique et

l’apparition de comportements divergents et instables ont également été observés dans

certaines solutions de ces modèles.

100


101

Pour conclure, on constate que si certaines solutions des modèles linéaires s’avèrent

tantôt « robustes » tantôt « stables », elles le sont généralement au détriment de la bonne

reproduction des données, et vice versa. Le modèle linéaire n’est donc jamais à la fois robuste

et stable par rapport à toutes les perturbations possibles. Dès lors, le développement de

modèles non linéaires apparaît comme une suite logique à cette étude pour concilier, d’une

part, une bonne qualité de reproduction des données et, d’autre part, les caractéristiques de

robustesse paramétrique et de stabilité inhérentes au système de régulation génique.


3. APPROCHE NON LINEAIRE

3.1. Introduction

Les modèles linéaires ont montré ci-avant leur capacité à reproduire avec une bonne

précision les profils temporels d’expression de gènes. Néanmoins, leur sensibilité

paramétrique généralement haute et leur tendance à un comportement divergent après

extrapolation dans le temps les rendent peu adaptés aux réseaux de régulation de l’expression

des gènes. En effet, on sait que les réseaux de régulation ont une grande robustesse

paramétrique en ce sens que la topologie du réseau est capable d’absorber les variations

paramétriques inhérentes à la nature stochastique des phénomènes moléculaires impliqués

dans le processus de régulation (Kitano 2004). En outre, le fait que les modèles linéaires

puissent présenter un comportement divergent peut poser problème lorsque celui-ci survient

pendant la durée de vie de l’organisme car on suppose généralement que le système de

régulation atteint un état stationnaire une fois l’organisme arrivé à l’âge adulte. Ces

considérations nous orientent donc vers des structures de modèles non linéaires pour

représenter les réseaux d’expression des gènes. Ainsi, les objectifs poursuivis dans le

développement de ces modèles non linéaires sont, outre la bonne reproduction des données

d’expression, une robustesse paramétrique significativement meilleure que celle des modèles

linéaires, l’absence de divergence et la possibilité d’existence de points attractifs vers lesquels

les profils d’expression pourraient se stabiliser pendant la durée de vie de l’organisme.

Plus particulièrement, nous nous intéressons à des modèles dont les paramètres

permettent une interprétation physique. Pour cela, nous choisissons, comme c’est souvent le

cas, d’étudier des modèles qui décrivent explicitement, d’une part, l’activation et la répression

de la transcription d’un gène et, d’autre part, la dégradation du produit de ce gène (Smolen et

al. 2000 ; De Jong 2002).

Par ailleurs, les données sont ici considérées sous la forme de concentrations relatives

(et non en échelle logarithmique) et ce, dans le but de se rapprocher d’une représentation des

interactions de régulation entre les gènes comme un système de réactions biochimiques. Ce

choix offre l’avantage d’imposer la positivité des variables et, par conséquence, de permettre

une interprétation physique des paramètres de régulation plus aisée qu’en considérant les

niveaux d’expression de gènes. En effet, les niveaux d’expression de gènes pouvant être

négatifs, le signe des paramètres de régulation qui multiplient un niveau d’expression ne

traduit pas toujours le même type d’influence (activation ou répression). En considérant les

concentrations relatives en ARNm, on simplifie l’interprétation de ces paramètres. Rappelons

(voir chapitre I) que ce choix implique de supposer que les concentrations en ARNm dans les

échantillons étudiés sont suffisamment faibles, par rapport au nombre de réplicas présent dans

les spots des puces à ADN, que pour pouvoir accepter l’hypothèse de linéarité de la relation

entre l’amplitude des signaux fluorescents obtenus par puces à ADN et les concentrations

correspondantes en ARNm dans l’échantillon étudié (voir équation I.6).

102


De plus, en nous basant sur les résultats obtenus lors de la détection automatique des

limites des stades de développement, nous proposons d’employer notre méthode de

modélisation en considérant les profils d’expression, d’une part, pendant la série temporelle

complète du développement de l’organisme, et d’autre part, à l’intérieur de chaque stade de

développement. En conséquence, les profils d’expression de gènes étudiés sont à chaque fois

classifiés selon la période du développement étudiée. Comme cela a déjà été expliqué

précédemment (voir section 2.3.3) la méthode de classification hiérarchique est alors préférée

à la méthode Smoothing Spline Clustering (Ma et al. 2006) en raison de sa simplicité, sa

rapidité et sa capacité à classifier les profils d’expression en concentrations relatives.

Ensuite, comme nous le verrons à la section suivante, la non-linéarité des modèles

nous prive d’une première estimation des paramètres obtenue par résolution analytique,

comme c’était le cas lors de la première étape de l’estimation paramétrique pour les modèles

linéaires (voir section 2.1.4). Dès lors, le développement d’une nouvelle approche est

nécessaire. Ainsi, par opposition à la démarche « top-down » poursuivie avec les modèles

linéaires, où un réseau plein, obtenu à partir d’une solution analytique, était réduit jusqu’à

obtenir un réseau simplifié plus proche de la réalité biologique, on choisit ici une approche en

deux temps : une première phase « bottom-up », pendant laquelle les réseaux génétiques sont

construits à partir d’une solution approchée (à partir des dérivées temporelles) ou nulle

(aucune connexion dans le réseau) et en libérant de nouvelles connections au fur et à mesure

des optimisations paramétriques, et une seconde phase « top-down », au cours de laquelle de

nouvelles méthodes de réduction paramétrique sont appliquées aux réseaux ainsi construits.

Cette méthode est décrite à la section 3.2.5. Les solutions sont analysées en termes de

reproduction des données, de robustesse aux perturbations paramétriques, de stabilité des

profils après extrapolation temporelle et de nombre de connexions, selon quatre critères

d’évaluation décrits à la section 3.2.6.

Enfin, nous proposons de valider les modèles développés de 2 manières.

Premièrement, on utilise les modèles développés pour reproduire les profils d’expression réels

d’un sous-ensemble de gènes impliqués dans un même processus biologique. Parmi les sous-

ensembles de gènes de la drosophile dont la régulation a été étudiée dans la littérature, tels

que les sous-réseaux de segmentation de l'organisme (Nüsslein-Volhard et Wieschaus 1980,

Von Dassow et al. 2002, Albert et Othmer 2003, Ingolia 2004, Schroeder et al. 2004, Levine

& Davidson 2005, Moussian & Roth 2005, Chaves et al. 2006, Perkins 2006, González et al.

2006, Goltsev al. 2007, Sánchez et al. 2007, Segal et al. 2008, Fomekong-Nanfack et al.

2009, Ashyraliyev et al. 2009, Reeves & Stathopoulos 2009), la phototransduction (Hardie

2001, Landry et al. 2007) ou le développement de l'aile de la drosophile (Guss et al. 2001,

Yan et al. 2004, Hersh et al. 2007), on choisit d'étudier le développement musculaire de la

drosophile (Giot et al. 2003, Arbeitman et al. 2002, Zhao et al. 2006, Guo et al. 2007, Le

Song et al. 2009). Les méthodes développées sont donc ici appliquées à 20 gènes impliqués

dans le développement musculaire, selon Arbeitman et al. 2002 et Zhao et al. 2006, et les

103


connexions des réseaux obtenus seront finalement confrontées aux connaissances

expérimentales des relations entre les gènes étudiés.

Deuxièmement, des profils d’expression synthétiques sont générés à partir de réseaux

aux connections et paramètres aléatoires et bruités (voir section 3.2.2). Ces profils sont alors

utilisés comme données pour reconstruire les réseaux de régulation. On confronte finalement

les paramètres ainsi estimés à leurs valeurs réelles connues.

3.2. Méthodes

3.2.1. Données réelles étudiées

Les profils d’expression des 4005 gènes de la drosophile (Arbeitman et al. 2002) sont

ici étudiés, d’une part, en considérant la série complète (l=67 points de mesure pendant 40

jours) et, d’autre part, dans chacun des stades de développement traversés par l’organisme : le

stade embryonnaire (l=31 points de mesure pendant 24 heures) ; le stade larvaire (l=10 points

de mesure pendant 81 heures) et le stade de pupe ou métamorphose (l=18 points de mesure

pendant 111 heures). Toutefois, comme les résultats obtenus pour les stades de larve et de

pupe ont confirmé les tendances observées dans la modélisation des données du stade

embryonnaire et de la série temporelle complète, ceux-ci sont placé en appendice au chapitre

V, à la fin de ce travail et ce, par souci de concision. Notons également qu’en raison de la très

faible variabilité des niveaux d’expression des gènes dans le stade adulte, celui-ci n’a pas

étudié séparément.

Enfin, un sous-ensemble de 20 gènes impliqués, selon Arbeitman et al. (2002) et Zhao

et al. (2006), dans le développement musculaire et sélectionnés à partir de leur apparition

dans la littérature, est étudié séparément pour valider les modèles développés. Les identifiants

de ces gènes se trouvent en annexe A.17.

3.2.2. Données synthétiques étudiées

Enfin, des profils d’expression synthétiques sont générés à partir de valeurs aléatoires

de paramètres des modèles développés ci-après pour valider ces-derniers in numero. Les

dimensions du réseau synthétique (nombre de gènes, connectivité de chaque gène, nombre et

valeur des instants de mesure) sont choisies comme identiques à celles du sous-ensemble de

gènes du développement musculaire et ce, pour confronter les résultats obtenus dans la

modélisation du sous-réseau musculaire avec ceux obtenus pour un sous-réseau aléatoire

similaire. Ainsi, on génère un réseau aléatoire de 20 nœuds et on choisit, pour chaque nœud,

une connectivité aléatoire inférieure ou égale à 4. On intègre ensuite les différents modèles

développés pour générer 20 profils sur les 67 instants réels de mesures et on ajoute un bruit

blanc, de distribution normale, de moyenne nulle et d’écart-type 0.25. Cette valeur d’écart-

type est choisie après examen visuel des profils bruités pour ressembler autant que possible

104


aux profils expérimentaux réels. On utilise alors ces données synthétiques pour tenter de

retrouver les paramètres initiaux.

3.2.3. Classification et prétraitement des données

Afin de regrouper les gènes co-exprimés pendant la période étudiée, les données

d’expression sont classifiées de manière hiérarchique selon la méthode décrite au chapitre IV

(section 2.2.3). Par ailleurs, étant donné le faible nombre de profils à classifier pour le sous-

ensemble de gènes impliqués dans le développement musculaire, les classes formées sont

peuplées de 1 à 6 gènes et, par conséquent, les profils moyens associés à ces classes formées

souffrent beaucoup plus du bruit de mesure que lorsque les classes sont plus peuplées. Dès

lors, il convient de soumettre ces 20 profils d’expression au filtrage en moyennes mobiles

décrit aux équations (V.1). Notons que ce filtrage n’est pas nécessaire pour les données

classifiées car en considérant un profil moyen pour chaque classe, le bruit est

significativement réduit (chapitre IV).

Lors de cette classification, les profils sont comparés indépendamment de leur

translation et des facteurs d’échelle et ce, pour ne les comparer que sur la base de leur forme (voir chapitre IV, section 2.2.3). Dès lors, les n profils moyens ( )c kX , définis en (IV.14),

associés à chaque classe de gènes, sont translatés et normalisés de manière à ce que leurs

moyennes soient égales entre elles, leurs variances soient égales à 1 et leurs valeurs soient

positives à chaque instant. Ainsi, les interactions entre les classes de gènes seront identifiées

sur la base de la forme des profils uniquement. On note ( )c kX les n profils moyens

normalisés et 1( ) ( ),..., ( )k k nX X k X le vecteur des taux d’expression des n classes de gènes

à l’instant τk.

Enfin, pour garder une fréquence d’échantillonnage élevée et constante tout le long de

la série temporelle, les profils obtenus sont interpolés sur l’intervalle de temps étudié divisé en

1000 points de mesures artificiels, en utilisant la routine csaps du programme Matlab. Ces

profils interpolés sont alors utilisés pour estimer les dérivées temp1orelles ddc kX

t

des

profils d’expression aux instants de mesure réels. Signalons que tous les calculs ultérieurs

sont effectués en ne considérant que les instants de mesure réels. Par ailleurs, dans la

modélisation linéaire des profils sur la série temporelle complète, les instants initial et final τ1

et τl avaient été supprimés de la série, en raison du manque d’information sur la valeur des

dérivées temporelles des profils d’expression à ces instants (voir section 2.1.4). Ici, vu le

nombre parfois faible de points de mesure à l’intérieur des stades de développement, ces

points de mesure sont conservés.

105


3.2.4. Structures de modèle étudiées

Quatre structures de modèle non linéaires, notées m de manière générique, sont

envisagées dans ce travail. Dans un premier temps, leur construction est réalisée en focalisant

le raisonnement sur des interactions entre gènes individuels et non entre classes de gènes. Ces

quatre structures décrivent toutes l’évolution temporelle de la concentration relative en

ARNm ( )cX t d’un gène c à l’aide d’un terme de transcription ( )cR X , soit constant soit

dépendant de l’état X des concentrations relatives de tous les gènes, et un terme de dégradation composé d’un facteur ( )c X , constant ou non, multiplié par la concentration

relative ( )cX t du gène c décrit. d ( )

( ) ( ) ( )d

cc c c

X tR X t

t X X (V.14)

La formulation mathématique non linéaire de ( )cR X et ( )c X est inspirée des

modèles développés pour le réseau de régulation de la bactérie Escherichia coli lors de la

diauxie glucose-lactose (Albert et Rooman, 2010). Dans leur étude, la formulation mathématique du terme de transcription ( )cR X est basée sur la probabilité , c P X qu’un

gène c soit transcrit avec un taux maximal ρc, étant donné l’état X des concentrations

relatives du système. Cette probabilité est obtenue à partir d’un exemple simple. Si deux

facteurs de transcription j et k peuvent se lier en amont d’un gène c, pour en activer ou en

réprimer l’expression, avec Acj et Ack proportionnels à la fréquence de collision ainsi qu’à

l’affinité entre le promoteur du gène c et ces facteurs de transcription j et k, alors la probabilité qu’a le facteur de transcription j de se fixer en amont du gène c s’écrit : ,c jP

,1

c j j

c j j ck k

A Xc j

A X A X

P (V.15)

où les constantes Acj et Ack sont positives par définition.

Par ailleurs, pour qu’un gène soit transcrit, il faut que son promoteur soit occupé par

un activateur et non un répresseur. Dès lors, en généralisant cette équation à l’ensemble des n

gènes considérés et en distinguant les actions d’activation et de répression de transcription,

respectivement quantifiées par les paramètres définis positifs Ac = Ac1,…, Acn et Bc = Bc1,…, Bcn, la probabilité , c P X qu’un gène c soit transcrit avec un taux maximal ρc, étant donné

l’état X du système est donnée par la probabilité qu’un activateur se lie au promoteur de ce

gène c :

, , 1 ,c A c B c P X P X A P X B (V.16)

avec 1

1

( )

,1 (

n

cj jj

A c n

cj jj

)

A X t

A X t

P X A et 1

1

( )

,1 (

n

cj jj

B c n

cj jj

)

B X t

B X t

P X B (V.17)

106


D’où, 1

1 1

( )

( ) ,

1 ( ) 1

n

cj jj

c c c c n n

cj j cj jj j

A X t

R

( )A X t B X t

X P X (V.18)

Ensuite, Albert et Rooman (2010) ont choisi de modéliser le facteur de dégradation ( )c X de manière à traduire un effet de saturation des interactions que le produit d’un gène

peut avoir avec l’ADN et les produits des autres gènes lorsque celui-ci est très fortement

exprimé :

1

1

( )

1

n

cj jj

n

cj jj

K X

c cc

K X

K K e

e

X (V.19)

où représentent respectivement les taux maximum et minimum de dégradation du

produit du gène c et l’influence du produit du gène j sur la dégradation du gène c.

et cK Kc

cjK

Finalement, en considérant que les profils classifiés ( )c kX correspondent cette fois à

une moyenne des profils des gènes contenus dans chaque classe, Albert et Rooman (2010) ont

montré que les formulations mathématiques (V.18) et (V.19) restent valables si l’on modélise

les profils d’expression de classes de gènes plutôt que de gènes individuels. Les constantes ρc, γc,

1 2 3 4, , ,c c c c représentent alors une combinaison d’interactions impliquant les gènes de la

classe c et les paramètres Acj, Bcj, Tcj et Ecj une combinaison des interactions entre les gènes

des classes c et j. Dans la suite de ce travail, le raisonnement ci-dessus sera exploité en

gardant à l’esprit que c désigne bien une classe de gènes et non un gène isolé.

Dans ce travail, la formulation mathématique du terme de transcription comme un

quotient de polynômes (V.18) est appliquée dans un premier modèle, en gardant à l’esprit que

ce dernier a été développé pour modéliser le réseau de régulation d’un organisme procaryote

sur la base d’interactions entre gènes isolés plutôt qu’entre classes de gènes. Dans ce modèle, le facteur de dégradation ( )c X est choisi comme une simple constante γc. Ce modèle est

exprimé à l’équation (V.20). Etant donné que ce modèle est constitué d’un terme non constant

(noté « N ») exprimé comme un quotient de polynômes (notée « pol ») et d’un terme constant (noté « C »), il est noté . pol

NCm

Ensuite, la formulation mathématique en exponentielle (notée « e ») en (V.19) est

appliquée à trois autres modèles non linéaires, tantôt sur les deux termes du modèles, tantôt sur un seul terme, l’autre étant constant. Ces modèles sont notés , et selon la

formulation mathématique des deux termes qui les composent. Comme nous le verrons dans

l’analyse des résultats, à la section 3.3, cette formulation mathématique en exponentielle

permet une modélisation plus souple que la précédente (V.18). Ces trois modèles sont

exprimés aux équations (V.21) à (V.23).

eNNm e

NCm eCNm

107


polNCm : formulation polynomiale, terme de transcription probabiliste

1 1

1 1

( )d ( )

( ) ( )d

1 ( ) 1 ( )

n

cj jjc

c cn n

cj j cj jj j

A X tX t

c cX t f tt

A X t B X t

(V.20)

eNNm : formulation en exponentielle, deux termes non constants

1 1

1 1

( ) ( )1 2 3 4

2

( ) ( )

d ( )( ) ( )

d1 1

n n

cj j cj jj j

n q

cj j cj jj j

T X t E X t

c c c c cc c

T X t E X t

X t e eX t f t

te e

(V.21)

eNCm : formulation en exponentielle, terme de dégradation constant

1

1

( )1 2

3

( )

d ( )( ) ( )

d1

n

cj jj

n

cj jj

T X t

c c cc c c

T X t

X t eX t f t

te

(V.22)

eCNm : formulation en exponentielle, terme de transcription constant

1

1

( )3 4

4

( )

d ( )( ) ( )

d1

n

cj jj

q

cj jj

E X t

c c cc c

E X t

X t eX t f t

te

c

(V.23)

où les paramètres ρc, γc,

1 2 3 4, , ,c c c c , Acj, Bcj, Tcj et Ecj sont des paramètres à identifier.

Les paramètres de ces quatre modèles peuvent être interprétés physiquement de la manière

suivante : ρc est le taux maximal de transcription associé à la classe c ; γc est le taux de dégradation des produits des gènes de la classe c ; 1 et c

2c

3 et c

sont des constantes

caractéristiques de la transcription de la classe c ; 4c

3 4,c c

sont des constantes

caractéristiques de la dégradation des produits des gènes de la classe c ; les Acj, Bcj et Tcj

quantifient, respectivement, l’effet d’activation, l’effet de répression, et, plus généralement,

l’influence, de l’expression de la classe j sur la transcription de la classe c ; enfin, les Ecj

traduisent l’influence de l’expression de la classe j sur la dégradation des produits des gène de la classe c. Notons qu’en plus des paramètres ρc, γc,

1 2, ,c c spécifiques à chaque classe

c, chaque connexion de régulation j c est définie par un paramètre dans les modèles et

, respectivement Tcj et Ecj, et par deux paramètres dans les modèles et ,

respectivement {Acj , Bcj} et {Tcj , Ecj}.

eNCm

eNNme

CNm polNCm

Signalons enfin que toutes les combinaisons des deux formulations mathématiques

non linéaires avec des termes constants ne sont pas envisagées. En effet, un modèle dont les

deux termes seraient constants ne traduirait aucune interaction entre les gènes et un modèle

dont la transcription serait modélisée comme dans l’équation (V.18) et la dégradation des

108


produits des gènes comme dans les équations (V.19) comprendrait un nombre très élevé de

paramètres (n(3n+3)), ce qui risquerait de rendre le problème sous-déterminé.

Enfin, pour pouvoir comparer les résultats obtenus par ces modèles avec les

précédents, cette méthode est également appliquée au modèle linéaire le plus simple :

linm : modèle linéaire

5

1

d ( )( ) ( )

d

nc

cj j cj

X tM X t f t

t

(V.24)

où les Mcj sont des paramètres à identifier.

Dans la suite du travail, on note de manière générique m les cinq modèles étudiés et

, 1, ,m mj j s θ l’ensemble de leurs s paramètres, comprenant tous les paramètres à

estimer dans les équations (V.20) à (V.24) ainsi que les n valeurs initiales 1ˆ ( )m

cX (c=1,…,n)

des profils estimés.


Pour faire face à la complexité du problème posé et au nombre élevé de combinaisons

de connexions possibles, nous proposons, comme lors de la modélisation linéaire du réseau de

régulation de la drosophile, de décomposer l’estimation des paramètres en trois étapes.

Premièrement, une solution est identifiée pour reproduire les dérivées temporelles des profils

d’expression. Le problème différentiel est ainsi réduit à un problème algébrique, ce qui

diminue grandement le temps de calcul. Deuxièmement, la solution obtenue à la première

étape, optimale pour les dérivées temporelles des profils d’expression, est optimisée pour la

reproduction des profils d’expression et pour identifier une connectivité maximale utile du

réseau. Troisièmement, on effectue l’étape de réduction paramétrique pour se défaire des

paramètres peu utiles ou pour optimiser d’autres caractéristiques du modèle, i.e. la robustesse

aux perturbations paramétriques et la stabilité des profils d’expression après extrapolation

temporelle.

a) Construction algébrique des réseaux de régulation

Cette première étape consiste à identifier, pour chaque classe c, quelles sont les

connexions régulatrices qui permettent la meilleure reproduction des dérivées temporelles du

profil d’expression ( )c kX . Pour cela, on utilise les profils d’expression expérimentaux

( )c kX comme variables explicatives dans le membre de droite des équations différentielles

(V.20) à (V.24) et on confronte les profils estimés ( )mc kf par les cinq modèles m avec les

profils ddc kX

t

obtenus à partir d’une simple interpolation des données. Dans ce cas, les

109


profils d’expression et leurs dérivées temporelles sont considérés comme des variables

indépendantes. Cette procédure est dite « algébrique » car elle ne nécessite pas l’intégration

des équations différentielles, ce qui diminue grandement son temps de calcul. En outre, elle

permet, d’une part, de découpler le problème en n sous-problèmes, un pour chaque classe c,

et, d’autre part, de construire le réseau de régulation rapidement et de manière systématique

en ajoutant une à une toutes les connexions régulatrices possibles pour chaque classe c du

réseau. On définit alors la « connectivité » q d’un modèle comme le nombre de connexions

entrantes par nœud du réseau. Dans un premier temps, nous ne considérons qu’une

connectivité constante, c’est-à-dire pour laquelle chaque classe de gènes est régulée par un

même nombre de classes.

Ainsi, pour chaque modèle m, le réseau de départ ne contient aucune connexion, i.e.

q=0. Ensuite pour q=1, on évalue tout d’abord, pour chaque classe de gènes c, l’effet de

l’ajout au réseau de chaque connexion régulatrice possible venant d’une des n classes de

gènes (les connexions de et vers un même nœud sont autorisées) pour calculer le profil

temporel de la fonction , ( )m qc kf . Rappelons que pour les modèles et , une

connexion de régulation est définie par 2 paramètres. Les paramètres sont alors identifiés de

manière à optimiser l’écart quadratique

polNCm e

NNm

,m qcJ entre le profil temporel de la fonction

, ( )m qc kf et celui de l’estimation de la dérivée du profil d’expression de la classe de gènes c :

2

, ,

1

d1( )

d

lc km q m q

c c kk

XJ f

l t

(V.25)

On utilise tout d’abord l’algorithme global d’optimisation Direct (Chiter 2006). Ce dernier

fonctionne de manière dichotomique en partant, pour chaque paramètre j, de la moyenne des

valeurs limites jmin et jmax prédéfinies, et en évaluant, à chaque itération, l’effet de

l’augmentation et de la diminution de ce paramètre. Ainsi, le paramètre j prendra tout d’abord

la valeur min max

+

2

j j . L’algorithme évaluera ensuite, pour chaque paramètre j, la valeur de la

fonction de coût pour min max2

3

j jj

et en

min max 2

3

j jj

et choisira la valeur pour laquelle

la diminution de la fonction de coût est la plus importante. L’algorithme se poursuit jusqu’à

une valeur seuil d’itérations, fixée de manière à ce qu’une convergence de la valeur de la

fonction soit observée. On utilise ensuite la solution obtenue par cet algorithme comme

initialisation pour un algorithme local d’optimisation implémenté dans la routine fmincon du

programme Matlab. Celui-ci utilise un algorithme de programmation quadratique séquentielle

(SQP). Les deux algorithmes d’optimisation cités ci-dessus opèrent sous deux contraintes : les

paramètres Acj et Bcj sont définis positifs par définition et tous les paramètres sont, en valeur

absolue, inférieure ou égale à une valeur seuil. En effet, sans cette dernière contrainte, il

s’avère que certains paramètres tendent à prendre des valeurs toujours plus grandes au fur et à

110


mesure des optimisations et ce, au détriment de la plausibilité du réseau de régulation obtenu.

La valeur seuil est fixée à 10, de manière à ce que les paramètres conservent des valeurs de

l’ordre de grandeur des valeurs de ( )c kX . En comparant les n valeurs de ,m qcJ , on identifie

enfin la connexion pour laquelle cet écart est minimum et on la conserve pour la suite.

Ensuite, on répète cette procédure pour les valeurs suivantes de q (jusque n) en ne considérant

chaque fois que les (n – q + 1) connexions encore possibles jusqu’à obtenir, pour q = n, une

connexion provenant des n classes de gènes. Notons qu’à chaque itération tous les paramètres

sont à nouveau estimés, seules les connexions identifiées aux itérations précédentes sont

conservées. Enfin, on réitère cette méthode pour chaque classe de gènes c=1,…,n. Comme

nous le verrons ci-après les résultats de cette étapes sont utilisés de deux manières (1) les

paramètres identifiés sont utilisés comme initialisation des paramètres pour q = 1 uniquement

et (2) la séquence de connexions régulatrices identifiées comme optimale lors de cette étape

préliminaire est utilisée pour définir la structure du réseau de régulation, pour une

connectivité q donnée.

b) Optimisation paramétrique et connectivité maximale utile

La solution obtenue à l’étape précédente étant optimale pour reproduire les dérivées

temporelles des profils d’expression et non les profils d’expression eux-mêmes, elle souffre

de l’erreur d’estimation des dérivées temporelles des profils lors de l’interpolation des profils

d’expression. Par ailleurs, elle est obtenue en traitant les profils d’expression et leurs dérivées

temporelles comme des variables indépendantes. C’est pourquoi, il est ensuite nécessaire

d’optimiser les paramètres obtenus, en intégrant les équations différentielles à chaque

itération, pour que les profils ˆ ( )mc kX estimés par le modèle m reproduisent au mieux les

profils expérimentaux ( )c kX . Pour cela, on considère, pour chaque valeur de q=1,…,n, le

réseau formé par les nq connexions identifiées à l’étape précédente. Pour q=1, l’optimisation

est initialisée soit à la valeur des paramètres optimaux pour les dérivées temporelles estimées

ddc kX

t

, soit à la solution nulle (tous les paramètres égaux à zéro). Dans chaque cas, ces deux

initialisations sont évaluées et celle qui mène à la plus faible valeur de la fonction de coût est

conservée. Ensuite pour q > 1, on initialise la recherche à la solution de la connectivité q – 1

précédente. Les nouvelles connexions libérées sont quant à elles initialisées à zéro. On utilise

alors l’algorithme local d’optimisation implémenté dans la routine fmincon du programme

Matlab, sous les mêmes contraintes que dans l’étape précédente, pour minimiser l’écart

quadratique moyen entre les profils ,m q ,ˆ ( )m qc kX estimés par ce modèle (m, q) de réseau et

les profils expérimentaux normalisés c kX :

2,

1 1

1 ˆ ( )n l

m q m qc k c k

c k

X Xnl

, (V.26)

111


Notons que cette fonction n’est pas pondérée par l’inverse de la variance de profils

d’expression, comme c’était le cas pour le modèle linéaire. Ce choix se justifie par le fait que

dans la classification hiérarchique utilisée dans la présente étude, les profils moyens des

classes de gènes sont calculés à partir des profils des gènes de la classe correspondante après

superposition sur le profil représentatif de la classe (voir chapitre IV). Dès lors, l’écart-type

apparaissant lors de cette opération varie beaucoup moins que celui obtenu avec la méthode

SSC. Dès lors, cet écart-type correspond plus au bruit de mesure encadrant les profils

d’expression qu’aux tendances que ces profils suivent. C’est pourquoi cette pondération n’a

pas été considérée ici. Il serait toutefois intéressant de vérifier cela en répétant la présente

étude avec une pondération par la disparité des données.

Ainsi, la procédure décrite ci-dessus montre bien l’aspect « bottom-up » de l’approche

puisque à chaque étape, on libère de nouveaux degrés de liberté en générant de nouvelles

connections dans le réseau de régulation.

Enfin, pour chaque modèle m, on observe l’évolution de avec q et on identifie la

« connectivité maximale utile » au-delà de laquelle ne diminue plus

significativement. On considère alors que suffisamment de connections ont été générées pour

reproduire les données et on abandonne les autres valeurs de q pour ce modèle m.

,m qmax

mq ,m q

c) Réduction paramétrique

L’objectif de cette dernière étape est de se défaire des paramètres inutiles. En effet, les

solutions (m,qmax) supposent une connectivité égale pour chaque nœud du réseau. Dès lors, on

propose de lever cette hypothèse en autorisant l’élimination de certains paramètres pour

réduire la connectivité de certains nœuds en conservant une bonne reproduction des données

ou en améliorant la robustesse paramétrique de la solution.

Notons tout d’abord que les procédures d’élimination développées dans cette section

ne s’appliquent pas à tous les s paramètres (j=1,…,s) mais uniquement au sous-

ensemble

, ,m q m qj θ

,, , 1, , m qm qj j v s ,m qξ θ des v paramètres définissant les connexions du

réseau, à savoir les Acj, Bcj, Tcj et Ecj. Les autres paramètres ainsi que les n valeurs initiales ˆ ( )m

c kX (c=1,…,n) des profils estimés sont toujours conservées.

En outre, on impose que l’évolution temporelle de la concentration relative en ARNm ( )c kX de la classe de gène c (c=1,…,n) soit toujours gouvernée par la concentration relative

en ARNm d’au moins une classe de gène et ce, pour éviter d’obtenir des profils d’expression

estimés constants, observés uniquement dans le stade adulte dans les données étudiées. En

d’autre termes, il restera toujours au moins un paramètre de pour chaque classe de gènes. ,m qξ

Enfin, comme l’élimination de paramètres réduit le nombre de degrés de liberté, elle

ne peut en principe qu’augmenter l’écart entre les profils estimés et les profils expérimentaux.

112


On désire, dans cette méthode, pouvoir éliminer le plus de paramètres possible sans que cet

écart ne devienne trop important. C’est pourquoi on choisit d’interrompre cette procédure

lorsque cet écart moyen dépasse un seuil σmax (typiquement 0.5) qui sera choisi lors de

l’examen des profils estimés avant l’étape de réduction paramétrique. Cette valeur seuil est

choisie parce qu’au-delà de celle-ci on observe systématiquement que les écarts entre profils

expérimentaux et estimés deviennent significativement importants. On en déduit que la

solution correspondante n’est pas capable de reproduire les profils expérimentaux de manière

satisfaisante. Il convient toutefois de garder à l’esprit que cette valeur est une moyenne sur

toutes les classes de gènes et que par conséquent, un examen visuel de tous les profils estimés

est nécessaire pour distinguer les solutions qui reproduisent tous les profils de manière

correcte de ceux qui reproduisent très bien la plupart des profils et mal un ou deux profils. On

pourrait, à l’avenir, rendre ce critère plus performant en le combinant, par exemple, avec un seuil spécifique au profil de chaque classe c. La procédure de réduction paramétrique

s’interrompt donc ici lorsqu’un des deux critères définis est atteint ou lorsqu’aucun paramètre

ne satisfait plus à la condition d’élimination choisie. Ainsi, si l’on note CE le critère

d’élimination du paramètre dans la procédure r et

maxc

rj

, ,m q rj

,, , , 1, ,v

nm qm q m q

c c k k

ξ ξ le

sous-ensemble de paramètres intervenant dans la régulation de la classe de gènes c, on a :

, , , , , ,, , max[1, ] | CE 0 [1, ], 1, , 0 : 0m q r m q r m q rr m q rj j c jk

vj v c n k

n

(V.27)

Après chaque élimination d’un paramètre, les paramètres restants sont à nouveau

optimisés à l’aide de la routine fmincon de Matlab. Cette procédure de réduction est réitérée

jusqu’à ce que la condition ci-dessus ne soit plus vérifiée. Cinq méthodes de réduction, notées

r de manière générique, sont proposées pour le choix des paramètres à éliminer. : élimination des paramètres à faible valeur absolue vr

Dans cette méthode, on choisit d’éliminer, à chaque itération, le paramètre restant le

plus faible en valeur absolue. Ainsi, pour k=1,…,v ≤ s:

, , , , , ,[1, ] | min : 0v vm q r m q r m q rj k

kj v (V.28) v

j ξ ξ ξ

A chaque itération, on pose le paramètre satisfaisant à cette condition égal à 0 et on optimise

les paramètres restants pour minimiser l’écart entre les profils , , vm q r , ,ˆ ( )vm q r

cX k estimés

par ce modèle (m,q, ) et les profils expérimentaux vr ( )c kX .

r : élimination des paramètres qui influencent peu la reproduction des données

Dans cette méthode, on élimine les paramètres qui semblent les moins utiles pour

reproduire les données. Ainsi, on évalue systématiquement l’écart quadratique moyen , ,m q r

113


entre les profils expérimentaux ( )c kX et les profils , ,ˆ ( )m q rcX

k estimés par ce modèle

(m,q, r ) après l’élimination de chacun des paramètres , ,m q rj

restants (sans optimiser les

autres paramètres). On identifie alors le paramètre qui, lorsqu’il est éliminé donne lieu à un

écart minimum. On le pose égal à 0, puis on optimise les paramètres restants pour minimiser

l’écart , ,m q r . On élimine ainsi, les paramètres le moins sensibles du modèle, i.e. ceux dont

l’élimination modifie le moins la fonction , ,m q r . On a donc pour k=1,…,v ≤ s:

, , , ,, , , ,[1, ] | ( 0) min ) : 0m q r m q m q rm q r m q rj jk

k

, ,( 0rj v

p

(V.29)

: élimination des paramètres les plus sensibles aux perturbations r

Dans cette méthode, on élimine à chaque itération le paramètre le plus sensible à une

faible perturbation car, comme discuté plus haut, on considère ici qu’un modèle

biologiquement pertinent doit être robuste aux faibles perturbations paramétriques. Ainsi, on

évalue systématiquement l’écart quadratique moyen , , pm q r entre les profils expérimentaux

( k )cX et les profils , ,ˆ ( )pm q r

cX k estimés par ce modèle (m,q, ) avant et après la

perturbation individuelle de ±1% de chacun des paramètres restants (sans optimiser les autres

paramètres), de la même manière que lors de l’étude de robustesse du modèle linéaire (voir

section 2.1.6). En notant

pr

, , pm q rj les valeurs perturbées des

, , pm qj

r, on identifie alors la

différence maximale , , pm q r observée entre la fonction , ,(

, ,)ppm q r m q r

j après chaque

perturbation et la fonction , , pm q r avant perturbation. On élimine définitivement le paramètre

dont la perturbation individuelle mène à la différence maximale observée entre ces fonctions

pour toutes les éliminations possibles. On élimine ainsi les paramètres les plus sensibles du

modèle, i.e. ceux dont l’élimination modifie le plus la fonction , , pm q r . On a donc pour

k=1,…,v ≤ s :

, , , , , ,, , , , , ,

, , , ,, , , , , ,

[1, ]

avec

j v

F

θ

| ( ) ( ) = : 0

max ( ) ( )

p p pp p p

p pp p p

m q r m q r m q rm q r m q r m q rj j j

m q r m q rm q r m q r m q rk k

k

s

(V.30)

: élimination des paramètres les moins sensibles au sens de Fisher r

Dans cette méthode, on effectue une analyse de sensibilité paramétrique pour chaque

solution réduite. On définit ainsi une nouvelle sensibilité, dite « au sens de Fisher », des

paramètres du modèle. Cette dernière est à distinguer de la sensibilité aux perturbations

paramétriques en ce sens qu’elle correspond à des variations paramétriques infinitésimales et

qu’elle est obtenue analytiquement. Pour ce faire, on intègre les équations différentielles avec

l’ensemble de tous les paramètres résiduels. Ainsi, en posant : , , ; 1, ,Fm q rj j

114


, ,ˆˆ ( , ) ( ) , 1,...,Fm q rc kt X c n

X θ (V.31)

et , ,ˆ( , , ) , 1,...,Fm q rct f c n

f X θ , (V.32)

on a : ˆd ( , ) ˆ( , )d

t

t

X θf X θ . (V.33)

D’où, ˆ ˆ ˆd d ( , ) ( , ) d ( , ) ( , )

ˆd d d

t t

t

X θ f X θ X θ f X θ

θ θX

ˆθ

. (V.34)

Comme θ et t sont indépendants, on peut écrire :

ˆ ˆd ( , ) ( , )

d

t t

X θ X θ

θ θ et

ˆ ˆd ( , ) ( , )

d

t

t t

X θ X θ t

. (V.35)

et ˆ ˆd d ( , ) d d ( , )

d d d d

t t

t t

X θ X θ

θ θ . (V.36)

Dès lors, en définissant la fonction de sensibilité G :

, ,

, ,

ˆˆ ˆ ( )d ( , ) ( , )( , ) , 1,..., et 1,...,

d

F

F

m q rc k

m q rj

Xt tt c

X θ X θG θ

θ θn j s , (V.37)

on peut résoudre analytiquement les équations de sensibilité du modèle (m,q, ) : Fr

ˆ ˆd ( , ) ( , ) ( , )

( , )ˆd

tt

t

G θ f X θ f X θ

G θθX

(V.38)

avec la condition initiale, pour j=1,…,v ≤ s :

, ,

, , , ,

, ,1

0 0

0

1 pour ( )1

0 sinon

ˆˆ avec

ˆˆ ( , )( , )( ) ( , )

F

F F

F

m q rm q r m q rcj cm q r

j

t

t

XX

tt

X θX θG θ G θ

θ θ (V.39)

115


La dernière égalité provient du fait que les conditions initiales 1ˆ ( , )X θ

ˆ

font partie des

paramètres de θ à estimer. Dès lors, les dérivées des conditions initiales 1( , )X

1ˆ ( , )

θ par rapport

à elles-mêmes sont égales à 1 et les dérivées des conditions initiales X θ par rapport aux

autres paramètres de θ sont nulles.

On construit alors, pour la solution (m,q, Fr ), la matrice d’information de

Fisher , , , , , , 1,...,F Fm q r m q rijF i j s

F (Chu & Hahn 2009) ainsi que sa matrice de

corrélation , , , , , , 1,F Fm q r m q rij ...,K i j

K s en sommant le produit des fonctions de

sensibilité sur tous les instants de la série temporelle (Daun et al. 2008) :

, , T

1

( , ) ( , )F

lm q r

kk

k

F G θ G θ (V.40)

soit

, , , ,, ,

, , , ,1 1

ˆ ˆ( , ) ( , )F F

F

F

m q r m q rpng k gm q r

ij m q r m q rg k i j

X XF

θ θ

F

k (V.41)

et ( , 1,..., )F

F

F F

m,q,rijm,q,r

ijm,q,r m,q,r

ii jj

FK = i j

F F

v (V.42)

On choisit ensuite d’éliminer à chaque itération, parmi les paramètres qui présentent une forte

corrélation avec au moins un autre paramètre, le paramètre le moins sensible au sens de

Fisher. En effet, si 2 paramètres sont corrélés, on peut supposer qu’il y a une redondance dans

l’information qu’ils apportent. En outre, l’élimination des paramètres les moins sensibles est

une méthode classique de réduction paramétrique car elle améliore la précision du modèle

(Sun & Hahn 2006). Pour cela, plusieurs quantificateurs scalaires de la matrice F (trace,

déterminant, valeur propre minimale), utilisés classiquement comme critères de la sensibilité

globale du modèle (Chu & Hahn 2009) ont été testés. Au final, peu de résultats se sont révélés

exploitables. C’est pourquoi le critère choisi est ici simplement la valeur de la diagonale de la

matrice d’information de Fisher. On élimine donc le paramètre , , Fm q rj

si et seulement si les

conditions 1° et 2° sont satisfaites :

1° (V.43) , ,[1, ] | 0.9Fm q rjkk v k j K

2° , , = min | 1° , =1,...,F Fm q r m,q,rjj ii

iF F i

v s (V.44)

116


La condition 1° impose la corrélation entre le paramètre , , Fm q rj

considéré et un autre

paramètre , , Fm q rk

, ,

restant et la condition 2° impose la faible sensibilité au sens du Fisher du

paramètre Fm q rj

. Ainsi,

, ,[1; ] | 1° 2° : 0Fm q rjj v

(w=1,…,v ≤ s) (V.45)

: élimination des paramètres les plus sensibles au sens de Fisher Fr

Dans cette méthode, on procède au raisonnement inverse à celui pour . Au lieu

d’éliminer les paramètres corrélés les moins sensibles, on élimine les paramètres corrélés les

plus sensibles, pour se rapprocher de l’objectif de robustesse paramétrique poursuivi dans ce

travail même si la précision des paramètres obtenus ne pourra qu’être moins bonne qu’avec la

méthode de réduction précédente. Dès lors, le paramètre

Fr

, , Fm q rj

est éliminé si et seulement si

les conditions 1° et 3° sont satisfaites :

1° (V.46) , ,[1, ] | 0.9Fm q rjkk v k j K

3° , , = max | 1° , =1,...,F Fm q r m,q,rjj ii

kF F i

v s (V.47)

Ainsi, , ,[1; ] | 1° 3° : 0Fm q rjj v

(V.48)

3.2.6. Critères d’évaluation des solutions

Les solutions, réduites ou non, sont évaluées selon 4 critères détaillés ci-après : (1) la

bonne reproduction des données d’expression, (2) la robustesse paramétrique, (3) la valeur

des éventuels points attractifs pendant la durée de vie de l’organisme et (4) le niveau de

réduction paramétrique. La sensibilité au sens de Fisher a également été étudiée mais il s’est

avéré que les quantificateurs de la matrice d’information de Fisher (trace, déterminant, etc.)

variaient peu. Cette situation s’explique par le fait que celle-ci est calculée en considérant

l’ensemble de tous les paramètres et que les modèles sont particulièrement sensibles, au

sens de Fisher, aux conditions initiales. Or, celles-ci sont toujours conservées dans cette étape

de réduction paramétrique. C’est pourquoi ce critère n’est pas examiné.

θ

(1) On évalue la capacité des solutions à reproduire les données en observant la valeur

de l’écart quadratique moyen entre les profils , ,m q r , ,ˆ ( )m q rcX k estimés par ce modèle

(m,q,r) après réduction et les profils expérimentaux ( )c kX en fonction du nombre de

paramètres nécessaires.

(2) On évalue la robustesse paramétrique de la solution étudiée en perturbant chaque

paramètre par l’ajout de ± 1% de sa valeur absolue, de la même manière que lors de l’analyse

de robustesse paramétrique du modèle linéaire à la section 2.1.6 de ce chapitre. En notant

les valeurs perturbées des , on identifie alors, pour chaque perturbation, le plus , ,m q rj

, ,m q rj

117


grand écart , pour une classe donnée c’ et à un instant donné k’, entre la valeur

expérimentale

, , , ,', ' (m q r m q r

jc k )

' '( )cc kX et estimée , , , ,''

ˆ ( ,m q r m q r )j kcX par ce modèle perturbé. On détermine

ensuite la perturbation qui maximise cet écart local et on quantifie la robustesse

paramétrique de la solution (m,q,r) en considérant l’écart quadratique moyen

entre les profils expérimentaux

, ,'

m q rj

, ,, ,'( )m q rm q r

j

( )c kX et les profils , ,, ,'

ˆ ( ,m q rm q rc jX )k estimés par ce modèle

perturbé :

, ,', '

m q rc k , ,( )m q r , ,, , ,

,

ˆmax ( , )m q rm q r wj c k c j k

c kX X

(V.49)

, , , , , ,' ', '( ) max ( )r m q r m q r m q r

jj c kj

, ,', ' | m q

c k' [1, ]j v (V.50)

2, ,( )m q r

, ,

, , , ,, ,pert ' 'i

1 1

1 ˆ ( , )n l

m q r m q rm q ri k kj j

i k

X Xnl

, ,m q r (V.51)

Ainsi, si la valeur de pertm q r est faible, cela signifie qu’en perturbant chacun des paramètres

du modèle (m,q,r), celui-ci est suffisamment robuste que pour continuer à reproduire

correctement les données. Notons que cet objectif de grande robustesse paramétrique

implique une faible sensibilité paramétrique et donc une faible précision de la valeur des

paramètres estimés mais, comme cela a déjà été expliqué précédemment (voir section 3.1),

étant donné la nature stochastique des processus moléculaires à l’origine des interactions entre

gènes et produits de gènes, on ne cherche pas ici à obtenir une grande précision sur la valeur

des paramètres estimés. Il s’agit surtout d’identifier une structure du réseau robuste aux

variations paramétriques dues à cette nature stochastique.

(3) On observe leur comportement en extrapolant les profils estimés au-delà de la

période de temps de mesure et on quantifie la « stabilité » des profils d’expression par la

moyenne, pour chaque profil c, des écarts entre les profils estimés après une période

d’extrapolation [τl,τxp] après la période de mesure [τ1,τl] et la valeur moyenne du profil estimé

pendant la période de mesure. Cette nouvelle période [τl,τxp] est fixée à 3 fois la période de

mesure, mais ne doit pas dépasser la durée de vie de l’organisme τlife = 80 jours (voir section

2.1.7).

, ,

xpec

m q r , , , ,xp

1 1

1 life

1 1 ˆ ˆ( )

min 3( ) ,

n lm q r m q ri k i l

i k

l l

X Xn l

av

(V.52)

Ainsi, si la valeur de est faible, les profils estimés tendent à se stabiliser vers de points

attractifs à des valeurs plausibles pendant la durée de vie de l’organisme.

, ,m q r

(4) Enfin, on compare naturellement les niveaux de réduction paramétrique atteints par

les différents modèles et procédures de réduction en comparant à la fois le nombre de

connexions et le nombre de paramètres dans les réseaux avant et après réduction.

118


3.3. Résultats

La méthode de modélisation décrite ci-avant est appliquée à quatre séries

temporelles de classes de profils d’expression, à savoir le stade embryonnaire (l=31), le stade

larvaire (l=10) et le stade de pupe ou métamorphose (l=18), tous deux en appendice de ce

chapitre, et la série complète (l=67). Ensuite, les modèles sont développés pour deux séries

ensembles réduits de gènes : le sous-réseau de régulation du développement musculaire (voir

section 3.2.1) et les réseaux synthétiques (voir section 3.2.2).

3.3.1. Stade embryonnaire

La classification hiérarchique des données d’expression des 4005 gènes de la

drosophile pendant le stade embryonnaire mène à 10 classes de gènes (voir chapitre IV

section 2.2.2). Les profils moyens de ces classes sont alors utilisés dans la modélisation du

réseau de régulation.


En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux

pour les cinq modèles m étudiés. La Figure V.30a représente le pourcentage de connexions

communes aux cinq modèles à chaque étape de cette construction et ce, sans tenir compte des

signes attribués à ces connexions.

a b

Figure V.30 : Construction algébrique des réseaux pour les cinq modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q

cS c n entre

les profils estimés ddc kX

t

et interpolés des dérivées temporelles des profils

expérimentaux en fonction de la connectivité q. Courbe rouge : ; courbe

rose : ; courbe verte : ; courbe noire : ; courbe bleue : .

polNCm

lineNNm e

NCm eCNm m

On constate que les modèles construisent des réseaux au départ assez différents les uns

des autres. Ainsi, pour q=1, seule 1 connexion est commune aux cinq modèles. Le

pourcentage de connexions communes est donc de 10%. Par la suite, ce pourcentage reste aux

environs de 20% avant d’augmenter, selon toute logique, vers un réseau plein en q=10. La

119


Figure V.30b représente l’évolution de l’écart quadratique moyen , ( 1,..., )m qcS c n entre les

profils estimés ddc kX

t

et interpolés des dérivées temporelles des profils expérimentaux. On

constate que cet écart est significativement plus grand pour le modèle que pour les autres

et qu’il ne diminue guère avec l’ajout de nouvelles connexions. La meilleure reproduction de ces profils est atteinte par le modèle , qui est le modèle comprenant le plus grand nombre

de paramètres.

polNCm

eNNm

b) Identification de la connectivité maximale utile

Les paramètres sont alors estimés, selon la méthode décrite au point 3.2.5 pour minimiser l’écart entre les profils ,m q ,ˆ ( )m q

c kX estimés par les cinq modèles m et les profils

expérimentaux ( )c kX et ce, pour q=1,…,4. La Figure V.31 représente l’évolution de cet écart

en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une

valeur de q :

Figure V.31 : Evolution de l’écart quadratique moyen entre les profils ,m q,ˆ ( )m q

c kX estimés et les profils expérimentaux ( )c kX pour les cinq modèles étudiés

en fonction du nombre s de paramètres des modèles. Courbe rouge : ; courbe


polNCm

eNNm e

NCm eCNm linm

On constate tout d’abord que le modèle reste médiocre en termes de reproduction

des profils expérimentaux. Ce résultat se retrouve dans chaque série temporelle étudiée et se

justifie par le fait que dans ce modèle, les contraintes sur les paramètres sont plus strictes que

pour les autres modèles. En effet (voir section 3.2.4), les paramètres Acj et Bcj sont positifs par définition. En outre, on observe que, pour le même nombre de paramètres, le modèle est

toujours meilleur que le modèle . Ensuite, pour q=3, on observe que le modèl eNN est

ici moins bon qu eNC alors qu’il comprend plus de paramètres. On attribue cette incohérence

apparente à la présence d’un minimum local dans la fonction de coût lors de l’optimisation

des paramètres, plus nombreux dans ce modèle. En initialisant les paramètres de ce modèle à la solution du modèle (les autres paramètres étant initialisés à zéro, on constate que ces

derniers restent extrêmement faibles, ce qui traduit le fait que la recherche paramétrique locale ne permet pas de s’éloigner de la solution du modèle .

polNCm

eCNm

meNCm e

e m

eNCm

eNCm

Enfin, on voit que, si l’écart décroît de façon monotone pour le modèle linéaire , il atteint en revanche une valeur constante à partir de q=2 pour les modèles et

,m q

linm eNNm e

NCm

120


et à partir de q=3 pour . On observe par ailleurs que cette stabilisation de est plus marquée que celle de

eCNm ,m q

, m qc ( 1,..., )S c n à la figure précédente. La connectivité maximale qmax,

au-delà de laquelle aucune amélioration significative n’est observée, est dès lors fixée à 3.

c) Comparaison des modèles étudiés

On compare ensuite les 5 modèles à q=3, selon les 3 premiers critères décrits au point 3.2.6.

Reproduction des profils expérimentaux La Figure V.32 représente les écarts , 3m q pour les cinq modèles étudiés et la Figure

V.33 montre les profils expérimentaux et estimés par ces modèles pour la classe de gènes 8

(les profils des autres classes de gènes se trouvent en annexe A.18).

Figure V.32 : Ecart quadratique moyen , 3m q entre profils expérimentaux et estimés pour les cinq modèles étudiés

On constate, en examinant les figures V.32 et V.33 ainsi que les autres profils donnés en annexe A.18, que le modèle présente un pol

NCm , 3m q plus élevé que les autres modèles et que

les profils estimés par celui-ci s’avèrent incapables de suivre les tendances de tous les profils

expérimentaux. En conséquence, la réduction paramétrique de ce modèle ne sera pas effectuée

ci-après.

Figure V.33 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q

c kX par les cinq modèles

étudiés pour la classe de gènes 8. Points bleus : profil expérimental ( )c kX ; courbes :

profils estimés ,ˆ ( )m qc kX . Courbe rouge : ; courbe rose : ; courbe verte : ;

courbe noire : ; courbe bleue : .

polNCm e

NNm eNCm

eCNm linm

121


Sur la base de l’observation des profils estimés par les cinq modèles, la valeur moyenne seuil

de = 0.5 est choisie comme limite pour la reproduction des profils expérimentaux. , 3m q

Robustesse aux perturbations paramétriques La Figure V.34 représente les valeurs de , 3

pertm q , en comparaison avec celles de , 3m q ,

pour les cinq modèles. On observe ici une nette différence entre le modèle linéaire qui est

plus sensible aux perturbations paramétriques et les modèles non linéaires qui s’avèrent tous

très robustes.

lim n

0,31

0,560,56

0,37

0,3

0

0,1

0,2

0,3

0,4

0,5

0,6

m=1 m=2 m=3 m=4 m=5

polNCm e

NNm eNCm e

CNm linm

Figure V.34 : Ecarts quadratiques moyens , 3m q entre profils expérimentaux et

estimés et entre profils expérimentaux et estimés après perturbation des

paramètres, pour les cinq modèles étudiés. Barres noires:

, 3pertm q

, 3m q ; barres grises: . , 3pertm q

Stabilité des profils après extrapolation temporelle

Enfin, on observe le comportement des profils estimés par les cinq modèles en les

extrapolant d’une période trois fois plus longue que la période de mesure (voir section 3.2.6),

soit jusqu’à τxp=τ1+3(τl–τ1), soit 4 jours. La Figure V.35 montre les valeurs de par les

cinq modèles et la Figure V.36 les 10 profils extrapolés estimés pour les modèles et .

, 3m q

eCNm linm

200

polNCm e

NNm eNCm e

CNm linm

Figure V.35 : Critère de stabilité , 3m q

pour les cinq modèles étudiés.

122


On constate que les profils extrapolés estimés par les modèles non linéaires restent en

moyenne de l’ordre de grandeur des profils avant extrapolation, la plus faible valeur étant

observée pour le modèle . Pour le modèle linéaire toutefois, la valeur de dépasse

de loin toutes les autres, en accord à ce qui a été observé au point 2.2.5 de ce chapitre. Cela

est dû au comportement divergent que présentent les profils estimés par ce modèle (Figure

V.36b). Dans ce travail, ce type de comportement divergent est observé pour le modèle linéaire dans chaque solution, réduite ou non. C’est pourquoi il ne peut constituer un

modèle plausible de réseau de régulation de l’expression des gènes. Par conséquent, sa

réduction paramétrique ne sera pas développée ci-après. Notons qu’à la Figure V.36a, on observe qu’un profil estimé par la modèle est toujours en croissance. Cela signifie que

l’état stationnaire estimé pour la classe de gène correspondante n’est pas encore atteint. En

effet, dans chaque solution des modèles non linéaires étudiés, on constate que tous les profils

d’expression finissent par se stabiliser après un certain temps.

eCNm

, 3m q

linm

eCNm

a b

Figure V.36 : Profils estimés par les modèles (a) et (b) jusqu’au temps eCNm linm

τxp = 4 jours

Intersection des modèles conservés , et e

NNm eNCm e

CNm

Les trois modèles restants , et s’avèrent être les meilleurs candidats pour

modéliser, selon les critères choisis, l’évolution temporelle de l’expression des gènes de la

drosophile. Ces réseaux ont une connectivité de q=3, ils contiennent donc à ce stade 10x3=30

connexions. On constate que ces trois réseaux ne partagent que 9 connexions (30%) dont 3

(10%) seulement sont de même signe dans les trois réseaux. En outre, des 100 connexions

possibles, 47 (47%) sont absentes dans les trois réseaux. Ainsi, ces trois solutions s’accordent

sur 56% des connexions possibles et sur 50% de leur signe. Ces sous-réseaux d’intersection

sont représentés à la Figure V.37.

eNNm e

NCm eCNm

123


a b

-1

Figure V.37 : Intersection des réseaux de régulation , et en tenant

compte (a) ou non (b) des signes des interactions. Figure obtenue avec Matlab.

eNNm e

NCm eCNm

d) Réduction paramétrique

Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles conservés ,

et . Les 15 solutions réduites sont ensuite étudiées selon les quatre

critères décrits à la section 3.2.6.

eNNm e

NCm eCNm

Modèle e

NNm

La Figure V.38 montre l’évolution des trois premiers critères (a),

(b) et (c) en fonction du nombre s de paramètres restant dans le modèle,

lors de la réduction paramétrique.

, 3,eNNm q r

, 3,pert

polNCm q r , 3,pol

NCm q r

a b c

Figure V.38 : Evolution des critères d’évaluation pendant les réductions paramétriques

pour le modèle , q=3. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe

verte : ; courbe rose : . (a) ; (b) ; (c) .

pr

,rFr

Fr ,e

NNm q 3,r ,pert

eNNm q 3,r , 3e

NNm q

On observe clairement que les meilleurs résultats sont ici obtenus avec les méthodes

et vr

r . La méthode permet d’éliminer le plus de paramètres tandis que la méthode vr r mène

à la solution réduite finale la plus robuste et la plus stable. Par ailleurs, pour un même nombre

124


de paramètres, la méthode r mène presque toujours à un meilleur que . Les trois autres méthodes présentent de moins bonnes performances, en particulier la méthode qui

ne parvient qu’à éliminer que quelques paramètres. Les méthodes

, 3,eNNm q r

Fr

vr

pr

et montrent des

résultats similaires entre elles. Par ailleurs, on constate que toutes les solutions réduites

montrent une grande robustesse aux perturbations paramétriques et une grande stabilité des

profils d’expression. En effet, d’une part, les valeurs de sont presque toutes

identiques à celles de , ce qui indique qu’aucune des faibles perturbations

paramétriques envisagées n’induit d’augmentation de et, d’autre part, toutes les

valeurs de sont inférieure à 1, ce qui montre que les profils d’expression tendent en

moyenne à se stabiliser à une valeur très proche de la valeur moyenne pendant la période de

mesure.

Fr

, 3,lm q r

r

pert

poNN

, 3,m q

, 3,m q reNN

eNN

, 3,eNNm q r

Ensuite, on constate, à la Figure V.39, que pour chaque méthode de réduction, les

profils estimés après réduction reproduisent très bien certains profils expérimentaux et moins

biens d’autres. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.19.

a b

Figure V.39 : Profils expérimental ( )c kX et estimés , (m qcX̂ )k par le modèle

après réduction paramétrique. Points bleus : profil expérimental

eNNm

( )c kX ; courbes :

profils estimés , (m qcX̂ )k . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe

verte : ; courbe rose : . (a) Classe de gènes 1 ; (b) classe de gènes 2.

pr

Fr

Fr

, 3,m q r

r

Dans le cas présent, toutes les solutions réduites échouent à reproduire correctement

les profils d’une à trois classes de gènes sur les dix (voir annexe A.19). Il en résulte que la

valeur seuil de 0.5 pour est ici trop élevée. Rappelons que, cette valeur étant une

moyenne sur toutes les classes de gènes, elle peut correspondre soit à une reproduction

satisfaisante de tous les profils, soit, comme c’est le cas ici, à une très bonne reproduction de

la plupart des profils et une mauvaise reproduction de certains. Dès lors, pour obtenir une

solution réduite reproduisant bien les profils de toutes les classes, les solutions précédentes

dans les réductions paramétriques doivent être considérées. Plus particulièrement, les solutions des méthodes et

eNN

vr se situant juste avant l’augmentation significative de

(Figure V.38a) permettent une bonne reproduction de tous les profils. Comme cela , 3,eNNm q r

125


a déjà été proposé plus haut, l’adaptation du critère de reproduction de données en le

considérant pour chaque classe de gènes séparément permettrait probablement, à l’avenir, de

sélectionner des solutions plus pertinentes.

Enfin, la Figure V.40 montre le nombre de paramètres (a) et de connexions (b) encore présents dans les dernières solutions réduites. Rappelons que dans ce modèle , une

connexion est définie par deux paramètres (voir V.20). L’élimination d’une connexion jc ne

peut donc survenir que si les deux paramètres Tcj et Ecj sont éliminés. On constate que, pour

une même condition < 0.5, les solutions obtenues par les méthodes et

eNNm

r, 3,e

NNm q r vr sont

plus réduites que les autres alors que celle obtenue par la méthode comporte autant de

connexions qu’avant réduction.

pr

a b Figure V.40 : Nombre de paramètres (a) et de connexions (b) conservés dans le

réseau de régulation pour et les cinq réductions étudiées. Les barres noires eNNm

correspondent à la solution non réduite et les barres grises aux solutions réduites.

Modèle e

NCm

La Figure V.41 montre l’évolution des critères (a), (b) et

(c) en fonction du nombre de paramètres, lors de la réduction paramétrique.

, 3,eNCm q r , 3,

pert

eNCm q r

, 3,eNCm q r

a b c


pour le modèle q=3. Courbe bleue : ; courbe noire :eNCm vr r ; courbe rouge : ; courbe


pr

Fr

Fr , 3e

NCm q ,r , 3,pert

eNCm q r , 3,e

NCm q r

126


On observe que la méthode offre la solution la plus réduite, juste devant la méthode vr

r . Les trois autres méthodes mènent à des solutions un peu moins réduites. En outre, on

constate que, comme pour le modèle précédent, les valeurs de et de sont

identiques pour toutes les solutions. Il en résulte que toutes les solutions réduites sont

extrêmement robustes aux perturbations paramétriques. Enfin, on observe que les valeurs de

des solutions réduites finales sont toujours comprises entre 2 et 4, ce qui indique

que les profils d’expression se stabilisent en moyenne à une valeur de l’ordre des valeurs prises par les profils d’expression. Seule la méthode

, 3,eNCm q r , 3,

pert

eNCm q r

, 3,eNCm q r

Fr mène à une solution moins stable avec

un proche de 7. ,eNCm q 3,r

En observant, à la Figure V.42, les profils estimés pour les classes de gène 2 et 4, on

constate que toutes les solutions reproduisent très biens certains profils et retrouvent les

tendances globales d’autres profils. Les profils relatifs aux autres classes de gènes se trouvent

en annexe A.20.

a b

Figure V.42 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle

après réduction paramétrique. Points bleus : profil expérimental

eNCm

( )c kX ; courbes :

profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe

verte : ; courbe rose : . (a) Classe de gènes 2 ; (b) Classe de gènes 4.

pr

Fr

Fr

Enfin, la Figure V.43 montre le nombre de paramètres (a) et de connexions (b) encore

présents dans le réseau de régulation après les cinq réductions. On observe que, comme pour

le modèle précédent, pour la même contrainte < 0.5, les méthodes et r, 3,e

NCm q r vr mènent

aux solutions les plus réduites.

127



réseau de régulation pour et les cinq réductions étudiées. Les barres noires


eNCm

Modèle e

CNm

La Figure V.44 montre l’évolution des critères (a), (b) et

(c) en fonction du nombre de paramètres restant dans le modèle, lors de la

réduction paramétrique.

, 3,eCNm q r , 3,

pert

eCNm q r

, 3,eCNm q r

a b c


pour le modèle , q=3. Courbe bleue : ; courbe noire eCNm vr r ; courbe rouge : ; courbe


pr

rFr

Fr , 3e

CNm q ,r ,pert

eCNm q 3,r , 3,e

CNm q

On observe ici que les cinq méthodes de réductions mènent à des solutions aux performances

très proches les unes des autres. On constate toutefois que, comme pour les modèles

précédents, les meilleur niveaux de réduction et de robustesse aux perturbations pour les méthodes et vr r . En observant, à la Figure V.45 , les profils estimés par les 5 solutions

réduites pour les classes de gène 7 et 8, on constate, comme pour le modèle , les solutions

reproduisent bien la plupart des profils et moins biens certains profils. Les profils relatifs aux

autres classes de gènes se trouvent en annexe A.21.

eNCm

128


a b

Figure V.45 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX après réduction

paramétrique. Points bleus : profil expérimental ( )c kX ; courbes : profils

estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe verte :

; courbe rose : . (a) Classe de gènes 7 ; (b) classe de gènes 8.

pr

Fr

Fr


présents dans le réseau après les cinq réductions.




eCNm

Comme pour les modèles précédents, pour la même contrainte < 0.5, les méthodes et

, 3,eCNm q r

vr r mènent aux solutions les plus réduites. Par ailleurs, la méthode atteint le

même niveau de réduction que la méthode . Fr

vr

e) Comparaison des solutions réduites

Le Tableau V.2 reprend les résultats obtenus pour toutes les solutions, réduites ou non,

du stade embryonnaire. Les solutions réduites optimales au sens de et sont

( ; ) et ( ; ). Les solutions les plus réduites sont ( ; ) et ( ;

, ,m q reCNm

, ,m q reNNm Fr

eCNm pr e

NCm vr r ). Les autres

solutions réduites surlignées en gris sont optimales au sens de , ,pertm q r . On constate que toutes

les solutions réduites du modèle sont extrêmement robustes aux perturbations

paramétriques.

eNCm

129


m r , ,m q r , ,

pertm q r , ,m q r Npar Ncon

polNCm 0,56 0,56 5,28 100 30

0,3 0,3 4,14 110 30

vr 0,49 0,49 3,95 73 19

r 0,44 0,45 1,5 76 19

pr 0,48 0,49 7,78 105 30

Fr 0,5 0,5 2,62 87 26

eNNm

Fr 0,46 0,46 5,11 88 24

0,37 0,37 4,82 70 30

vr 0,48 0,48 3,55 53 13

r 0,49 0,49 3,33 54 14

pr 0,46 0,46 2,9 62 22

Fr 0,48 0,48 3,09 58 18

eNCm

Fr 0,47 0,47 7,28 63 23

0,28 0,31 2,08 70 30

vr 0,48 0,49 4,02 54 14

r 0,47 0,47 2,68 53 13

pr 0,49 0,49 3,31 61 21

Fr 0,46 0,47 2,95 58 18

eCNm

Fr 0,5 0,5 2,61 54 14

linm 0,32 0,56 200,27 40 30

Tableau V.2: Récapitulatif des solutions obtenues pour le stade embryonnaire. Npar : nombre de paramètres (conditions initiales comprises); Ncon : nombre de connexions. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est indiquée en gras. Les critères optimaux sont :

pour , la valeur minimum ; pour , ,m q r , ,pertm q r

, ,m q r

, les valeurs égales au

correspondant, à une décimale près ; pour , les valeurs < 1 ou la valeur

minimum > 1et enfin pour Npar et Ncon, les valeurs minimum.

, ,m q r

130


3.3.2. Série temporelle complète

La classification hiérarchique des données d’expression des 4005 gènes de la

drosophile sur la série temporelle complète mène à 12 classes de gènes (voir chapitre IV

section 2.2.2). Les profils moyens de ces classes sont alors utilisés dans la modélisation du

réseau de régulation.

a) Construction des réseaux de régulation

En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux

pour les cinq modèles étudiés. La Figure V.47a représente le pourcentage de connexions

communes aux 5 modèles à chaque étape de cette construction et ce, sans tenir compte des

signes attribués à ces connexions.

a b

Figure V.47 : Construction algébrique des réseaux pour les cinq modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q

cS c n entre les


t

et interpolés des dérivées temporelles des profils expérimentaux en

fonction de la connectivité q. Courbe rouge : ; courbe rose : ; courbe verte :

; courbe noire : ; courbe bleue : .

Figure V.

polNCm e

NNm eNCm

eCNm linm

Ainsi, pour q=1, seule une connexion sur 12 (8.3%) est unanimement choisie par les

cinq modèles. On constate que les modèles construisent des réseaux assez différents car ce

pourcentage reste faible pour q<6. Par la suite, tous les modèlent tendent vers le même réseau

plein final, pour lequel ce pourcentage est de 100%. La 47b représente l’évolution

de l’écart quadratique moyen , ( 1,..., )m qcS c n entre les profils estimés d

dc kX

t

et interpolés

des dérivées temporelles des profils expérimentaux. On constate que pour , comme c’était

le cas dans les stades de développement, cet écart est significativement plus grand que les

autres et qu’il reste constant malgré l’augmentation du nombre de connexions dans le réseau

de régulation.

polNCm

131



Les paramètres sont alors identifiés, selon la méthode décrite au point 3.2.5 pour

minimiser l’écart entre les profils ,m q,ˆ ( )m q

c kX estimés par les modèles et les profils

expérimentaux (c k )X et ce, pour q=1,…,12. En examinant l’évolution de cet écart avec la

connectivité q, on peut déterminer la connectivité maximale utile des réseaux. La

représente cette évolution en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une valeur de q. On constate tout d’abord que le modèle

reste le moins bon en termes de reproduction des profils expérimentaux. En outre, on observe que, pour q>1, le modèle est ici effectivement meilleur que les modèles et et

que, pour le même nombre de paramètres, le modèle est toujours meilleur que le modèle

. Ceci peut s’expliquer par le fait que, dans l’expression de l’évolution d’un taux

d’expression, le terme de dégradation est toujours proportionnel au taux d’expression modélisé. Dès lors, le modèle comprend un terme non linéaire et un terme linéaire alors

que le modèle comprend un terme réellement constant et un terme non linéaire. La

formulation du modèle permet donc une modélisation plus flexible. Enfin, on voit que, si

l’écart décroît de façon monotone pour et , il atteint clairement une valeur

constante pour , et à partir de q=7. La connectivité utile qmax, au-delà de laquelle

aucune amélioration significative n’est observée est donc fixée à 7.

Figure

V.48polNCm

eCN

eNNm

NC

linm

eNCm m

eNCm

em

eCNm

eNCm

eCN

eNCm

m

eNNm

em,m q pol

NCm CN

,m q

Figure V.48 : Evolution de l’écart quadratique moyen entre les profils ,m q

,ˆ ( )m qc kX estimés et les profils expérimentaux ( )c kX pour les cinq modèles étudiés

en fonction du nombre s de paramètres des modèles. Courbe rouge : ; courbe


polNCm

eNNm e

NCm eCNm linm

c) Comparaison des modèles étudiés

On compare ensuite les cinq modèles à q=7, selon les trois premiers critères décrits au

point 3.2.6

132


Reproduction des profils expérimentaux La Figure V.49 représente les écarts , 7m q pour les cinq modèles étudiés et la Figure

V.50 montre les profils expérimentaux et estimés par ces modèles pour les classes 8 et 9. Les

profils relatifs aux autres classes de gènes se trouvent en annexe A.30.

0,58

0,310,36

0,50

0,37

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

1 2 3 4 5

polNCm e

NNm eNCm e

CNm linm

Figure V.49 : Ecart quadratique moyen , 2m q

entre profils expérimentaux et estimés pour les cinq modèles étudiés

On constate en examinant ces figures que les modèles et présente un pol

NCm eCNm , 7m q

plus élevé que les autres modèles et que les profils estimés par ceux-ci s’avèrent

effectivement moins aptes que les autres à suivre les tendances de tous les profils

expérimentaux. Cette incapacité ne sera donc que plus importante lorsque l’étape de réduction

paramétrique aura forcé l’élimination de paramètres dans ces modèles. En conséquence, la

réduction paramétrique de ces deux modèles ne sera pas développée ci-après et la valeur de

= 0.5 est choisie comme valeur seuil à ne pas dépasser pour conserver une bonne

reproduction des profils expérimentaux.

, 7m q

a b Figure V.50 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q

c kX par les cinq modèles

étudiés pour la série temporelle complète. Points bleus : profil expérimental ( )c kX ;

courbes : profils estimés ,ˆ ( )m qc kX . Courbe rouge : ; courbe rose : ; courbe

verte : ; courbe noire : ; courbe bleue : . (a) Classe 8 ; (b) Classe 9.

polNCm e

NNmeNCm e

CNm linm

133


Robustesse aux perturbations paramétriques

Les paramètres identifiés sont alors perturbés successivement et la réponse des cinq modèles à ces perturbations est étudiée. La Figure V.51 représente les valeurs de , 7

pertm q en

comparaison avec celles de , pour les cinq modèles. , 7m q

polNCm e

NNm eNCm e

CNm linm

116

14

13

12


estimés et , 7pertm q entre profils expérimentaux et estimés après perturbation des

paramètres, pour les cinq modèles étudiés. Barres noires: , 7m q ; barres grises: . , 7pertm q

On observe que les modèles et qui s’avèrent beaucoup plus sensibles que les

modèles , . Dans le cas du modèle , la valeur élevée de traduit le fait

que certains paramètres sont très sensibles aux perturbations paramétriques. Comme les modèles et , qui sont des cas particulier de , sont eux beaucoup plus robustes aux

perturbations, on en déduit qu’en considérant un plus grand ensemble de paramètres, on

trouve de temps en temps des perturbations critiques. Il est tout à fait possible qu’en

continuant de perturber aléatoirement les paramètres des autres modèles, de telles

perturbations critiques soient, à terme, également observées. D’un point de vue biologique, de

telles perturbations, rares mais critiques, peuvent être assimilées au basculement d’une cellule

vers un état cancéreux. Néanmoins, comme il se peut que l’étape de réduction paramétrique

réduise cette sensibilité. Ce résultat ne permet donc pas d’exclure l’un ou l’autre modèle de

cette étude. Il permet toutefois de montrer la très grande robustesse paramétrique du modèle et la bonne robustesse des modèles et .

eNNm linm

eNCm

polNCm

eNCm

eNCm

eCNm

eCNm e

NNm

m

eCNm

, 7pertm q

eNN

polNCm


Enfin, on observe le comportement des profils estimés par les cinq modèles en les

extrapolant jusqu’à la mort de l’organisme, c’est-à-dire à τxp = τlife = 80 jours (voir section 3.2.6). La Figure V.52 montre les valeurs de , 7m q

par les cinq modèles et la Figure V.53 les

12 profils extrapolés estimés par les modèles et . eNNm linm

134


polNCm

42

eNNm e

NCm eCNm linm


pour les cinq modèles étudiés.

On constate que les profils extrapolés estimés par les modèles non linéaires restent en

moyenne de l’ordre de grandeur des profils avant extrapolation. En revanche, la valeur de

pour le modèle linéaire atteint 41.93. En effet, on voit, à la Figure V.53b que les

profils estimés par ce modèle ont un comportement divergent et prennent même des valeurs

de concentration négatives. Alors que pour les modèles non linéaires, les profils se stabilisent

après un certain temps.

, 7linm q

a b

Figure V.53 : Profils estimés par les modèles (a) et (b) jusqu’à τxp=80 jours. polNCm linm

Intersection des modèles conservés et e

NNm eNCm

Les deux modèles restants et s’avèrent être les meilleurs candidats pour

modéliser, selon les critères choisis, l’évolution temporelle de l’expression des gènes de la

drosophile. Ces réseaux ont une connectivité de q=7, ils contiennent donc à ce stade 12x7=84

connexions. On constate que ces deux réseaux partagent 58 connexions (69%) dont 29 (35%)

sont de même signe dans les deux réseaux. En outre, des 144 connexions possibles, 34 (24%)

sont absentes dans les deux réseaux. Ainsi, ces deux solutions s’accordent sur 64% des

connexions possibles et sur 44% de leur signe. En raison du nombre élevé de connexions, les

réseaux correspondant aux solutions et à leur intersection ne sont pas représentés ici.

eNNm e

NCm

135


d) Réduction paramétrique Les cinq méthodes de réduction paramétrique sont alors appliquées aux modèles

et . Les solutions réduites sont étudiées selon les quatre critères décrits en 3.2.6.

eNNm

eNCm

Modèle e

NNm

La Figure V.54 montre l’évolution des critères et en

fonction du nombre de paramètres restant dans le modèle, lors de la réduction paramétrique.

On constate que la méthode

, 7,eNNm q r , 7,

pert

eNNm q r , 7,e

NNm q r

r mène à la solution la plus réduite avec < 0.5. Les

méthodes et aboutissent également à des solutions satisfaisante les critères définis, mais

contenant plus de paramètres. Les méthodes et

, 7,reNN m q

vr Fr

pr Fr , quant à elles, dépassent ce dernier

critère dès la première itération. On observe également que toutes les méthodes de réduction

tendent à rendre les solutions plus robustes aux perturbations paramétriques et leurs profils

estimés plus stables en extrapolation. Comme cela a déjà été observé dans les précédents, les

critères et sont ici en parfaite opposition. Enfin, si certaines solution

intermédiaires des méthodes et r

, 7,eNN m q r , 7

vr

,pert

eNNm q r

présentent des profils « instables » ( > 10), les

solutions finales s’avèrent toutes extrêmement stables.

, 7,m q re

NN

a b c



verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la valeur

seuil de qualité de reproduction des données) ; (b) ; (c) .

pr

Fr

Fr , 7e

NNm q ,r

, 7,pert

eNNm q r , 7,e

NNm q r

Ensuite, la Figure V.55 représente les profils d’expression estimés après réduction

paramétrique pour la classe de gènes 8. On observe sur cette figure, ainsi que sur celles relatives aux autres classes de gènes, en annexe A.31, que les méthodes , vr r et Fr

sont

effectivement les seules à pourvoir reproduire certains profils d’expression. La valeur seuil de

0.5 pour est donc ici appropriée pour quantifier la reproduction de ces données. , 7,eNNm q r

136


Figure V.55 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle après e

NNm

réduction paramétrique pour la série temporelle complète. Courbe bleue : ; courbe vr

noire r ; courbe rouge : ; courbe verte : pr Fr ; courbe rose : Fr

. Classe de genes 8.


présents dans le réseau de régulation après les cinq réductions. Rappelons que dans ce modèle

, l’élimination d’une connexion j c ne peut survenir que si les 2 paramètres Tïj et Eïj

sont éliminés du modèle. On observe que des 3 méthodes menant à des solutions réduites

satisfaisant le critère < 0.5, la méthode

eNNm

, 7,eNNm q r

r mène à la solution la plus réduite.


réseau de régulation pour et les cinq réductions étudiées. Les barres noires eNCm


137


Modèle eNCm

La montre l’évolution des critères et en


, 7,eNCm q r , 7,

pert

eNCm q r , 7,e

NCm q rFigure V.57

a b c



verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la

valeur seuil de qualité de reproduction des données); (b) ; (c) .

pr

, 7

Fr

Fr , 7 ,e

NCm q r, 7,

pe

e r rtNCm q ,e

NCm q r

On constate que la méthode r mène à la solution la plus réduite pour < 0.5. Les

méthodes , et

, 7,eNCm q r

vr Fr

Fr mènent à des solutions moins réduites mais avec un plus

faible. On observe également que la méthode dépasse ce critère dès la première itération.

On voit ensuite que toutes les méthodes mènent à des solutions moins robustes que dans le cas

du stade embryonnaire. En effet, les valeurs de sont ici toutes supérieures à celles

de .Enfin, la plupart des méthodes conservent une valeur de proche de 1, donc de l’ordre de la variance des profils d’expression, alors que la méthode est la seule

à offrir une solution parfaitement stable selon ce critère.

, 7,reNCm q

, 7,eNCm q r

pr

pr

, 7,pert

eNCm q r

, 7 ,reNCm q

Les profils estimés par ces 5 solutions réduites pour les classes de gène 2 et 4 sont

représentés à la Figure V.58. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.32. On constate que seule les solutions obtenues par les méthodes et vr Fr

permettent de reproduire les 12 profils d’expression alors que celle obtenue par la méthode r

reproduit parfaitement 11 profils d’expression sur les 12. Les autres solutions échouent à la

reproduction de plusieurs profils.

138


a b

Figure V.58 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX après réduction

paramétrique. Courbe bleue : v ; courbe noirer r ; courbe rouge pr ; courbe vert

Fr ; courbe rose : Fr

. (a) Classe de gènes 2 ; (b) classe de gènes

: e :

4.


présents dans le réseau de régulation après les cinq réductions. Pour ce modèle, le nombre de paramètres éliminés équivaut à celui de connexions éliminées. On observe que la méthode r

mène ici à la solution la plus réduite.

a b

Figure V.59 : Nombre de paramètres (a) et de connexions (b) conservés dans le



eCNm

e) Comparaison des solutions réduites optimales

Le Tableau V.3 résume les résultats pour le série temporelle complète. La solution

réduite optimale au sens de est ( ; ). Les solutions réduites optimales au sens de

sont ( ; ), ( ;

, ,m q reNNm

eNNm vr

, 7,pertm q r e

NNm pr Fr ) et ( ; ). La solution réduite optimale selon le

niveau de réduction est ( ;

eNCm pr

eNCm r ). Les autres solutions surlignées en gris sont optimales selon

. , ,m q r

139


140

m r , 7,m q r , 7,

pertm q r , 7,m q r Npar Ncon

polNCm 0.58 0.58 1.00 216 84

0,31 13,77 0,66 228 84

vr 0,27 9,12 2,45 188 80 r 0,44 4,8 0,1 155 68

pr 0,88 0,88 0,06 227 84

Fr 0,32 1,68 0,79 187 82

eNNm

Fr 0,61 0,61 0,32 227 84

0,36 0,9 0,99 132 84

vr 0,35 1,02 0,76 108 60 r 0,47 0,65 1,17 91 43

pr 0,65 0,65 0,06 131 83

Fr 0,43 0,69 0,87 107 59

eNCm

Fr 0,34 0,81 1,01 122 74

eCNm 0,5 0,81 1,47 132 84

linm 0,37 115,7 41,93 96 84

Tableau V.3: Récapitulatif des solutions obtenues pour la série temporelle complète. Npar : nombre de paramètres (conditions initiales comprises); Ncon : nombre de connexions. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.


3.3.3. Sous-réseau du développement musculaire

Les méthodes de modélisation développées sont ensuite appliquées aux données

d’expression d’un sous-ensemble de 20 gènes impliqués dans le développement musculaire de

la drosophile (Arbeitman et al. 2002, Zhao et al. 2006). Ce sous-réseau joue en effet un rôle

clé dans le développement et la différentiation des tissus musculaires chez la drosophile

(Furlong 2004, Wilczynski & Furlong 2010). Une recherche dans la Drosophila Interactions

Database (www.droidb.org, version 2011/02) a permis de recenser 36 interactions validées

expérimentalement entre ces gènes. Au cours de cette recherche, trois types d’interactions ont

été considérées : les interactions dites « génétiques », i.e. dont on ne connaît pas le mécanisme

moléculaire ou qui sont la conséquence d’une cascade d’interactions moléculaires (Ingold

2002), les interactions entre un facteur de transcription et un gène, et enfin les interactions

entre un miARN et un gène (voir chapitre I). Les interactions protéine-protéine, ont été

exclues de la recherche car, dans cette base de données, elles sont prédites à partir de résultats

obtenus avec d’autres espèces. Le sous-réseau de régulation formé par ces 36 interactions est

représenté à la Figure V.60 :

Figure V.60 : Sous-réseau de régulation du développement musculaire de la drosophile. Graphique généré avec le programme Matlab. Les 20 gènes ont été sélectionnés à partir de leurs ontologies et de leur apparition dans la littérature (Arbeitman et al. 2002, Zhao et al. 2006). Les gènes Mhc et twi, encadrés en rouge, sont deux hubs du réseau. Les gènes tin et eve, encadrés en bleu, présentent une interaction d’auto-régulation.

141


On observe dans ce réseau la présence de deux hubs, i.e. des gènes particulièrement

connectés, Mef2 (Myocyte enhancing factor 2) et twi (twist) tous deux codant pour des

facteurs de transcription (www.flybase.org) et dont le rôle régulateur dans le développement

musculaire a été établi expérimentalement (Sandmann et al. 2006). Par ailleurs, les deux

gènes tin et eve (evenskipped) présentent une interaction d’auto-régulation (du type facteur de

transcription – gène). Enfin, on constate que chaque gène est régulé par 4 autres gènes au

maximum.

Cependant, en observant les profils d’expression de ces 20 gènes du développement

musculaire, nous avons constaté que certains d’entre eux étaient similaires. Leurs rôles dans la

régulation sont donc impossibles à dissocier sur la base des profils d’expression. Le

illustre la similarité entre les profils d’expression des gènes eve et twi. Pour rappel, afin de réduire le bruit de mesure, les 20 profils bruts

Figure

V.61( )g kY sont soumis au filtrage en moyennes

mobiles (équation V.1). On note F ( )g kY les profils filtrés obtenus.

a b Figure V.61 : Profils d’expression de deux gènes du sous-réseau musculaire.

Points : profils bruts ( )g kY Courbe : profils filtrés F ( )g kY . (a) gène eve; (b) gène twi.

Afin de résoudre ce problème, ces 20 profils ont été classifiés de la même manière que

l’ensemble des 4005 gènes étudiés par Arbeitman et al. 2002, i.e. selon la classification

hiérarchique décrite au chapitre IV section 2.2.2. Par examen visuel des profils moyens ( )c kX des classes formées en coupant l’arbre de classification à différents niveaux, le

nombre de classes a été fixé à 10. De cette classification résulte la formation de 2 classes

regroupant plusieurs gènes : la classe 1 regroupe les 8 gènes Mef2, srp, Actn, lmd, sls, flw,

Myo31DF et Myo61F et la classe 2 regroupe les 4 gènes how, twi, eve et dpp. Les 8 autres classes ne contenant qu’un seul gène. Les profils filtrés F

10 ( )g c kY des gènes des classes c=1

et c=2, translatés sur le profil F rep ( )cY k du gène représentatif de la classe, ainsi que le profil

moyen ( )c kX de cette classe, défini en (IV.16), sont représentés à la Figure V.62. Les profils

d’expression des gènes présents dans les autres classes se trouvent en annexe A.33.

142

http://www.flybase.org/


a b

Figure V.62 : Profils d’expression du sous-réseau musculaire après classification. Ligne rouge : profil rep ( )c kY du gène représentatif de la classe c ; lignes noires :

profils ( )g c kY des gènes de la classe c, translatés verticalement sur rep ( )c kY , ligne

verte : profil moyen ( )c kX de cette classe, défini comme la moyenne des profils

( )g cY k . (a) Classe 1 ; (b) Classe 2.

On constate que si la classe 2 regroupe des gènes aux profils clairement similaires, la

pertinence de la classification est moins évidente pour la classe 1. Par ailleurs on constate, à la

, que les gènes Prm et up, qui présentent a priori des ressemblances visuelles dans

leurs profils, ne sont pas regroupés et ce, même en diminuant le nombre de classes jusqu’à 7.

Ce résultat se justifie par le fait que les pics d’expression dans ces profils surviennent à des

instants certes proches mais bien distincts. Dès lors, la distance D entre ces profils est en

réalité plus importante qu’entre les profils d’autres gènes. On en déduit, d’une part, que le

choix de 10 classes formées est discutable, en tout cas en partie subjectif, et, d’autre part, que

la distance D utilisée dans cette classification est sensible au décalage dans le temps des

variations d’expression d’un profil à l’autre.

Figure V.63

a b

Figure V.63 : Profils d’expression de deux gènes du sous-réseau musculaire. Points:

profils bruts ( )g kY Courbe : profils filtrés F ( )g kY . (a) gène Prm; (b) gène up.

La Figure V.64 représente le nouveau réseau de régulation correspondant aux profils

classifiés. Dans ce réseau, chaque connexion de ou vers la classe de gènes 1 ou 2 correspond à

une ou plusieurs connexion(s) validée(s) expérimentalement avec un gène de cette classe. De

143


même, une interaction d’auto-régulation d’une classe correspond soit à une interaction d’auto-

régulation d’un gène de la classe, soit à une interaction entre deux gènes de la classe.

(Mef2)

(twi)

Figure V.64 : Sous-réseau de régulation du développement musculaire de la drosophile après classification hiérarchique. Graphique généré avec le programme Matlab.

On constate qu’il reste 19 des 36 connexions initialement présentes. Par ailleurs les deux

régulateurs principaux Mef2 et twi sont ici assignés respectivement à la classe 1 et 2. On

constate que leur rôle régulateur sur les autres gènes est toujours bien présent puisque 6 à 8

connexions partent de ces classes.

Les 10 profils moyens ( )c kX , définis comme la moyenne des profils d’expression des

gènes de chaque classe après translation sur le gène représentatif de la classe (voir chapitre

IV) sont ensuite normalisés et utilisés dans la modélisation du sous-réseau de régulation du

développement musculaire de la drosophile.

Les modèles et (modèle linéaire) ayant mené précédemment à des résultats

médiocres, le premier en termes de reproduction des données et le second en termes de

sensibilité aux perturbations paramétriques et de stabilité des profils d’expression après

extrapolation dans le temps, ils ne seront pas étudiés dans cette partie.

polNCm linm


En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux pour les trois modèles étudiés : , et . La Figure V.65a représente le pourcentage

de connexions communes aux trois modèles à chaque étape de cette construction et ce, sans

tenir compte des signes attribués à ces connexions. On constate que les réseaux formés par les

trois réseaux présentent une intersection plus importante que lors de la modélisation des autres

données. En effet, dès q>1, plus de la moitié des connexions présentes dans chaque réseau

sont communes aux trois modèles.

eNNm e

NCm eCNm

144


a b

Figure V.65 : Construction algébrique des réseaux pour les trois modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q

cS c n entre les


t

et interpolés des dérivées temporelles des profils expérimentaux en

fonction de la connectivité q. Courbe rose : ; courbe verte : ; courbe noire : . eNNm e

NCm eCNm

La Figure V.65b représente l’évolution de l’écart quadratique moyen , ( 1,..., )m q

iS i n

entre les profils estimés ddi kX

t

et interpolés des dérivées temporelles des profils

expérimentaux. On constate que cet écart est significativement plus petit pour le modèle

que pour ses cas particuliers et m . Le modèle , qui contient le plus de paramètres,

reproduit donc mieux les dérivées temporelles des profils d’expression que les modèles

et , lesquels sont identiquement efficaces.

eNNm

eNCm

eNCm e

CNeNNm

eCNm



c kX estimés par les cinq modèles m et les profils

expérimentaux ( )c kX et ce, pour q=1,…,5. La Figure V.66 représente l’évolution de cet écart

en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une

valeur de q :

,m q


c kX estimés et les profils expérimentaux ( )c kX pour les trois modèles étudiés

en fonction du nombre s de paramètres des modèles. Courbe rose : ; courbe

verte : m ; courbe noire : .

eNNm

eNC

eCNm

145


On constate que, pour le même nombre de paramètres, le modèle donne de meilleurs

résultats que le modèle N . Ensuite, on observe que le mod eNNm qui contient le plus

grand nombre de paramètres présente généralemen n ,m q plus élevé que les autres, ce

qu’on attribue à la présence de minima locaux de la fonction de coût. En initialisant les paramètres de ce modèle à la solution du odèle e

CNm (les autres paramètres étant initialisés à

zéro, on constate que ces derniers restent extrêmement faibles, ce qui traduit le fait que la recherche paramétrique locale ne permet pas de s’éloigner de la solution du modèle e

NCm .

Enfin, on voit que, pour chaque modèle, ,m q atteint ici des valeurs nettement plus élevées

que pour les données classifiées à partir des 4005 gènes de l’expérience et ce, en raison d’une

mauvaise initialisation des paramètres avant leur optimisation. Ce point sera discuté ci-après.

Enfin, on constate qu’à partir de q=4, aucune amélioration significative de ,m q n’est plus

observée. Cette valeur est donc choisie com

eNCm

eCm èle

t u

m

me qmax.

c) Comparaison des modèles étudiés On compare ensuite les trois modèles , , à q=4, selon les trois premiers

critères décrits au point 3.2.6 ainsi que sur le nombre de connexions validées

expérimentalement prédites par les modèles.

eNNm e

NCm eCNm

Reproduction des profils expérimentaux

La Figure V.67 représente les écarts , 4m q pour les trois modèles étudiés et la

montre les profils expérimentaux et estimés par ces modèles pour les gènes tin et up. Les

profils relatifs aux autres classes de gènes se trouvent en annexe A.34.

Figure

V.68

0,81

0,78

0,8

0,76

0,77

0,78

0,79

0,8

0,81

0,82

.

eNNm e

NCm eCNm

Figure V.67 : Ecart quadratique moyen , 4m q entre profils expérimentaux et

estimés pour les modèles m , , . eNN

eNCm e

CNm

On constate tout d’abord que les valeurs de , 4m q sont ici très élevées et quasiment

identiques. En effet, en examinant, à la les profils estimés par les modèles

étudiés, on constate que ces-derniers peinent à reproduire les variations brutales des profils expérimentaux. On observe ensuite que le modèle présente un légèrement plus

élevé que les deux autres modèles, qui sont en fait des cas particuliers du précédent, et que les

profils estimés par celui-ci s’avèrent en effet un peu moins aptes à suivre les tendances de

Figure V.68

eNNm , 4m q

146


tous les profils expérimentaux. On attribue ces mauvaises performances à la grande variabilité

des profils d’expression à reproduire et au nombre probablement important de minima locaux

dans la fonction de coût. Afin de rendre les réductions paramétriques praticables pour en

comparer les solutions, la valeur seuil de , 4m q à ne pas dépasser est ici fixée à 0.9.

a b

Figure V.68 : Profils expérimentaux et estimés par les modèles , , .

Points bleus : profil expérimental

eNNm e

NCm eCNm

( )c kX ; courbes : profils estimés ,ˆ (m qcX )k . Courbe

rose : ; courbe verte : ; courbe noire : .(a) Gène tin ; (b) Gène up. eNNm e

NCm eCNm

Robustesse aux perturbations paramétriques

Les paramètres identifiés sont alors perturbés successivement et la réponse des

modèles à ces perturbations est observée. La représente les valeurs de l’écart quadratique moyen entre profils expérimentaux et estimés après perturbation

paramétrique, en comparaison avec celles de l’écart

Figure V.69, 4

pertm q

, 4m q avant perturbation paramétrique. On observe ici que les modèles et sont beaucoup plus robustes aux perturbations

paramétriques que le modèle .

eNNm e

NCmeCNm

1,04 1,09

30,38

0

5

10

15

20

25

30

35

.

eNNm e

NCm eCNm


estimés et entre profils expérimentaux et estimés après perturbation des

paramètres pour les cinq modèles étudiés. Barres noires:

, 2pertm q

, 2m q ; barres grises: . , 2pertm q

147



On observe ensuite le comportement des profils estimés par les trois modèles en les

extrapolant jusqu’à la mort présumée de l’organisme τlife=80 jours (voir section 3.2.6). La

Figure V.70 montre, les valeurs de , 4m q pour les trois modèles. On observe ici que toutes

les valeurs représentées sont de l’ordre de grandeur de la variance des profils d’expression.

0,17

0,56

0,36

0

0,1

0,2

0,3

0,4

0,5

0,6

.

eNNm e

NCm eCNm


pour , , . eNNm e

NCm eCNm

Reproduction des connexions vérifiées expérimentalement

Les trois modèles obtenus sont alors comparés au réseau expérimental. On constate

que parmi les 40 connexions estimées, les modèles , , retrouvent respectivement

10 (53%), 7 (37%) et 9 (47%) des 19 connexions validées expérimentalement. Ces

connexions sont représentées à la Figure V.71.

eNNm e

NCm eCNm

a

b c

Figure V.71 : Connexions validées expérimentalement prédites par les modèles non

linéaires. Graphiques générés avec le programme Matlab. (a) ; (b) ; (c) . eNNm e

NCm eCNm

148


Notons qu’en raison de l’absence d’information quant à l’effet répresseur ou activateur

des interactions validées dans la base de données utilisée, ces études sont ici réalisées en

faisant abstraction du signe des connexions. Signalons toutefois qu’en observant tant les

interactions entre classes de gènes que les interactions d’auto-régulation, on constate que

celles-ci sont tantôt positives, tantôt négatives, contrairement à ce qui a été observé

expérimentalement pour des gènes isolés chez E. coli (Thieffry et al. 1998) pour qui une

majorité d’autorégulations négatives sont recensées.

Intersection des modèles conservés

Ces réseaux ont une connectivité de q=4, ils contiennent donc à ce niveau 10x4=40

connexions. On constate que ces trois réseaux partagent 22 connexions (55%) (sans tenir

compte des signes des connexions). En outre, des 100 connexions possibles, 40 (40%) sont

absentes dans les trois réseaux. Ainsi, ces trois solutions s’accordent sur 62% des connexions

possibles. La Figure V.72 représente ce sous-réseau d’intersection (Figure V.72a) ainsi que

les 5 connexions validées prédites par les trois modèles étudiés (Figure V.72b).

a b

Figure V.72 : (a) Intersection des réseaux de régulation des modèles ,

, sans tenir compte des signes des interactions. (b) Connexions validées

expérimentalement et prédites par ces trois modèles.

eNNm

eNCm e

CNm

149



Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles , , et les solutions réduites sont étudiées selon les quatre critères décrits en 3.2.6. e

NNm eNCm e

CNm

Modèle e

NNm

La Figure V.73 montre l’évolution des critères , et en


, 4,eNNm q r , 4,

pert

eNNm q r , 4,e

NNm q r

a b c

Figure V.73 : Evolution des critères de sélection lors de la réduction paramétrique pour

le modèle , q=4. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe verte :

; courbe rose : . (a) ; (b) ; (c) .

pr

4,rFr

Fr ,e

NNm q 4,r ,pert

eNNm q 4,r ,e

NNm q

On constate que la méthode r mène à la solution reproduisant le mieux les données, mieux

que la solution non réduite, qui était par conséquent mal optimisée, probablement en raison du

nombre élevé de paramètres de ce modèle. On observe qu’en revanche, les solutions obtenues

par cette méthode sont nettement plus sensibles aux perturbations paramétriques que les autres. La méthode mène, quant à elle, à une solution plus réduite et robuste aux

perturbations paramétriques mais avec un légèrement plus élevé qu’avant réduction. Les méthodes et mènent toutes deux à des solutions robustes et moins réduites que les deux premières méthodes. Enfin, la méthode est la seule à réduire très peu

le réseau de régulation tout en augmentant . Cette méthode s’avère donc

particulièrement peu efficace dans ce cas-ci. Enfin, toutes les méthodes conservent une valeur

de inférieures à 1, c’est-à-dire à la variance des profils d’expression. On en déduit

que tous les profils d’expression estimés par ces solutions se stabilisent à des valeurs

biologiquement plausibles.

vr

, 4,eNNm q r

, 4eNNm q

Fr

Fr

pr

r,

, 4,eNNm q r

La Figure V.74 représente les profils estimés par le modèle après réduction pour le

gène wg. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.35. On constate que la solution de la méthode r est clairement la seule à pouvoir reproduire tous les

profils d’expression.

150


Figure V.74 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle

après réduction paramétrique pour la classe de gènes 5. Points bleus : profil

expérimental

eNNm

( )c kX ; courbes : profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe

noire

vr

r ; courbe rouge : ; courbe verte : pr Fr ; courbe rose : Fr

.

Enfin, la Figure V.75 représente le nombre de paramètres (a) et de connexions (b)

conservés dans le réseau de régulation après chacune des réductions paramétriques.

a

130

61

94

129

100 100

020406080

100120140

.

40

10

3640

3632

88109

1

10

0

10

20

30

40

50

.

b

vr r pr Fr Fr

vr r pr Fr

Fr


réseau de régulation pour et les cinq méthodes de réduction. Barres noires :

solution non réduite ; barres grises : solutions réduites ; barres blanches ; connexions validées expérimentalement.

eNNm

On constate que la méthode réduit le réseau au maximum, c’est-à-dire jusqu’à ne conserver

qu’une connexion régulatrice par (classe de) gène(s), en conservant un < 0.9 alors

que les solutions des autres méthodes dépassent ce seuil plus tôt dans la réduction. Par ailleurs, la méthode , réduisant peu le réseau de régulation, conserve la totalité des

connexions validées.

vr

, 4,eNNm q r

pr

151


Modèle eNCm

La Figure V.76 montre l’évolution des critères , et


, 4,eNCm q r , 4,

pert

eNCm q r , 4,e

NCm q r

a b c


pour le modèle q=4. Courbe bleue : ; courbe noire : reNCm vr ; courbe rouge : ; courbe

verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la

valeur seuil de qualité de reproduction des données) ; (b) ; (c) .

pr

, 4

Fr

Fr ,e

NCm q 4,r

,m q4,pert

eNC r ,e

NCm q r On constate que pour ce modèle, les réductions paramétriques , vr r , et mènent à des

solutions fortement réduites, avec un

pr Fr

, 4m q proche de 0.9 et plus robustes aux perturbations paramétriques qu’avant réduction. La réduction Fr

mène à la solution la moins réduite mais

au le plus bas. Enfin, les solutions réduites présentent toutes des profils stables après

extrapolation dans le temps. Les données, en revanche, sont un peu moins bien reproduites.

L’examen, à la Figure V.77, des profils estimés par ce modèle après les 5 réductions pour la

classe 5 (composée uniquement du gène Prm) révèle les solutions réduites s’avèrent

incapables de reproduire le profil expérimental et ce, probablement en raison de la mauvaise

optimisation paramétrique de la solution non réduite. Les profils des autres classes de gènes se

trouvent en annexe A.36.

, 4m q


c kX par le modèle

après réduction paramétrique pour la classe 5. Points bleus : profil expérimental

eNCm

( )c kX ; courbes : profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe

rouge : ; courbe verte : ; courbe rose : pr Fr

Fr .

152


Enfin, la Figure V.78 montre le nombre de paramètres (a) et de connexions (b)


a

80

50 50 5057 53

0

10

20

30

40

50

60

70

80

90

.

,

40

10 10 10

1612

01310

7

05

1015202530354045

,

b vr r pr Fr

Fr vr r pr Fr

Fr



solution non réduite ; barres grises : solutions réduites ; barres blanches : connexions validées expérimentalement.

eNCm

On constate que les réductions paramétriques vr r et mènent à des solutions

réduites au maximum, i.e. en ne conservant qu’une connexion régulatrice par classe de gène. Par ailleurs, pour un nombre de connexions donné, la méthode conserve le plus de

connexions validées.

pr

pr

Modèle e

CNm

La affiche l’évolution des critères , et lors

de la réduction paramétrique.

, 4,eCNm q r , 4,

pert

eCNm q r , 4,e

CNm q r Figure V.79

a b c




pr

Fr

Fr ,e

CNm q 4,r ,pert

eCNm q 4,r , 4,e

CNm q r

153


On constate que les méthodes r et réduisent les modèles au nombre minimum de

paramètres permettant de conserver au moins une connexion régulatrice par classe de gènes. Les méthodes et

pr vr

Fr

Fr mènent à des solutions moins réduites. En outre, on observe qu’avant

d’arriver à une solution robuste aux perturbations paramétriques, les deux méthodes et vr r

passent par des solutions extrêmement sensibles à ces perturbations, comme pour la solution

non réduite. Cela signifie que même pour des structures de modèles en général très robustes

aux perturbations paramétriques, il existe des ensembles de paramètres et des perturbations

particulières auxquelles ceux-ci sont très sensibles. La Figure V.80 montre un agrandissement

de la Figure V.79b :

Figure V.80 : Evolution de lors de la réduction paramétrique ( , q=4 ) , 4,

pert

eCNm q r e

CNm

On voit sur cette figure que toutes les méthodes mènent finalement à des solutions robustes

aux perturbations paramétriques. Enfin, on constate, à la Figure V.81, que certains profils sont

toujours mal reproduits, quelle que soit la méthode de réduction paramétrique. Les profils

estimés pour les autres classes se trouvent en annexe A.37


c kX après réduction

paramétrique pour la classe 5. Points bleus : profil expérimental ( )c kX ; courbes :

profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe

verte : ; courbe rose : .

pr

Fr

Fr

154


Enfin, le nombre de paramètres et de connexions conservés dans le réseau de

régulation après chacune des réductions paramétriques sont représentés, respectivement, à la

Figure V.82a et Figure V.82b.

a

80

50 50 5060 59

0102030405060708090

.

,

40

10 10 10

20 18

32311

9

05

1015202530354045

.

b vr r pr Fr

Fr vr r pr Fr

Fr



solution non réduite ; barres grises : solutions réduites ; barres blanches : connexions validées expérimentalement.

eCNm

On constate que les réductions , vr r et ne conservent qu’une connexion régulatrice par

classe de gènes. En outre, pour un faible nombre de connexions, la méthode conserve le

plus de connexions validées.

pr

pr


Le récapitule tous les critères d’évaluation des solutions obtenues pour les trois modèles , , et les 5 réductions. On constate que, dans le cas présent,

toutes les solutions obtenues sont optimales pour au moins un des critères choisis et la plupart

des solutions sont robustes et stables. La solution réduite optimale au sens de est très clairement ( ;

Tableau V.4eNNm

r

eNCm e

CNm

, ,m q reNNm ). Les solutions réduites optimales selon le nombre de connexions après

réduction sont ( ; ) ( ; eNNm vr

eNCm r ) ( ; ) et ( ; ), ( ; e

NCm pr eCNm vr

eCNm r ), ( ; ). Les

autres solutions surlignées en gris sont optimales pour et/ou .

eCNm pr

, 4,rpertm q , ,m q r

155


m r , 4,m q r , 4,

pertm q r , 4,m q r

Npar Ncon Nvalid con

0,81 1,04 0,17 130 40 10

vr 0,89 0,92 0,32 61 10 1

r 0,57 9,02 0,27 94 36 9

pr 0,88 0,88 0,31 129 40 10

Fr 0,87 0,87 0,3 100 36 8

eNNm

Fr 0,86 0,89 0,39 100 32 8

0,78 1,09 0,56 80 40 7

vr 0,89 0,89 0,36 50 10 0

r 0,89 0,89 0,46 50 10 1

pr 0,88 0,88 0,43 50 10 3

Fr 0,86 1,05 0,52 57 16 1

eNCm

Fr 0,89 0,89 0,36 53 12 0

0,8 30,38 0,36 80 40 9

vr 0,89 0,89 0,31 50 10 1

r 0,89 0,89 0,34 50 10 1

pr 0,87 0,87 0,34 50 10 3

Fr 0,86 7,06 0,42 60 20 2

eCNm

Fr 0,88 1,07 0,4 59 18 3

Tableau V.4: Récapitulatif des solutions obtenues pour le sous-réseau de régulation du développement musculaire. Npar : nombre de paramètres ; Ncon : nombre de connexions; Nvalid con : nombre de connexions validées expérimentalement. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.

156


3.3.4. Réseaux synthétiques

Dans cette partie, les trois modèles , et sont utilisés pour reproduire des

données synthétiques générées à partir de paramètres aléatoires, comme décrit en 3.2.2. Les modèles et sont exclus de cette analyse en raison des résultats médiocres qu’ils ont

montrés dans les cas précédents. Par ailleurs, la très grande sensibilité des paramètres du

modèle linéaire rend presque impossible l’identification d’un ensemble de paramètres

aléatoires qui ne donne pas, après intégration des équations différentielles, des profils

d’expression divergents.

eNNm e

NCm eCNm

polNCm linm

Afin d’évaluer si ces modèles sont plus ou moins efficaces sur des données

synthétiques que sur des données réelles, ces réseaux aléatoires sont construits de manière à

ressembler le plus possible au sous-réseau de régulation du développement musculaire de la

drosophile, à savoir un nombre de gènes n=10, un nombre d’instants τk = 67 et une

connectivité par gène comprise entre 1 et 4. Toutefois, comme chaque modèle représente les

connexions du réseau par un certain nombre de paramètres (voir section 3.2.4), un réseau

aléatoire est construit pour chaque modèle ; les données à reproduire sont donc différentes

pour chaque modèle. Le nombre de connexions régulant chaque gène est choisi aléatoirement

entre 1 et 4 et la valeur des paramètres correspondant à ces connexions suivent une

distribution normale d’écart-type 5 et de moyenne nulle. Ces trois réseaux synthétiques

contiennent 53 à 54 connexions. Les profils d’expression obtenus en intégrant les équations

différentielles avec ces paramètres aléatoires sont ensuite bruités (bruit blanc d’écart-type

0.25 et de moyenne nulle) et utilisés comme données à reproduire. Les connexions prédites

par les modèles sont alors comparées aux connexions « réelles ». Ces dernières étant

différentes pour chaque modèle, l’intersection des réseaux formés par les différents modèles

ne sera pas étudiée.

Toutefois, il est apparu qu’en générant des réseaux synthétiques de 10 nœuds, les 10

profils résultants montraient encore des similarités. Dès lors, afin de valider les méthodes

développées sur un cas synthétique le plus proche possibles des cas réels, des réseaux

synthétiques de 20 nœuds sont générés et les 20 profils résultants sont classifiés en 10 classes

de la même manière que l’ensemble des 4005 gènes étudiés par Arbeitman et al. 2002. Les 10 profils moyens ( )c kX , définis comme la moyenne des profils d’expression des gènes de

chaque classe après translation sur le gène représentatif de la classe (voir chapitre IV) sont

ensuite normalisés et utilisés dans la modélisation du sous-réseau de régulation du développement musculaire de la drosophile. Les réseaux synthétiques des trois modèles ,

et contiennent respectivement 28, 23 et 31 connexions et sont en annexe A.38.

eNNm

eNCm e

CNm


En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux pour les trois modèles étudiés : , et (terme de transcription constant). La e

NNm eNCm e

CNm Figure

157


V.83 représente l’évolution de l’écart quadratique moyen , ( 1,..., )m qiS i n entre les profils

estimés ddi kX

t

et interpolés des dérivées temporelles des profils synthétiques.

Figure V.83 : Construction algébrique des réseaux pour les trois modèles étudiés. Evolution de l’écart quadratique moyen , ( 1,..., )m q

cS c n entre les profils estimés

ddc kX

t

et interpolés des dérivées temporelles des profils synthétiques en fonction de la

connectivité q. Courbe rose : ; courbe verte : ; courbe noire : . eNNm e

NCm eCNm

Bien que les données à reproduire soient différentes pour chaque modèle, elles ont été

générées de manière similaire. C’est pourquoi on suppose ici que les critères d’évaluation des modèles, décrits au point 3.2.6, sont comparables. On constate que le modèle offre la

meilleure reproduction des dérivées temporelles des profils d’expression et que le modèle , cas particulier du précédent, est meilleur que le modèle .

eNNm

eCNm e

NCm



c kX estimés par les trois modèles étudiés et les

profils synthétiques ( )c kX et ce, pour q=1,…,5. La Figure V.84 représente l’évolution de cet

écart en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à

une valeur de q :


c kX estimés et les profils synthétiques ( )c kX pour les trois modèles étudiés en

fonction du nombre s de paramètres des modèles. Courbe rose : ; courbe

verte : ; courbe noire : .

eNNm

eNCm e

CNm

158


On constate que, contrairement au sous-réseau du développement musculaire et à la série temporelle complète, le modèle présente ici un plus élevé que le modèle .

Ensuite, on observe que, comme dans le cas de ce sous-réseau, le modèle qui contient le

plus grand nombre de paramètres reste moins bon que les deux autres. Enfin, on voit que

atteint ici des valeurs un peu plus élevées que pour les données classifiées à partir des 4005

gènes de l’expérience. Ce résultat sera discuté au point suivant. Enfin, on constate qu’à partir

de q=4, aucune amélioration significative de n’est observée. Cette valeur est donc

choisie comme qmax.

eNCm ,m q e

CNm

,m q

eNNm

,m q

c) Comparaison des modèles étudiés On compare ensuite les trois modèles , , à q=4, selon les quatre critères

décrits au point 3.2.6.

eNNm e

NCm eCNm

Reproduction des profils synthétiques

La Figure V.85 représente les écarts , 4m q pour les trois modèles étudiés et la

montre les profils synthétiques et estimés par ces modèles pour la classe gène 3 de

chaque réseau synthétique. Pour rappel, le profil à reproduire est différent pour chaque

modèle. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.39 à A.41.

Figure

V.86

0,65

0,63

0,62

0,6

0,61

0,62

0,63

0,64

0,65

0,66

.

eNNm e

NCm eCNm

Figure V.85 : Ecart quadratique moyen , 4m q entre profils synthétiques et estimés

pour les modèles , , . eNNm e

NCm eCNm

On constate que les valeurs de sont très proches pour les trois modèles et plus élevées

que sur les données classifiées à partir des 4005 gènes de départ. En observant les profils

estimés à la Figure V.86, on constate que dans l’ensemble, les profils d’expression

synthétiques sont bien reproduits par chacun des trois modèles. Les valeurs élevées de

, 4m q

, 4m q

proviennent donc du bruit artificiel ajouté aux profils synthétiques (voir section 3.2.2). Afin

de rendre les réductions paramétriques praticables pour en comparer les solutions, la valeur

seuil de à ne pas dépasser est ici fixée à 0.7. , 4m q

159


a b c

Figure V.86 : Profils synthétiques et estimés par les modèles , , pour la

classe de gène 3. Points bleus : profil synthétique

eNNm e

NCm eCNm

( )i kX et estimés , 4m qiX̂ ( )k

. (a)

Courbe rose : ; (2) courbe verte : ; (c) courbe noire : . eNNm e

NCm eCNm

Robustesse aux perturbations paramétriques La Figure V.87 représente les valeurs de l’écart quadratique moyen entre profils

synthétiques et estimés après perturbation paramétrique, en comparaison avec celles de l’écart

avant perturbation paramétrique. On constate très clairement que les trois modèles

sont tous extrêmement robustes aux perturbations de chacun de leurs paramètres.

, 4pertm q

, 4m q

0,65

0,63

0,62

0,6

0,61

0,62

0,63

0,64

0,65

0,66

.

e

NNm eNCm e

CNm

Figure V.87 : Ecarts quadratiques moyens , 2m q entre profils synthétiques et

estimés et entre profils synthétiques et estimés après perturbation des

paramètres, pour les modèles , , . Noir :

, 2pertm q

eNNm e

NCm eCNm , 2m q ; gris : . , 2

pertm q


On observe ensuite le comportement des profils estimés par les trois modèles en les

extrapolant jusqu’à la mort présumée de l’organisme τlife=80 jours (voir section 3.2.6). La

Figure V.88 montre, les valeurs de , 4m q pour les trois modèles.

160


0,57

0,520,53

0,490,5

0,510,520,530,540,550,560,570,58

.

eNNm e

NCm eCNm


pour , , . eNNm e

NCm eCNm

On voit sur cette figure que les trois modèles présentent un comportement similaire après

extrapolation temporelle : une stabilisation des profils d’expression en moyenne à une valeur

proche de celles pendant la période de mesure.

Reproduction des connexions initiales

Les trois modèles obtenus sont alors comparés aux trois réseaux synthétiques initiaux. On constate que sur les 40 connexions que chaque modèle identifie, les modèles , et

prédisent, respectivement, 14, 10 et 13 connexions, ce qui correspond, respectivement, à

50%, 44% et 42% des connexions réelles et ce, sans tenir compte du signe des interactions.

Ainsi, les modèles développés se montrent capables de retrouver près de la moitié des

connexions présentes dans les réseaux qui ont généré les profils qu’ils cherchent à reproduire.

eNNm e

NCmeCNm


Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles , , et les 15 solutions réduites sont étudiées selon les quatre critères choisis (voir

section 3.2.6) ainsi que sur le nombre de connexions correctement prédites par les modèles.

La valeur seuil de utilisée comme critère d’arrêt des réductions paramétriques est ici

fixé à 0.7.

eNNm e

NCm eCNm

, 2m q

Modèle eNNm

La Figure V.89 montre l’évolution des critères , et en


On constate que la méthode propose des solutions à faible et très souvent plus

sensibles aux perturbations paramétriques que les méthodes

, 4,eNNm q r

e

r

, 4,pert

eNNm q r

, 4,NNm q r

, 4,eNNm q r

vr

Fr et , et qu’elle mène

finalement à la solution la plus réduite pour < 0.7. Comme fréquemment dans les cas précédents, la méthode mène à une solution très peu réduite, avec de mauvaises

performances pour les trois critères de sélections. Elle est donc tout à fait inefficace dans le

cas présent. Enfin, toutes les solutions présentent des profils très stables après extrapolation.

Fr

,eNNm q 4,r

pr

161


a b c

Figure V.89 : Evolution des critères de sélection lors de la réduction paramétrique



pr

4,Fr

Fr ,e

NNm q r 4, , 4 ,pert

eNNm q r ,e

NNm q r

La Figure V.90 représente les profils estimés par le modèle après chacune des

réductions pour les classes de gènes 7 et 8. Les profils relatifs aux autres classes de gènes se

trouvent en annexe A.42.

a b Figure V.90 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m q

c kX par le modèle

après réduction paramétrique. Points bleus : profil synthétique

eNNm

( )c kX ; courbes :


verte : ; courbe rose : . (a) Classe 7 (b) Classe 8.

pr

Fr

Fr

On observe que les profils estimés sont généralement proches pour les 5 réductions et que les

tendances générales des profils des 10 sont moyennement reproduites. Enfin, la Figure V.91

représente le nombre de paramètres (a) et de connexions (b) conservés dans le réseau de

régulation après chacune des réductions paramétriques.

162


a

130

6175

129121

100

0

20

40

60

80

100

120

140

.

40

11

21

40 3934

14

510

14 13 12

0

10

20

30

40

50

.

b

vr r pr Fr

Fr

vr r pr Fr Fr

Figure V.91 : Nombre de paramètres (a) et de connexions (b) conservés dans le réseau

de régulation pour et les cinq méthodes de réduction. Barres noires : solution non

réduite ; barres grises : solutions réduites ; barres blanches : connexions « réelles ».

eNNm

On constate que la méthode ne conserve que 11 connexions, que la méthode conserve

toutes les connexions du réseau et que la méthode vr pr

Fr n’en élimine qu’une. Enfin, on observe

que, dans chaque solution, plus d’un tiers des connexions prédites sont correctes.

Modèle eNCm

La Figure V.92 montre l’évolution des critères , et


, 4,eNCm q r , 4,

pert

eNCm q r , 4,e

NCm q r

a b c


pour le modèle q=4. Courbe bleue : ; courbe noire : reNCm vr ; courbe rouge : ; courbe


pr

Fr

Fr , 4,e

NCm q r , 4,pert

eNCm q r , 4,e

NCm q r

On constate que les méthodes , vr r et mènent aux solutions les plus réduites pour une

valeur de proche de 0.7. Les méthodes

pr

, 4,eNCm q r

Fr et Fr

mènent à des solutions moins

réduites, la première présentant le minimum et la seconde un proche de

0.7. Ensuite, on constate qu’avant d’arriver à des solutions robustes aux perturbations paramétriques, la méthode passe par des solutions un peu plus sensibles à ces

, 4 ,m q reNC , 4,e

NCm q r

pr

163


perturbations. Enfin, toutes les solutions présentent un inférieur à 1 ; leurs profils

d’expression prennent donc, après extrapolation temporelle, des valeurs très proches de celles pendant la période de mesure. On observe ensuite, à la Figure V.93, que la méthode est la

seule à pourvoir reproduire certains profils d’expression. Les profils relatifs aux autres classes

de gènes se trouvent en annexe A.43

, 4,eNCm q r

Fr

a b

Figure V.93 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m qc kX par le modèle

après réduction paramétrique. Points bleus : profil synthétique

eNCm

( )i kX ; courbes :


verte : ; courbe rose : (a) Classe 2 (b) Classe 9.

pr

Fr

Enfin, la Figure V.94 montre le nombre de paramètres (a) et de connexions (b)


a

80

50 50 5055

61

0102030405060708090

.

40

10 10 1014

20

2210

7

0

5

10

15

20

25

30

35

40

45

4

.vr r pr Fr

Fr

b vr r pr Fr

Fr




eNCm

On constate que les méthodes et vr r ne conservent qu’une connexion régulatrice par classe

de gènes et que la méthode conserve le plus de connexions réelles. Fr

164


Modèle eCNm

La affiche l’évolution des critères , et lors

de la réduction paramétrique.

, 4,eCNm q r , 4,

pert

eCNm q r , 4,e

CNm q r Figure V.95

a b c




pr

Fr

Fr ,e

CNm q 4,r ,pert

eCNm q 4,r , 4,e

CNm q r

Comme pour le modèle précédent, on constate que les méthodes , vr r et mènent aux

solutions les plus réduites pour une valeur de proche de 0.7. Les méthodes

pr

, 4,eNCm q r

Fr et

mènent à des solutions moins réduites, la première présentant le minimum et la

seconde un proche de 0.7. Ensuite, on constate qu’avant d’arriver à des solutions robustes aux perturbations paramétriques, la méthode passe par des solutions extrêmement

sensibles à ces perturbations, voire instables en extrapolation pour la méthode

Fr , 4m q ,r

r

eNC

, 4,eNCm q r

pr

. Toutefois,

contrairement au modèle linéaire, les valeurs élevées de ne correspondent pas ici à

une divergence des profils d’expression mais bien à la stabilisation d’un des profils à une

valeur très élevée. La Figure V.96 représente les profils estimés par la solution obtenue pour le modèle après élimination de 20 paramètres avec la méthode

, 4,eCNm q r

eCNm r , pour toutes les classes

de gènes.

Figure V.96 : Profils estimés par le modèle après élimination de 20 paramètres

avec la méthode

eCNm

r jusqu’à τxp = 80 jours.

165


Enfin, de manière, à pourvoir distinguer les courbes relatives aux autres méthodes de

réduction paramétrique, une version agrandie des figures précédentes est représentée à la

. Figure V.97

a b Figure V.97 : Evolution des critères d’évaluation pendant les réductions paramétriques

pour le modèle , q=4 : version agrandie. Courbe bleue : ; courbe noire reCNm vr ; courbe

rouge : ; courbe verte : ; courbe rose : pr Fr

Fr . (a) ; (b) .

,pert

eCNm q 4,r ,e

CNm q r 4,

On observe sur ces figures que les méthodes vr r pr et Fr mènent finalement à des solutions

extrêmement robustes aux perturbations paramétriques. Seule la solution de la méthode Fr

présente une légère sensibilité. Enfin, toutes les solutions présentent une valeur de

inférieure à 1 ; leurs profils d’expression prennent donc, après extrapolation temporelle, des

valeurs très proches de celles pendant la période de mesure. La Figure V.98 représente les

profils d’expression estimés après les cinq réductions. Les profils relatifs aux autres classes de

gènes se trouvent en annexe A.44.

,eNCm q 4,r

a b Figure V.98 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m q

c kX après réduction

paramétrique. Points bleus : profil synthétique ( )i kX ; courbes : profils

estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe verte :

; courbe rose : .(a) Classe de gènes 7 ; (b) classe de gènes 8.

pr

Fr

Fr

166


On observe que les profils estimés sont généralement proches pour les 5 réductions, pour les

la plupart des gènes, à l’exception de la classe 8, pour lequel seule la solution obtenue avec la réduction parvient à reproduire le pic d’expression. Enfin, le nombre de paramètres et de

connexions conservés dans le réseau de régulation après chacune des réductions

paramétriques sont représentés, respectivement, à la Figure V.99a et Figure V.99b.

Fr

a

80

50 50 5057 58

0102030405060708090

.

40

10 10 10

17 17

77535

13

0

10

20

30

40

50

.

b

vr r pr Fr Fr

vr r pr Fr

Fr




eCNm

On observe que les réductions , vr r et réduisent le nombre de paramètres à la valeur

minimale possible, à savoir pour conserver une seule connexion régulatrice par gène, ou

presque et que les méthodes et conservent le plus de connexions réelles.

pr

Fr

Fr


Le récapitule tous les critères d’évaluation des solutions obtenues pour les trois modèles , , et les 5 réductions. On constate que, comme dans le cas

précédent, toutes les solutions obtenues sont optimales pour au moins un des critères choisis

et la plupart des solutions sont robustes et stables. La solution réduite optimale au sens de

est ( ; ). Les solutions réduites optimales selon le nombre de connexions après

réduction sont, respectivement pour chaque réseau synthétique, ( ; ), ( ; ) ( ;

Tableau V.5eNNm

F

eNCm e

CNm

, ,m q r

r

eNNm r

eNNm vr

eNCm vr

eNCm

)( ; ) et ( ; ),( ; eNCm pr e

CNm vreCNm r ),( ; ). Les solutions réduites optimales selon le

nombre de connexions correctement identifiées sont, respectivement pour chaque réseau synthétique, ( ; ) ( ; ) et ( m ;

eCNm

CN Fr

pr

emNN pr eNCm Fr

e )( ;eCNm Fr

). Les autres solutions surlignées en gris

sont optimales pour et/ou . , 4,rt

m q rpe , ,m q r

167


m r , 4,m q r , 4,

pertm q r , 4,m q r

Npar Ncon Nvalid.con

0,65 0,65 0,57 130 40 14

vr 0,66 0,73 0,67 61 11 5

r 0,64 0,64 0,58 75 21 10

pr 0,67 2,34 0,56 129 40 14

Fr 0,59 0,73 0,61 121 39 13

eNNm

Fr 0,68 0,7 0,53 100 34 12

0,63 0,63 0,52 80 40 7

vr 0,69 0,69 0,5 50 10 0

r 0,69 0,69 0,51 50 10 1

pr 0,69 0,69 0,52 50 10 2

Fr 0,67 0,67 0,51 55 14 2

eNCm

Fr 0,64 0,64 0,49 61 20 4

0,62 0,62 0,53 80 40 13

vr 0,69 0,69 0,52 50 10 5

r 0,69 0,69 0,39 50 10 3

pr 0,69 0,7 0,53 50 10 5

Fr 0,6 0,66 0,54 57 17 7

eCNm

Fr 0,69 0,69 0,52 58 17 7

Tableau V.5: Récapitulatif des solutions obtenues pour les réseaux synthétiques. Npar : nombre de paramètres ; Ncon : nombre de connexions ; Nvalid con : nombre de connexions correctes ; %valid con : pourcentage de connexions correctes prédites (par rapport au nombre de connexions dans le réseau initial). Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.

168


3.4. Conclusions

L’examen des résultats ci-dessus révèle certaines tendances dans l’application des

méthodes développées aux données d’expression des gènes de la drosophile. Ces observations

permettent de discuter les modèles et méthodes de réductions étudiés ainsi que leurs

validations et de dresser certaines perspectives aux travaux accomplis.

3.4.3. Modèles développés

Modèles avant réduction

Tout d’abord, lors de la construction des réseaux de régulation, il s’avère que les

réseaux formés pour les cinq structures de modèles forment généralement des réseaux assez

différents lorsque la série temporelle complète est considérée, mais que lorsqu’un stade de

développement est étudié individuellement, 20% des connexions sont conservées par les cinq

modèles à partir de q=2. De même dans le cas du sous-réseau du développement musculaire,

les trois modèles étudiés s’accordent rapidement sur plus de la moitié de leurs connexions. Or,

ces modèles satisfont généralement aux trois premiers critères décrits en 3.2.6. On en déduit

que plusieurs solutions aux paramètres fort différentes peuvent offrir les mêmes performances

vis-à-vis des données, ce qui appuie l’hypothèse d’indétermination structurelle du le réseau de

régulation.

Modèle non linéaire (terme de transcription polynomial) polNCm

On constate que, quelle que soit la série temporelle étudiée, ce modèle reproduit

systématiquement moins bien les profils expérimentaux que les autres modèles et ce, en dépit

de l’ajout de nouvelles connexions dans le réseau de régulation. Cette constatation peut

sembler surprenante car ce modèle contient plus de paramètres que d’autres mais il est à noter

que dans ce modèle, les contraintes sur les paramètres sont plus strictes que pour les autres

modèles. En effet (voir section 3.2.4), les paramètres Acj et Bcj sont positifs par définition.

Cette réduction de l’espace des paramètres peut en partie expliquer la difficulté que ce modèle

éprouve à trouver une solution aussi bonne que celles des autres modèles. Par ailleurs, il est à

rappeler que ce modèle a initialement été développé pour représenter un réseau de régulation

entre gènes isolés et pour un organisme procaryote. Son échec sur les données d’expression

classifiées d’un organisme eucaryote montre ainsi les limites de sa validité. En revanche, il est

à noter que les solutions de ce modèle sont souvent les plus robustes aux perturbations

paramétriques.

169


Modèles non linéaire (2 termes en exponentielles), (terme de dégradation

constant) et (terme de transcription constant)

eNNm e

NCmeCNm

On observe que ces trois modèles se classent différemment selon la série temporelle

modélisée mais qu’ils permettent en général de satisfaire les exigences de robustesse et de

stabilité tout en conservant une bonne qualité de reproduction des profils expérimentaux. Le modèle reproduit généralement mieux les données que ses cas particuliers et

mais il arrive, lorsque la série temporelle étudiée est plus courte ou lorsque les mesures

présentent un bruit important, que la solution que ce modèle propose soit moins performante

que ses cas particuliers. On attribue cette incohérence apparente à la présence de minima

locaux de la fonction de coût due à un nombre trop élevé de paramètres, ce qui empêche une

bonne optimisation des paramètres. Lorsqu’un stade de développement est étudié individuellement, le modèle est systématiquement meilleur que le modèle et ce,

pour le même nombre de paramètres. Lorsque les profils à reproduire s’étendent sur toute la

période de mesure (série complète, sous-réseau musculaire), la tendance inverse est observée.

Dans le cas des réseaux synthétiques, on observe que les scores sont du même ordre de

grandeur. Rappelons toutefois que ces scores concernent des données synthétiques différentes,

et ne sont, par conséquent, pas directement comparables. Une remarque à ce sujet est que,

dans l’expression de l’évolution d’un taux d’expression, le terme de dégradation est toujours proportionnel au taux d’expression modélisé. Dès lors, le modèle comprend un terme

non linéaire et un terme linéaire alors que le modèle comprend un terme réellement

constant et un terme non linéaire. La formulation du modèle permet donc une

modélisation plus flexible. Par ailleurs, ce modèle mène généralement aux solutions réduites

les plus robustes aux perturbations paramétriques.

eNNm e

NCm

eNCm

eCNm

eCNm

eNCm

eNCm

eCNm

Modèle linéaire linm

Le modèle linéaire, quant à lui, reproduit aussi bien les profils expérimentaux que les

modèles non linéaires et ce, avec moins de paramètres. Néanmoins, il apparaît clairement,

comme cela a été discuté au début de cette approche non linéaire au point 3.1, que ce dernier

est plus mauvais que les autres, voire très médiocre, en terme de robustesse aux perturbations

paramétriques et de stabilité des profils estimés après extrapolation dans le temps, alors que

les 4 modèles non linéaires mènent généralement à des valeurs satisfaisantes et assez proches

pour ces 2 critères.

3.4.4. Méthodes de réduction paramétrique

On constate ensuite qu’il est difficile de classer les méthodes de réduction

paramétrique car il apparaît que selon la série temporelle étudiée leurs comportements

diffèrent vis-à-vis des quatre critères d’évaluation, i.e. reproduction des profils modélisés,

robustesse aux perturbations paramétriques, stabilité des profils après extrapolation

temporelle et niveaux de réduction paramétrique.

170


Réduction (élimination des paramètres à faible valeur absolue) et vr

r (élimination des paramètres influençant le moins la reproduction des données)

Ces deux méthodes de réduction paramétrique donnent en général de très bons

résultats en ce qui concerne la reproduction des données. D’une part, le critère de sélection

choisit d’éliminer les paramètres qui influencent le moins cette reproduction (en pratique pour et par définition pour vr r . D’autre part, l’élimination des paramètres est ici effectuée « un

par un », ce qui assure une bonne initialisation des paramètres avant leur optimisation. En ce

qui concerne la robustesse et la stabilité des solutions réduites, ces méthodes sont tantôt les

meilleurs tantôt les moins bonnes, mais même dans ce dernier cas, les solutions finales

obtenues restent satisfaisantes au regard de ces deux derniers critères.

Réduction (élimination des paramètres les plus sensibles aux perturbations) pr

Cette méthode de réduction paramétrique donne de très mauvais résultats dans la

plupart des cas. Les solutions réduites comprennent généralement encore beaucoup de

paramètres et les données sont parfois significativement moins bien reproduites. Par ailleurs,

dans certains cas, la solution réduite obtenue dès la première itération dépasse le critère sur

là où les solutions des deux méthodes précédentes restent en deçà de ce seuil. En effet,

l’élimination des paramètres les plus sensibles mène logiquement à une diminution de la

qualité de la reproduction des données. La question était ici de voir si cette diminution

survenait après une amélioration de la robustesse aux perturbations paramétriques. Nos

résultats montrent clairement que ce n’est pas le cas. Cette méthode est donc à éliminer.

, ,m q r

Réduction (élimination des paramètres les moins sensibles au sens de Fisher)

et (élimination des paramètres les plus sensibles au sens de Fisher) Fr

Fr

Ces deux méthodes de réduction paramétrique donnent des résultats variables selon la

structure de modèle et la série temporelle étudiée. Il arrive parfois que la solution réduite

obtenue dès la première itération dépasse le critère sur là où les solutions des deux

premières méthodes précédentes restent en deçà de ce seuil. En revanche, les niveaux de

réduction paramétrique sont en général meilleurs que pour la méthode précédente. Par

ailleurs, en ce qui concerne la robustesse aux perturbations paramétriques et la stabilité, les

solutions réduites obtenues par ces méthodes se montrent en général aussi bonnes que les

autres. Enfin, on constate que selon le modèle et la série temporelle étudiée, ces deux

méthodes mènent à tour de rôle à une solution plus robuste et plus stable. Or, les paramètres

éliminés sont choisis de manière opposée, par définition (voir section 3.2.5). On en conclut

que le critère de sensibilité au sens de Fisher, défini vis-à-vis de perturbations infinitésimales

des paramètres, ne permet pas ici de quantifier la sensibilité des paramètres vis-à-vis de

perturbations plus importantes et que la suppression des paramètres sur la base uniquement de

leur corrélation avec d’autres paramètres maintenus dans le modèle est un critère

d’élimination à tester.

, ,m q r

171


3.4.5. Sous-réseau du développement musculaire

L’application des méthodes de modélisation développées au sous-ensemble de gènes

impliqués dans le développement musculaire de la drosophile mène à des résultats

intéressants.

Tout d’abord, on constate que pour un ensemble de données a priori aussi facile à

reproduire que les autres données étudiées, les modèles s’avèrent généralement incapables de

reproduire les profils d’expression de plusieurs classes de gènes. En outre, on observe que,

dans ce cas, certaines solutions intermédiaires sont extrêmement sensibles aux perturbations

paramétriques. On attribue ces observations à la grande variabilité des profils d’expression à

reproduire. En effet, dans le cas des données classifiées à partir des 4005 gènes étudiés, les

profils à reproduire sont obtenus en calculant à chaque instant une moyenne sur tous les gènes

de chaque classe. Les profils d’expression moyens obtenus sont donc naturellement plus lisses

que les profils de gènes individuels. Dans le cas du sous-réseau musculaire, en revanche, les

classes ne contiennent que 1 à 8 gènes. Par conséquent, les profils moyens obtenus

contiennent beaucoup plus du bruit de mesure et ce, nonobstant l’effet de lissage réalisé lors

de l’étape de filtrage en moyenne mobile (voir équations V.I.). Dès lors, il apparaît que

l’initialisation des paramètres et leur optimisation échouent à trouver le minimum global de la

fonction de coût de reproduction des données. Néanmoins, on constate que seule la méthode de réduction paramétrique r permet de libérer la recherche paramétrique des minima locaux

de cette fonction de coût pour un des trois modèles étudiés. Ainsi, en réduisant le nombre de paramètres du modèle via cette méthode, on parvient à une solution tout-à-fait capable de

reproduire les profils expérimentaux. Toutefois, ce résultat s’accompagne d’une grande

sensibilité aux perturbations paramétriques et ce, en raison de la grande variabilité des profils

à modéliser. Enfin, on constate qu’avant réduction paramétrique, les modèles étudiés

retrouvent de 37 à 53% des 19 connexions validées expérimentalement et de 55 à 61% de

toutes les connexions et non connexions possibles dans ce réseau. Ainsi plus de la moitié des

interactions possibles de ce réseau sont retrouvées par nos modèles. Après réduction

paramétrique, les modèles étudiés retrouvent jusqu’à à 10 (53%) des 19 connexions validées.

eNNm

3.4.6. Réseaux synthétiques

Enfin, l’application de nos méthodes de modélisation à des données synthétiques

montre que nos modèles reproduisent très bien les données avant réduction paramétrique. Les

valeurs de score, plus élevées que sur les données classifiées à partir des 4005 gènes de

départ, proviennent du bruit artificiel ajouté aux profils synthétiques (voir section 3.2.2). Par

ailleurs, on constate qu’avant réduction paramétrique, les modèles étudiés retrouvent de 42 à

50 % des connexions réelles et de 55 à 60% de toutes les connexions et non connexions

possibles dans ce réseau. Ainsi plus de la moitié des interactions possibles de ces réseaux synthétiques sont retrouvées par nos modèles. Ensuite, on observe que le modèle mène

ici à des solutions très sensibles aux perturbations paramétriques et dont un des profils estimés

eCNm

172


173

prend des valeurs très élevées après extrapolation dans le temps alors que les autres modèles

s’avèrent très robustes. Signalons finalement que, comme les données à reproduire sont

différentes pour chaque modèle, il est possible que les performances des modèles soient

gouvernées, en partie, par la forme des profils synthétiques. Pour vérifier cette hypothèse, il

conviendrait de répéter cette étape pour plusieurs ensembles de paramètres aléatoires.

chapitre v modelisation de reseaux de regulation

Documents