modélisation de file sur une grille de calcul...blancheurblancheurdes tia des tia tests de...

Modélisation de file sur Modélisation de file sur une grille de calculune grille de calcul

Convention d’Etude Convention d’Etude IndustrielleIndustrielle

une grille de calculune grille de calcul28/03/2008

Jonathan Samama, Jonathan HorynOption ISM – 3ème année

• SUPELEC : Julien Bect, Emmanuel Vazquez• LRI : Mme Cécile Germain

1

Contexte de l’étude : la grille EGEEContexte de l’étude : la grille EGEE

La plus grande grille de calcul au monde :

�240 institutions

�45 pays

�36.000 CPU

5Po de stockage

Internet

SITE

AUTRESSITES

BROKER

�5Po de stockage

�10.000 utilisateurs

�30.000 travaux (jobs) simultanément en moyenne

2

Primergy

A B ...

Scheduler

Plan de l’étudePlan de l’étude

Problème posé :Caractérisation statistique et modélisation des

arrivées de jobs et de la charge

1. Vue d’ensemble des données

2. Etude des arrivées

3. Etude de la charge

4. Conclusions et pistes

3

1. Vue d’ensemble des données1. Vue d’ensemble des données

4

Extraction et présentation des Extraction et présentation des données disponiblesdonnées disponibles

�18 millions d’enregistrements (20 Go)

�Temps nécessaire à l’extraction sous MATLAB : 24h

�Mise en place d’outils de type BDD pour les requêtes

�CE / VO / Global ? Niveau CE retenu dans cette étude

�TOP10 des CE (en nb de jobs) = 31% des données

5


�Variables extraites et utilisées dans cette étude

� temps d’arrivée des jobs

� temps d’acceptation des jobs� temps d’acceptation des jobs

� temps de début des jobs

� temps de fin des jobs

� durée d’execution des jobs

6

0.8

1

1.2

1.4

Cum

ulat

ive

perc

enta

ge o

f jo

bs

Total nb of jobs: 1.84e+007


0 100 200 300 400 500 6000

0.2

0.4

0.6

CE rank

Cum

ulat

ive

perc

enta

ge o

f jo

bs

Pourcentage cumulé du nombre de jobs VS rang du CE

TOP30 des CE par nombre de jobs

7

Caractérisation statistique et modélisation des arrivées de jobs et de la charge

8

Etude des séries de temps inter-arrivées

Etude des séries de charge

a) Statistiques descriptives globales

b) Etude des valeurs extrêmes des TIA

2. Etude des arrivées2. Etude des arrivées

c) Non-stationnarité de l’intensité des TA et blancheur des TIA

d) Bursts dans les TA et diagrammes stalactites

9

Statistiques descriptives globalesStatistiques descriptives globales

�Temps inter-arrivées (TIA) τ(i) = Ta(i+1) - Ta(i)

500

600

700

8000

10000

12000

10

0 20 40 60 80 100 1200

100

200

300

400

0 20 40 60 80 100 1200

2000

4000

6000

8000

Moyenne et centile à 99% des TIA en fonction du rang du CE

Statistiques descriptives globalesStatistiques descriptives globales

CE n°3 (lcgce01.gridpp.rl.ac.uk)Histogramme normalisé de la distribution des temps

inter-arrivées tronquée à 2 minutes(pourcentage de garde : 92%)

CE n°97 (ramses.dsic.upv.es)Histogramme normalisé de la distribution des

temps inter-arrivées tronquée à 2 minutes(pourcentage de garde : 59%)

11

Caractéristique des TIACaractéristique des TIA

�Difficile de modéliser les TIA par des lois classiques(en particulier, fit de loi exponentielle ne convient pas)

�Comportement extrême significatif de l’inactivité des CE

� La définition de la queue de distribution résulte d’un compromiscompromis�Nb points élevé : risque de prise en compte de points n’appartenant pas à la queue

�Nb points faible : problème d’estimation des paramètres du modèle de la queue

�Choix d’un seuil u sur les TIA définissant le début de la queue de distribution

12

� La TVE est utile pour :� Modéliser le comportement de la queue de densité des TIA� Modéliser la loi des maximums

� Soit τ la V.A des TIA, la densité H de peut être modélisée par une loi de Pareto généralisée, où u est un seuil à définir

Rappels sur la tRappels sur la théorie des valeurs extrêmeshéorie des valeurs extrêmes

� Paramètres� Paramètre de forme: (queues lourdes : >0; : =0; bornée : <0)� Paramètre d’échelle: (écart type)� Paramètre de localisation: (moyenne)

13

�Si le seuil u est bien choisi, on a la relation sur l’espérance conditionnelle

Modélisation des valeurs extrêmes (I)Modélisation des valeurs extrêmes (I)

� Linéarité en u de l’espérance conditionnelle

�Méthode du Mean Excess Plot (MEP) : estimation empirique de l’espérance conditionnelle

� Identifier une zone linéaire dans le graphique

14

Modélisation des valeurs extrêmes (II)Modélisation des valeurs extrêmes (II)

� Trois zones linéaires

� On choisit le plus grand seuil possible

� Conservation d’un nombre de points suffisant pour l’estimation

600

800

1000

1200

1400

Mea

n E

xces

s

de points suffisant pour l’estimation

� Seuil =250s 2000pts

CE n°3 (lcgce01.gridpp.rl.ac.uk)Mean Excess Plot

0 100 200 300 400 500 600 700

200

400

Threshold

15

Modélisation des valeurs extrêmes (III)Modélisation des valeurs extrêmes (III)

� Allure linéaire : adéquation satisfaisante entre la queue de distribution des TIA et la loi de Pareto généralisée « fittée »

� Valeur critique à 95% :106mins Intervalle de confiance [104.45;108.47]

3

4

5

6

7

8

Exp

onen

tial Q

uant

iles

CE n°3 (lcgce01.gridpp.rl.ac.uk)Quantile Plot : Données VS Pareto “fittée”

[104.45;108.47]

0 1 2 3 4 5 6 7 8 9 10

0

1

2

Ordered Data

16

ModélisationModélisation du du processusprocessus des TAdes TA

�Intensité du processus d’arrivées�Inverse de la moyenne des TIA

�Horizon de la moyenne : jour, semaine

�Stationnarité�Moyennes, donc intensités, ne dépendent pas de la position de la fenêtre couranteposition de la fenêtre courante

�Exemple de processus stationnaire : processus de Poisson (TIA IID, suivent une loi exponentielle)

17

Stationnarité de l’intensité des TANon-vérifiée sur les CE importants

Eventuellement par plages sur les CE moins importants

NonNon--stationnaritéstationnarité de de l’intensitél’intensité des TAdes TA

0.030 50 100 150 200 250 300 350 400

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

time (in 1-day blocks)

Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

0.0105

0.011

0.0115

0.012

Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

0 50 100 150 200 250 300 350 4000

0.005

0.01

0.015

0.02

0.025


0 50 100 150 200 250 300 350 400 450 5000.009

0.0095

0.01

0.0105


Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

Processus de Poisson simulé : intensité en fonction du temps(en rouge : intensité vraie = 10-2)

CE n°3 et n° 97 :Intensité des TA en fonction du temps

18

BlancheurBlancheur des TIAdes TIA

�Tests de blancheur « portemanteau »�

�

�Statistiques de test�Box-Pierce (non implémenté) :

�Implémentation d’une statistique de test de rang issue de Dufour-Roy[1985]

19

Blancheur des TIA à l’échelle de la journéeSystématiquement rejetée sur les CE importantsPas toujours rejetée sur les CE moins importants

BlancheurBlancheur des TIAdes TIA

0 50 100 150 200 250 300 3500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Duf

our-

Roy

tes

t p-

valu

e

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9


Duf

our-

Roy

tes

t p-

valu

e

CE n°3 : p-value du test de blancheur CE n°6 : p-value du test de blancheur

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Duf

our-

Roy

tes

t p-

valu

e

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 1-day blocks)D

ufou

r-R

oy t

est

p-va

lue


20

Bursts des TABursts des TA

�Non-stationnarité : échelle d’observation différente, mieux adaptée ?

Etant donné un seuil, un burst contient tous les jobs séparés entre eux par un temps plus court que le seuil

Exemple de bursts :6 jobs séparés entre eux de moins de 10s forment un burst, et sont séparés d’un second burst de 7

jobs par un intervalle supérieur à 10s.

21


104

Ave

rage

bur

st d

urat

ion

in m

inut

es104

Ave

rage

bur

st s

ize

in n

b of

jobs

Processus de Poisson simulé (intensité 10-2) :taille et durée moyenne des bursts VS seuil

(diagrammes semi-log)

22

8 9 10 11 12 13 14 15 16 17

103

Burst threshold in minutes

Ave

rage

bur

st d

urat

ion

in m

inut

es

8 9 10 11 12 13 14 15 16 17

103


Ave

rage

bur

st s

ize

in n

b of

jobs

104

105

106

Ave

rage

bur

st d

urat

ion

in m

inut

es

104

105

106

Ave

rage

bur

st s

ize

in n

b of

jobs


0 50 100 150 200 250 300 35010

2

103


Ave

rage

bur

st d

urat

ion

in m

inut

es

0 50 100 150 200 250 300 35010

2

103


Ave

rage

bur

st s

ize

in n

b of

jobs

CE n°3 (lcgce01.gridpp.rl.ac.uk)Taille et durée moyenne des bursts VS seuil


23

104

105

106

Ave

rage

bur

st d

urat

ion

in m

inut

es

104

105

Ave

rage

bur

st s

ize

in n

b of

jobs


0 500 1000 1500 2000 2500 300010

2

103


Ave

rage

bur

st d

urat

ion

in m

inut

es

0 500 1000 1500 2000 2500 300010

2

103


Ave

rage

bur

st s

ize

in n

b of

jobs

24

CE n°97 (ramses.dsic.upv.es)Taille et durée moyenne des bursts VS seuil


�Evolution attendue des taille et durée :�Seuil diminue �taille du burst (en nb de jobs) diminue

�Seuil augmente �durée du burst (en secondes) augmente


25

Taille et durée des bursts en fonction du seuilLinéarité approchée sur les CE importants

Concavité plus importante sur les CE moins importants

durée du burst (en secondes) augmente

Intensité des TA des bursts beaucoup plus stationnaire à l’échelle de la semaine


�Intensité des TA des bursts�Inverse de la moyenne des TIA des bursts sur un CE

26

�Blancheur des TIA des bursts

Hypothèse d’indépendance des TIA des burstsnon systématiquement rejetée, même pour des CE importants

Piste encourageante !

IntensitéIntensité des TA des burstsdes TA des bursts

0 5 10 15 20 25 30 35 40 45 500.5

1

1.5

2

2.5

3

3.5x 10

-4


Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

0 10 20 30 40 50 600

1

2

x 10-4


Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

CE n°3 : intensité des TIA des bursts CE n°6 : intensité des TIA des bursts

0 10 20 30 40 50 600

1

2

x 10-4


Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

0 10 20 30 40 50 600.5

1

1.5

2

2.5

3

3.5x 10

-4


Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

CE n°13 : intensité des TIA des bursts CE n°97 : intensité des TIA des bursts

27

BlancheurBlancheur des TA des burstsdes TA des bursts

0 5 10 15 20 25 30 35 40 45 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Duf

our-

Roy

tes

t p-

valu

e

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Duf

our-

Roy

tes

t p-

valu

e


0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Duf

our-

Roy

tes

t p-

valu

e

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 7-day blocks)D

ufou

r-R

oy t

est

p-va

lue


28

�Nécessité de représenter plus de données simultanément�Temps

�Seuil

�Taille du burst

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

�Solution proposée : diagrammes stalactites

29

Lisibilité, interprétation facilitéesClassification des CE utilisant cet outilDétection offline de zones d’exceptionnelle densité


Thr

esho

ld in

min

utes

100

120

140

160

180

200

220

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250

20

40

60

80

100

0

0.1

0.2

0.3

0.4

Diagramme stalactite du CE n°6 (ce101.cern.ch) :seuil en minutes en ordonnées, temps en jours en abscisses, taille du burst en couleur

30

� Axe horizontal : temps (jours)� Axe vertical : seuil (minutes)� Couleur : taille du burst (# jobs)

Note : la couleur est normalisée par ligne

�Comment lire un diagramme stalactite :

50 100 150 200 250

20

40

60

80

100

120

140

160

180

200

220


�Comment lire un diagramme stalactite :�Sur chaque ligne, une zone claire indique un burst de petite taille, une zone foncée représente un burst plus dense

�Les traînées noires verticales indiquent des bursts qui ne sontpas divisés par division progressive du seuil

31

InterprétationPlus on divise le seuil, plus les jobs sont répartis dans des

bursts plus courts, SAUF pour certains “stalactites”


Thr

esho

ld in

min

utes

16

18

20

22

24

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350 400 450

8

10

12

14

0.1

0.2

0.3

0.4

Diagramme stalactite du processus de Poisson simulé (intensité 10-2) :seuil en minutes en ordonnées, temps en jours en abscisses, taille du burst en couleur

32

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300

50

100

150

200

250

300

350

400

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

50

100

150

200

250

300

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CE n°3 : diagramme stalactite CE n°6 : diagramme stalactite


Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

100

200

300

400

500

600

700

800

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

500

1000

1500

2000

2500

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CE n°13 : diagramme stalactite CE n°97 : diagramme stalactite

33

Conclusions sur les temps d’arrivées

�Distinction importante entre TA courts et valeurs extrêmes

�Caractéristiques inadaptées à une modélisation simple à

34

�Caractéristiques inadaptées à une modélisation simple à l’échelle des jobs

�Echelle des bursts semble plus adaptée (stationnarité, blancheur)

�Représentation stalactites pour diagnostic facilité

Caractérisation statistique et modélisation des arrivées de jobs et de la charge

35

Etude des séries de temps inter-arrivées

Etude des séries de charge

3. Etude de la charge3. Etude de la charge

a) Utilisation de la chargeb) Pré-traitement des donnéesc) Caractéristiques de la chargec) Caractéristiques de la charged) Modélisation par un ARCHe) Modélisation par un GARCH

36

Utilisation de la chargeUtilisation de la charge

�Charge

�Echantillonnage de la charge toutes les 30min

Somme des temps d’exécution des jobs dans la file d’attente du CE

�A l’instant t, le broker doit connaître la charge sur les différents CE afin de pouvoir répartir les jobs.

File d’attente : job présent à t

ExecFin d’exécution à

t+10 joursCalcul de la charge

à t possible

37

Utilisation de la chargeUtilisation de la charge

�Quantile à 95% : 10 jours

�Prédiction à plusieurs jours nécessaire

� Faible corrélation des temps d’exécution moyens, étude menée par E. Vazquez

0.5

1

1.5

2

2.5

x 105

d’exécution moyens, étude menée par E. Vazquez

38

0 100 200 300 400 500 600

0

0.5

CE n°6Histogramme des temps d’attente dans la file

(+ temps d’exécution)

PréPré--traitementtraitement des donnéesdes données

� Charge très faible sur certaines périodes

� Approche locale : fenêtrage de la charge

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure de la charge moyennée sur 4h

39

� Jobs classés par temps de fin d’exécution

� Partie linéaire

� Données enregistrées chronologiquement


30

40

50

60

chronologiquement� Exploitation de cette

période uniquement

CE n°3 (lcgce01.gridpp.rl.ac.uk)Temps d’arrivées

40

0 1 2 3 4 5 6

x 105

0

10

20

� On étudie sur une fenêtre où l’inactivité du CE n’a pas dépassé quelques heures.

� Etude propre à chaque CE


30

40

50

60

70In

ter

Arr

ival

tim

e (h

ours

)Inter Arrival time vector (hours)

� Charge moyennée sur 30min pour l’étude

CE n°3 (lcgce01.gridpp.rl.ac.uk)Temps d’arrivées

0 10 20 30 40 50 600

10

20

time (weeks)

Inte

r A

rriv

al t

ime

(hou

rs)

41

CaractéristiquesCaractéristiques de la charge (I)de la charge (I)

�Allure similaire aux séries financières:hétéroscédasticité.

Modélisation GARCH5

10

15x 10

7lo

ad(s

ec)

average load on Te=30 min

Modélisation GARCH

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure de la charge moyennée sur 30min

0 1 2 3 4 5 6 70

time(weeks)

42

� Soit la charge moyenne à l’instant n, on définit les log returns par :

CaractéristiquesCaractéristiques de la charge (II)de la charge (II)

-1

-0.5

0

0.5

1

1.5

2

valu

e of

ret

urn

Log return of average load on Te=30 min

� quantifie la variation de la charge

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure des log-returns de la charge moyennée sur 30min

0 1 2 3 4 5 6-3

-2.5

-2

-1.5

time weeks

43

�Propriétés des séries modélisées par un GARCH

�Comportement hétéroscédastique

�Faible corrélation sur .

CaractéristiqueCaractéristiques s de la charge (III)de la charge (III)

�Faible corrélation sur .

�Forte corrélation sur .

44

� Présence de corrélation sur la série des .

� Filtrage AR préalable des données.

� Choix de l’ordre du filtre: ~28

CaractéristiquesCaractéristiques de la charge (IV)de la charge (IV)

0.2

0.4

0.6

0.8

Sam

ple

Aut

ocor

rela

tion

Empirical autocorrelation of the returns

filtre: ~28

� Résidus doivent vérifier les propriétés du modèle GARCH.

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure des log-returns de la charge moyennée sur 30min

Intervalles de confiance (bleu)

0 50 100 150 200 250 300-0.2

0

0.2

Lag

Sam

ple

Aut

ocor

rela

tion

45

CaractéristiquesCaractéristiques de la charge (V)de la charge (V)

0 50 100 150 200 250 300-0.2

0

0.2

0.4

0.6

0.8

Lag

Sam

ple

Aut

ocor

rela

tion

Squarred Empirical autocorrelation of filtered load

0 50 100 150 200 250 300-0.2

0

0.2

0.4

0.6

0.8

Lag

Sam

ple

Aut

ocor

rela

tion

Empirical autocorrelation of the filtered returns

0 1 2 3 4 5 6-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

time weeks

valu

e of

ret

urn

Log return of average load on Te=30 min

Allure des log-returns de la charge moyennée sur 30 mins

� Absence de corrélation sur la série des .

Allure du carré des log-returns de la charge moyénnée sur 30 mins

� Présence de corrélation sur la série des .

� Hétéroscédasticitéconservée.

Allure des log-returns de la charge moyennée sur 30 mins

46

ModélisationModélisation ARCH (I)ARCH (I)

� La série chronologique est appelée série ARCH(p) si vérifie

� On modélise la variance conditionnellement aux observations passées de la série

� Analogie: | | ~ vitesse ; ~ accélération

47

� Choix de l’ordre du modèle : 1 à 20 (limitation convergence de l’estimation)

� Choix du type de bruit : � Loi normale � Loi de Student

� Modélisation – Validation :

ModélisationModélisation ARCH (II)ARCH (II)

� Modélisation – Validation :

� Estimation des paramètres du modèle à ordre et bruit fixés.

� Test des résidus normalisés :

� Tests sur la variance par blocs : Test de Bartlett� Tests d’adéquation de Loi : Kolmogorov-Smirnov� Tests de normalité : Shapiro-Francia,Lilliefors

48

ModélisationModélisation ARCH (III)ARCH (III)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Distribution of the standardized residuals and fitted normal distribution for ARCH(5) kurtosis = 82.357255

distribution of standardized residuals

fitted normal distribution

0.5

1

1.5

2

2.5

3

Distribution of the standardized residuals and fitted normal distribution for ARCH(2) kurtosis = 120.925965



� Modèle non adapté : rejet par tous les tests

� Kurtosis élevé loi de STUDENT pour

Allure des densités empirique des résidus normalisés et fit de la densité normale pour un ARCH(5)

Allure des densités empirique des résidus normalisés et fit de la densité STUDENT pour un ARCH(5)

� Modèle semble mieux adapté mais rejet par tous les tests

� Orientation vers le modèle GARCH

-20 -15 -10 -5 0 50

-20 -15 -10 -5 0 50

49

ModélisationModélisation GARCH (I)GARCH (I)

� La série chronologique est appelée série GARCH(p,q) si vérifie

� Il s’agit d’un modèle ARCH auquel on a ajouté partie autorégressive sur la variance conditionnelle

50

� Le choix de l’ordre s’effectue empiriquement : p,q < 5

� On ne rejette plus les tests d’adéquation à la loi de STUDENT pour un GARCH(1,3)

Modélisation GARCH (II)Modélisation GARCH (II)

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Distribution of the standardized residuals and fitted normal distribution for GARCH(1,3) kurtosis = 123.774746



pour un GARCH(1,3)

Allure des densités empirique des résidus normalisés et fit de la densité STUDENT pour un GARCH(1,3)

-30 -25 -20 -15 -10 -5 0 5 100

0.1

0.2

51

Conclusions et Conclusions et pistespistes de de rechercherecherche

�Essentiellement découverte et analyses simples des données

�Temps inter-arrivées

� Pistes de modélisation si choix de l’échelle adapté

Valeurs extrêmes : intérêt pour le diagnostic de pannes, etc.

52

� Valeurs extrêmes : intérêt pour le diagnostic de pannes, etc.

�Charge

� Etude préliminaire avec outils de séries chronologiques classiques – utilisation possible des modèles APGARCH

� Pas de résultat de prédiction (dans cette étude)

modélisation de file sur une grille de calcul...blancheurblancheurdes tia des tia tests de...

Documents