modélisation de file sur une grille de calcul...blancheurblancheurdes tia des tia tests de...

52
Modélisation de file sur Modélisation de file sur une grille de calcul une grille de calcul Convention d’Etude Convention d’Etude Industrielle Industrielle une grille de calcul une grille de calcul 28/03/2008 Jonathan Samama, Jonathan Horyn Option ISM – 3 ème année SUPELEC : Julien Bect, Emmanuel Vazquez LRI : Mme Cécile Germain 1

Upload: others

Post on 15-Jul-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Modélisation de file sur Modélisation de file sur une grille de calculune grille de calcul

Convention d’Etude Convention d’Etude IndustrielleIndustrielle

une grille de calculune grille de calcul28/03/2008

Jonathan Samama, Jonathan HorynOption ISM – 3ème année

• SUPELEC : Julien Bect, Emmanuel Vazquez• LRI : Mme Cécile Germain

1

Page 2: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Contexte de l’étude : la grille EGEEContexte de l’étude : la grille EGEE

La plus grande grille de calcul au monde :

�240 institutions

�45 pays

�36.000 CPU

5Po de stockage

Internet

SITE

AUTRESSITES

BROKER

�5Po de stockage

�10.000 utilisateurs

�30.000 travaux (jobs) simultanément en moyenne

2

Primergy

A B ...

Scheduler

Page 3: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Plan de l’étudePlan de l’étude

Problème posé :Caractérisation statistique et modélisation des

arrivées de jobs et de la charge

1. Vue d’ensemble des données

2. Etude des arrivées

3. Etude de la charge

4. Conclusions et pistes

3

Page 4: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

1. Vue d’ensemble des données1. Vue d’ensemble des données

4

Page 5: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Extraction et présentation des Extraction et présentation des données disponiblesdonnées disponibles

�18 millions d’enregistrements (20 Go)

�Temps nécessaire à l’extraction sous MATLAB : 24h

�Mise en place d’outils de type BDD pour les requêtes

�CE / VO / Global ? Niveau CE retenu dans cette étude

�TOP10 des CE (en nb de jobs) = 31% des données

5

Page 6: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Extraction et présentation des Extraction et présentation des données disponiblesdonnées disponibles

�Variables extraites et utilisées dans cette étude

� temps d’arrivée des jobs

� temps d’acceptation des jobs� temps d’acceptation des jobs

� temps de début des jobs

� temps de fin des jobs

� durée d’execution des jobs

6

Page 7: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

0.8

1

1.2

1.4

Cum

ulat

ive

perc

enta

ge o

f jo

bs

Total nb of jobs: 1.84e+007

Extraction et présentation des Extraction et présentation des données disponiblesdonnées disponibles

0 100 200 300 400 500 6000

0.2

0.4

0.6

CE rank

Cum

ulat

ive

perc

enta

ge o

f jo

bs

Pourcentage cumulé du nombre de jobs VS rang du CE

TOP30 des CE par nombre de jobs

7

Page 8: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Caractérisation statistique et modélisation des arrivées de jobs et de la charge

8

Etude des séries de temps inter-arrivées

Etude des séries de charge

Page 9: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

a) Statistiques descriptives globales

b) Etude des valeurs extrêmes des TIA

2. Etude des arrivées2. Etude des arrivées

c) Non-stationnarité de l’intensité des TA et blancheur des TIA

d) Bursts dans les TA et diagrammes stalactites

9

Page 10: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Statistiques descriptives globalesStatistiques descriptives globales

�Temps inter-arrivées (TIA) τ(i) = Ta(i+1) - Ta(i)

500

600

700

8000

10000

12000

10

0 20 40 60 80 100 1200

100

200

300

400

0 20 40 60 80 100 1200

2000

4000

6000

8000

Moyenne et centile à 99% des TIA en fonction du rang du CE

Page 11: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Statistiques descriptives globalesStatistiques descriptives globales

CE n°3 (lcgce01.gridpp.rl.ac.uk)Histogramme normalisé de la distribution des temps

inter-arrivées tronquée à 2 minutes(pourcentage de garde : 92%)

CE n°97 (ramses.dsic.upv.es)Histogramme normalisé de la distribution des

temps inter-arrivées tronquée à 2 minutes(pourcentage de garde : 59%)

11

Page 12: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Caractéristique des TIACaractéristique des TIA

�Difficile de modéliser les TIA par des lois classiques(en particulier, fit de loi exponentielle ne convient pas)

�Comportement extrême significatif de l’inactivité des CE

� La définition de la queue de distribution résulte d’un compromiscompromis�Nb points élevé : risque de prise en compte de points n’appartenant pas à la queue

�Nb points faible : problème d’estimation des paramètres du modèle de la queue

�Choix d’un seuil u sur les TIA définissant le début de la queue de distribution

12

Page 13: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� La TVE est utile pour :� Modéliser le comportement de la queue de densité des TIA� Modéliser la loi des maximums

� Soit τ la V.A des TIA, la densité H de peut être modélisée par une loi de Pareto généralisée, où u est un seuil à définir

Rappels sur la tRappels sur la théorie des valeurs extrêmeshéorie des valeurs extrêmes

� Paramètres� Paramètre de forme: (queues lourdes : >0; : =0; bornée : <0)� Paramètre d’échelle: (écart type)� Paramètre de localisation: (moyenne)

13

Page 14: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

�Si le seuil u est bien choisi, on a la relation sur l’espérance conditionnelle

Modélisation des valeurs extrêmes (I)Modélisation des valeurs extrêmes (I)

� Linéarité en u de l’espérance conditionnelle

�Méthode du Mean Excess Plot (MEP) : estimation empirique de l’espérance conditionnelle

� Identifier une zone linéaire dans le graphique

14

Page 15: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Modélisation des valeurs extrêmes (II)Modélisation des valeurs extrêmes (II)

� Trois zones linéaires

� On choisit le plus grand seuil possible

� Conservation d’un nombre de points suffisant pour l’estimation

600

800

1000

1200

1400

Mea

n E

xces

s

de points suffisant pour l’estimation

� Seuil =250s 2000pts

CE n°3 (lcgce01.gridpp.rl.ac.uk)Mean Excess Plot

0 100 200 300 400 500 600 700

200

400

Threshold

15

Page 16: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Modélisation des valeurs extrêmes (III)Modélisation des valeurs extrêmes (III)

� Allure linéaire : adéquation satisfaisante entre la queue de distribution des TIA et la loi de Pareto généralisée « fittée »

� Valeur critique à 95% :106mins Intervalle de confiance [104.45;108.47]

3

4

5

6

7

8

Exp

onen

tial Q

uant

iles

CE n°3 (lcgce01.gridpp.rl.ac.uk)Quantile Plot : Données VS Pareto “fittée”

[104.45;108.47]

0 1 2 3 4 5 6 7 8 9 10

0

1

2

Ordered Data

16

Page 17: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

ModélisationModélisation du du processusprocessus des TAdes TA

�Intensité du processus d’arrivées�Inverse de la moyenne des TIA

�Horizon de la moyenne : jour, semaine

�Stationnarité�Moyennes, donc intensités, ne dépendent pas de la position de la fenêtre couranteposition de la fenêtre courante

�Exemple de processus stationnaire : processus de Poisson (TIA IID, suivent une loi exponentielle)

17

Stationnarité de l’intensité des TANon-vérifiée sur les CE importants

Eventuellement par plages sur les CE moins importants

Page 18: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

NonNon--stationnaritéstationnarité de de l’intensitél’intensité des TAdes TA

0.030 50 100 150 200 250 300 350 400

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

time (in 1-day blocks)

Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

0.0105

0.011

0.0115

0.012

Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

0 50 100 150 200 250 300 350 4000

0.005

0.01

0.015

0.02

0.025

time (in 1-day blocks)

0 50 100 150 200 250 300 350 400 450 5000.009

0.0095

0.01

0.0105

time (in 1-day blocks)

Est

imat

ed in

tens

ity a

ssum

ing

rene

wal

-pro

cess

beh

avio

ur

Processus de Poisson simulé : intensité en fonction du temps(en rouge : intensité vraie = 10-2)

CE n°3 et n° 97 :Intensité des TA en fonction du temps

18

Page 19: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

BlancheurBlancheur des TIAdes TIA

�Tests de blancheur « portemanteau »�

�Statistiques de test�Box-Pierce (non implémenté) :

�Implémentation d’une statistique de test de rang issue de Dufour-Roy[1985]

19

Blancheur des TIA à l’échelle de la journéeSystématiquement rejetée sur les CE importantsPas toujours rejetée sur les CE moins importants

Page 20: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

BlancheurBlancheur des TIAdes TIA

0 50 100 150 200 250 300 3500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 1-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

time (in 1-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

CE n°3 : p-value du test de blancheur CE n°6 : p-value du test de blancheur

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 1-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

0 50 100 150 200 250 300 350 4000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 1-day blocks)D

ufou

r-R

oy t

est

p-va

lue

CE n°13 : p-value du test de blancheur CE n°97 : p-value du test de blancheur

20

Page 21: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Bursts des TABursts des TA

�Non-stationnarité : échelle d’observation différente, mieux adaptée ?

Etant donné un seuil, un burst contient tous les jobs séparés entre eux par un temps plus court que le seuil

Exemple de bursts :6 jobs séparés entre eux de moins de 10s forment un burst, et sont séparés d’un second burst de 7

jobs par un intervalle supérieur à 10s.

21

Page 22: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Bursts des TABursts des TA

104

Ave

rage

bur

st d

urat

ion

in m

inut

es104

Ave

rage

bur

st s

ize

in n

b of

jobs

Processus de Poisson simulé (intensité 10-2) :taille et durée moyenne des bursts VS seuil

(diagrammes semi-log)

22

8 9 10 11 12 13 14 15 16 17

103

Burst threshold in minutes

Ave

rage

bur

st d

urat

ion

in m

inut

es

8 9 10 11 12 13 14 15 16 17

103

Burst threshold in minutes

Ave

rage

bur

st s

ize

in n

b of

jobs

Page 23: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

104

105

106

Ave

rage

bur

st d

urat

ion

in m

inut

es

104

105

106

Ave

rage

bur

st s

ize

in n

b of

jobs

Bursts des TABursts des TA

0 50 100 150 200 250 300 35010

2

103

Burst threshold in minutes

Ave

rage

bur

st d

urat

ion

in m

inut

es

0 50 100 150 200 250 300 35010

2

103

Burst threshold in minutes

Ave

rage

bur

st s

ize

in n

b of

jobs

CE n°3 (lcgce01.gridpp.rl.ac.uk)Taille et durée moyenne des bursts VS seuil

(diagrammes semi-log)

23

Page 24: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

104

105

106

Ave

rage

bur

st d

urat

ion

in m

inut

es

104

105

Ave

rage

bur

st s

ize

in n

b of

jobs

Bursts des TABursts des TA

0 500 1000 1500 2000 2500 300010

2

103

Burst threshold in minutes

Ave

rage

bur

st d

urat

ion

in m

inut

es

0 500 1000 1500 2000 2500 300010

2

103

Burst threshold in minutes

Ave

rage

bur

st s

ize

in n

b of

jobs

24

CE n°97 (ramses.dsic.upv.es)Taille et durée moyenne des bursts VS seuil

(diagrammes semi-log)

Page 25: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

�Evolution attendue des taille et durée :�Seuil diminue �taille du burst (en nb de jobs) diminue

�Seuil augmente �durée du burst (en secondes) augmente

Bursts des TABursts des TA

25

Taille et durée des bursts en fonction du seuilLinéarité approchée sur les CE importants

Concavité plus importante sur les CE moins importants

durée du burst (en secondes) augmente

Page 26: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Intensité des TA des bursts beaucoup plus stationnaire à l’échelle de la semaine

Bursts des TABursts des TA

�Intensité des TA des bursts�Inverse de la moyenne des TIA des bursts sur un CE

26

�Blancheur des TIA des bursts

Hypothèse d’indépendance des TIA des burstsnon systématiquement rejetée, même pour des CE importants

Piste encourageante !

Page 27: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

IntensitéIntensité des TA des burstsdes TA des bursts

0 5 10 15 20 25 30 35 40 45 500.5

1

1.5

2

2.5

3

3.5x 10

-4

time (in 7-day blocks)

Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

0 10 20 30 40 50 600

1

2

x 10-4

time (in 7-day blocks)

Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

CE n°3 : intensité des TIA des bursts CE n°6 : intensité des TIA des bursts

0 10 20 30 40 50 600

1

2

x 10-4

time (in 7-day blocks)

Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

0 10 20 30 40 50 600.5

1

1.5

2

2.5

3

3.5x 10

-4

time (in 7-day blocks)

Est

imat

ed b

urst

sta

rt t

imes

inte

nsity

ass

umin

g re

new

al-p

roce

ss b

ehav

iour

CE n°13 : intensité des TIA des bursts CE n°97 : intensité des TIA des bursts

27

Page 28: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

BlancheurBlancheur des TA des burstsdes TA des bursts

0 5 10 15 20 25 30 35 40 45 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 7-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 7-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

CE n°3 : p-value du test de blancheur CE n°6 : p-value du test de blancheur

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 7-day blocks)

Duf

our-

Roy

tes

t p-

valu

e

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

time (in 7-day blocks)D

ufou

r-R

oy t

est

p-va

lue

CE n°13 : p-value du test de blancheur CE n°97 : p-value du test de blancheur

28

Page 29: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

�Nécessité de représenter plus de données simultanément�Temps

�Seuil

�Taille du burst

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

�Solution proposée : diagrammes stalactites

29

Lisibilité, interprétation facilitéesClassification des CE utilisant cet outilDétection offline de zones d’exceptionnelle densité

Page 30: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

Thr

esho

ld in

min

utes

100

120

140

160

180

200

220

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250

20

40

60

80

100

0

0.1

0.2

0.3

0.4

Diagramme stalactite du CE n°6 (ce101.cern.ch) :seuil en minutes en ordonnées, temps en jours en abscisses, taille du burst en couleur

30

Page 31: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Axe horizontal : temps (jours)� Axe vertical : seuil (minutes)� Couleur : taille du burst (# jobs)

Note : la couleur est normalisée par ligne

�Comment lire un diagramme stalactite :

50 100 150 200 250

20

40

60

80

100

120

140

160

180

200

220

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

�Comment lire un diagramme stalactite :�Sur chaque ligne, une zone claire indique un burst de petite taille, une zone foncée représente un burst plus dense

�Les traînées noires verticales indiquent des bursts qui ne sontpas divisés par division progressive du seuil

31

InterprétationPlus on divise le seuil, plus les jobs sont répartis dans des

bursts plus courts, SAUF pour certains “stalactites”

Page 32: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

Thr

esho

ld in

min

utes

16

18

20

22

24

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350 400 450

8

10

12

14

0.1

0.2

0.3

0.4

Diagramme stalactite du processus de Poisson simulé (intensité 10-2) :seuil en minutes en ordonnées, temps en jours en abscisses, taille du burst en couleur

32

Page 33: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300

50

100

150

200

250

300

350

400

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

50

100

150

200

250

300

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CE n°3 : diagramme stalactite CE n°6 : diagramme stalactite

DiagrammesDiagrammes stalactitesstalactites des TIAdes TIA

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

100

200

300

400

500

600

700

800

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Time in days

Thr

esho

ld in

min

utes

50 100 150 200 250 300 350

500

1000

1500

2000

2500

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CE n°13 : diagramme stalactite CE n°97 : diagramme stalactite

33

Page 34: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Conclusions sur les temps d’arrivées

�Distinction importante entre TA courts et valeurs extrêmes

�Caractéristiques inadaptées à une modélisation simple à

34

�Caractéristiques inadaptées à une modélisation simple à l’échelle des jobs

�Echelle des bursts semble plus adaptée (stationnarité, blancheur)

�Représentation stalactites pour diagnostic facilité

Page 35: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Caractérisation statistique et modélisation des arrivées de jobs et de la charge

35

Etude des séries de temps inter-arrivées

Etude des séries de charge

Page 36: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

3. Etude de la charge3. Etude de la charge

a) Utilisation de la chargeb) Pré-traitement des donnéesc) Caractéristiques de la chargec) Caractéristiques de la charged) Modélisation par un ARCHe) Modélisation par un GARCH

36

Page 37: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Utilisation de la chargeUtilisation de la charge

�Charge

�Echantillonnage de la charge toutes les 30min

Somme des temps d’exécution des jobs dans la file d’attente du CE

�A l’instant t, le broker doit connaître la charge sur les différents CE afin de pouvoir répartir les jobs.

File d’attente : job présent à t

ExecFin d’exécution à

t+10 joursCalcul de la charge

à t possible

37

Page 38: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Utilisation de la chargeUtilisation de la charge

�Quantile à 95% : 10 jours

�Prédiction à plusieurs jours nécessaire

� Faible corrélation des temps d’exécution moyens, étude menée par E. Vazquez

0.5

1

1.5

2

2.5

x 105

d’exécution moyens, étude menée par E. Vazquez

38

0 100 200 300 400 500 600

0

0.5

CE n°6Histogramme des temps d’attente dans la file

(+ temps d’exécution)

Page 39: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

PréPré--traitementtraitement des donnéesdes données

� Charge très faible sur certaines périodes

� Approche locale : fenêtrage de la charge

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure de la charge moyennée sur 4h

39

Page 40: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Jobs classés par temps de fin d’exécution

� Partie linéaire

� Données enregistrées chronologiquement

PréPré--traitementtraitement des donnéesdes données

30

40

50

60

chronologiquement� Exploitation de cette

période uniquement

CE n°3 (lcgce01.gridpp.rl.ac.uk)Temps d’arrivées

40

0 1 2 3 4 5 6

x 105

0

10

20

Page 41: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� On étudie sur une fenêtre où l’inactivité du CE n’a pas dépassé quelques heures.

� Etude propre à chaque CE

PréPré--traitementtraitement des donnéesdes données

30

40

50

60

70In

ter

Arr

ival

tim

e (h

ours

)Inter Arrival time vector (hours)

� Charge moyennée sur 30min pour l’étude

CE n°3 (lcgce01.gridpp.rl.ac.uk)Temps d’arrivées

0 10 20 30 40 50 600

10

20

time (weeks)

Inte

r A

rriv

al t

ime

(hou

rs)

41

Page 42: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

CaractéristiquesCaractéristiques de la charge (I)de la charge (I)

�Allure similaire aux séries financières:hétéroscédasticité.

Modélisation GARCH5

10

15x 10

7lo

ad(s

ec)

average load on Te=30 min

Modélisation GARCH

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure de la charge moyennée sur 30min

0 1 2 3 4 5 6 70

time(weeks)

42

Page 43: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Soit la charge moyenne à l’instant n, on définit les log returns par :

CaractéristiquesCaractéristiques de la charge (II)de la charge (II)

-1

-0.5

0

0.5

1

1.5

2

valu

e of

ret

urn

Log return of average load on Te=30 min

� quantifie la variation de la charge

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure des log-returns de la charge moyennée sur 30min

0 1 2 3 4 5 6-3

-2.5

-2

-1.5

time weeks

43

Page 44: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

�Propriétés des séries modélisées par un GARCH

�Comportement hétéroscédastique

�Faible corrélation sur .

CaractéristiqueCaractéristiques s de la charge (III)de la charge (III)

�Faible corrélation sur .

�Forte corrélation sur .

44

Page 45: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Présence de corrélation sur la série des .

� Filtrage AR préalable des données.

� Choix de l’ordre du filtre: ~28

CaractéristiquesCaractéristiques de la charge (IV)de la charge (IV)

0.2

0.4

0.6

0.8

Sam

ple

Aut

ocor

rela

tion

Empirical autocorrelation of the returns

filtre: ~28

� Résidus doivent vérifier les propriétés du modèle GARCH.

CE n°3 (lcgce01.gridpp.rl.ac.uk)Allure des log-returns de la charge moyennée sur 30min

Intervalles de confiance (bleu)

0 50 100 150 200 250 300-0.2

0

0.2

Lag

Sam

ple

Aut

ocor

rela

tion

45

Page 46: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

CaractéristiquesCaractéristiques de la charge (V)de la charge (V)

0 50 100 150 200 250 300-0.2

0

0.2

0.4

0.6

0.8

Lag

Sam

ple

Aut

ocor

rela

tion

Squarred Empirical autocorrelation of filtered load

0 50 100 150 200 250 300-0.2

0

0.2

0.4

0.6

0.8

Lag

Sam

ple

Aut

ocor

rela

tion

Empirical autocorrelation of the filtered returns

0 1 2 3 4 5 6-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

time weeks

valu

e of

ret

urn

Log return of average load on Te=30 min

Allure des log-returns de la charge moyennée sur 30 mins

� Absence de corrélation sur la série des .

Allure du carré des log-returns de la charge moyénnée sur 30 mins

� Présence de corrélation sur la série des .

� Hétéroscédasticitéconservée.

Allure des log-returns de la charge moyennée sur 30 mins

46

Page 47: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

ModélisationModélisation ARCH (I)ARCH (I)

� La série chronologique est appelée série ARCH(p) si vérifie

� On modélise la variance conditionnellement aux observations passées de la série

� Analogie: | | ~ vitesse ; ~ accélération

47

Page 48: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Choix de l’ordre du modèle : 1 à 20 (limitation convergence de l’estimation)

� Choix du type de bruit : � Loi normale � Loi de Student

� Modélisation – Validation :

ModélisationModélisation ARCH (II)ARCH (II)

� Modélisation – Validation :

� Estimation des paramètres du modèle à ordre et bruit fixés.

� Test des résidus normalisés :

� Tests sur la variance par blocs : Test de Bartlett� Tests d’adéquation de Loi : Kolmogorov-Smirnov� Tests de normalité : Shapiro-Francia,Lilliefors

48

Page 49: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

ModélisationModélisation ARCH (III)ARCH (III)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Distribution of the standardized residuals and fitted normal distribution for ARCH(5) kurtosis = 82.357255

distribution of standardized residuals

fitted normal distribution

0.5

1

1.5

2

2.5

3

Distribution of the standardized residuals and fitted normal distribution for ARCH(2) kurtosis = 120.925965

distribution of standardized residuals

fitted normal distribution

� Modèle non adapté : rejet par tous les tests

� Kurtosis élevé loi de STUDENT pour

Allure des densités empirique des résidus normalisés et fit de la densité normale pour un ARCH(5)

Allure des densités empirique des résidus normalisés et fit de la densité STUDENT pour un ARCH(5)

� Modèle semble mieux adapté mais rejet par tous les tests

� Orientation vers le modèle GARCH

-20 -15 -10 -5 0 50

-20 -15 -10 -5 0 50

49

Page 50: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

ModélisationModélisation GARCH (I)GARCH (I)

� La série chronologique est appelée série GARCH(p,q) si vérifie

� Il s’agit d’un modèle ARCH auquel on a ajouté partie autorégressive sur la variance conditionnelle

50

Page 51: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

� Le choix de l’ordre s’effectue empiriquement : p,q < 5

� On ne rejette plus les tests d’adéquation à la loi de STUDENT pour un GARCH(1,3)

Modélisation GARCH (II)Modélisation GARCH (II)

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Distribution of the standardized residuals and fitted normal distribution for GARCH(1,3) kurtosis = 123.774746

distribution of standardized residuals

fitted normal distribution

pour un GARCH(1,3)

Allure des densités empirique des résidus normalisés et fit de la densité STUDENT pour un GARCH(1,3)

-30 -25 -20 -15 -10 -5 0 5 100

0.1

0.2

51

Page 52: Modélisation de file sur une grille de calcul...BlancheurBlancheurdes TIA des TIA Tests de blancheur «portemanteau» Statistiques de test Box-Pierce (non implémenté) : Implémentation

Conclusions et Conclusions et pistespistes de de rechercherecherche

�Essentiellement découverte et analyses simples des données

�Temps inter-arrivées

� Pistes de modélisation si choix de l’échelle adapté

Valeurs extrêmes : intérêt pour le diagnostic de pannes, etc.

52

� Valeurs extrêmes : intérêt pour le diagnostic de pannes, etc.

�Charge

� Etude préliminaire avec outils de séries chronologiques classiques – utilisation possible des modèles APGARCH

� Pas de résultat de prédiction (dans cette étude)