chaîne de calcul ipsl - niveau 2 avril 2013

83
Chaîne de calcul IPSL - niveau 2 avril 2013

Upload: harding-potter

Post on 03-Jan-2016

24 views

Category:

Documents


0 download

DESCRIPTION

Chaîne de calcul IPSL - niveau 2 avril 2013. Plan. Présentation du pôle de modélisation Présentation du modèle IPSL-CM5 Rappel du fonctionnement de la chaine Surveillance de la chaîne de calcul Travaux pratiques personnalisés. Le pôle de modélisation du climat. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Chaîne de calcul IPSL  - niveau 2 avril 2013

Chaîne de calcul IPSL - niveau 2avril 2013

Page 2: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 3: Chaîne de calcul IPSL  - niveau 2 avril 2013

Le pôle de modélisation du climat

• 80 personnes, coordinateur Jean-Louis Dufresne, dir adj IPSL• Missions :

– Fédérer les études multidisciplinaires (scientifiques ou techniques) faisant intervenir les composantes du modèle de l'IPSL

– Identifier et coordonner les simulations de référence– Fédérer et rationaliser les moyens, les développements

techniques– Animation scientifique

• Modèle climat :– Atmosphère– Océan et glace de mer– Surfaces continentales– Cycle du carbone– Chimie

• IPSLCM5• Earth System Model

3

Le modèle climat IPSL

Page 4: Chaîne de calcul IPSL  - niveau 2 avril 2013

Modeling platform (IPSL-ESM)Arnaud Caubel (LSCE) - Marie-Alice Foujols (IPSL)

Data Archive and Access RequirementsSébastien Denvil (IPSL) - Karim Ramage (IPSL)

Atmospheric and surface physics and dynamics (LMDZ)

Frédéric Hourdin (LMD) - Laurent Fairhead (LMD)

Ocean and sea ice physics and dynamics (NEMO, LIM)

C Ethé (IPSL) - Claire Lévy - Gurvan Madec (LOCEAN)

Atmosphere and ocean interactions (IPSL-CM, different resolutions)

Sébastien Masson (LOCEAN) - Olivier Marti (LSCE)

Biogeochemical cycles (PISCES)Laurent Bopp (LSCE) - Patricia Cadule (IPSL)

Current and future climate changes

Jean-Louis Dufresne(LMD) - Olivier Boucher (LMD)

Paleoclimate and last millennium

Pascale Braconnot - Masa Kageyama (LSCE)

“Near-term” prediction (seasonal to decadal)

Eric Guilyardi (LOCEAN) - Juliette Mignot (LOCEAN)

Evaluation of the models, present-day and future climate change analysis

Sandrine Bony (LMD) - Patricia Cadule (IPSL) - Marion Marchand (LATMOS) - Juliette Mignot

(LOCEAN) – Jérôme Servonnat (LSCE)

Regional climatesRobert Vautard (LSCE), Laurent Li (LMD)Atmospheric chemistry and aerosols (INCA,

INCA_aer, Reprobus)Anne Cozic (LSCE) - M. Marchand (LATMOS)

Continental processes (ORCHIDEE)Philippe Peylin (LSCE) - Josefine Ghattas (IPSL)

Organisation du pôle de modélisation du climatResp: J-L Dufresne; Bureau: L. Bopp, MA Foujols, J. Mignot

Comité de pilotage

Page 5: Chaîne de calcul IPSL  - niveau 2 avril 2013

Groupe de travail Plate-formecoordination M-A. Foujols, A. Caubel

• Ancien nom ESCI : Equipe Système Climat IPSL• 40 personnes ( 15 régulières )• Missions :

– Organiser les développements techniques en accord avec les activités scientifiques du pôle

– Assurer le lien et la cohérence des développements entre les différentes composantes et le modèle couplé IPSLCM5

– Support aux utilisateurs des modèles, liste entraide : [email protected]

– Documentation– Animation technique, formations– Veille technologique

• Organisation : 1 réunion/mois (Jussieu et LSCE)• liste interne : [email protected]

Page 6: Chaîne de calcul IPSL  - niveau 2 avril 2013

forge.ipsl.jussieu.fr/igcmg

Page 7: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 8: Chaîne de calcul IPSL  - niveau 2 avril 2013

Le modèle climat de l’IPSL : IPSLCM5

IPSL

Page 9: Chaîne de calcul IPSL  - niveau 2 avril 2013

IPSLCM5

Carbone / CO2 (Orchidée, Pisces)

Ozone strato. (Reprobus)

Émissions

Utilisation des sols

VolcansInsolation

Physique – Transport

•Atmosphère (LMDZ)

•Surface (ORCHIDEE)

•Océan (NEMO)

•Glace de mer (LIM)

•Coupleur (OASIS)

Modèle du système Terre (ESM)

Climat global

Climat régional

LMDZ zoomé

Chimie tropo & aérosols (INCA)

Page 10: Chaîne de calcul IPSL  - niveau 2 avril 2013

lmdz.lmd.jussieu.fr

Page 11: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 12: Chaîne de calcul IPSL  - niveau 2 avril 2013

http://www.nemo-ocean.eu/

Page 13: Chaîne de calcul IPSL  - niveau 2 avril 2013

19 vert. levelsAtmosphère et surf. continentale

(LMDZ - ORCHIDEE)

Océan et glace de mer(ORCA-LIM)

coupleur(OASIS)

Résolutions:

Atm: 3.75°x2.5° (~350 km)

Oce: 2°x2° reserré à l’équateur

Les grilles horizontales - couplage - 3 exécutables

Page 14: Chaîne de calcul IPSL  - niveau 2 avril 2013

History of IPSLCM model since 2004

Frozen IPSLCM4

for CMIP3/ IP

CC AR4

Carbon configurations fo

r CMIP3/AR4

2004 2005

from IPSLCM4_v1 …

2006 2007 2008 2009

IPSLCM5A-LR : r

eady for C

MIP5

… to IPSLCM5A …

Oasis3 : IP

SLCM4_OASIS3

LMDZ and Orch

idee // IPSLCM4_v2

NEMO for o

cean : IPSLCM5

Carbon cycle

included : IP

SLCM5_v3

20112010

IPSLCM5A-M

R : 144x1

42x39

New physic

: LMZ5B IP

SLCM5B

IO se

rver

iomput for o

cean : IPSLCM5

libIGCM : IPSLCM4_OASIS3

Increasin

g of reso

lution fo

r atm

New dynamica

l core fo

r atm

Increasin

g of reso

lution fo

r oce

an

NEC SX-9

Operationnal o

n vargas,

titane (3

2 procs)

… and prepare the next generation

Implici

t usa

ge of MPI/O

penMP

Page 15: Chaîne de calcul IPSL  - niveau 2 avril 2013

Petit rappel historique

Nouvel exercice GIEC 2010-2012

IPSLCM4_v1

IPSLCM4_v2

IPSLCM5A

IPSL_ESM_V1

2004 – IPCC/AR4, paléo, land use, …

2007 Parallélisme MPI LMDZ-ORCHIDEEScripts libIGCM

IPSLCM4_LOOP

Cycle du carbone : Stomate (ORCHIDEE) et PISCES (OPA)

Chimie - Aérosols

NEMO : physique validée, ajout PISCES IPSLCM5_vx

Forcages INCA, REPROBUS

Juin 20102011 : en routine sur titane/vargas

2012 curie au TGCClibIGCM v2 : pack

2013 ada à l'IDRIS

IPSLCM5A-B

IPSLCM5_v5

Page 16: Chaîne de calcul IPSL  - niveau 2 avril 2013

Modèles de l'IPSL pour CMIP5

LMDZ-ORCHIDEE-ORCA-LIM-PISCES-INCA-REPROBUS-OASIS

IPSL-CM5AModèle intégré du système

Terre (ESM)

IPSL-CM5A-MR Moyenne résolutionatm: 2.5°x1.25°L39

oce: 2° L31

IPSL-CM5BIdem IPSL-CM5A, avec modèle

atmosphérique LMDZ5B

IPSL-CM5A-LR Basse résolutionatm: 3.75°x2°L39

oce: 2° L31

IPSL-CM5B-LR Basse résolutionatm: 3.75°x2°L39

oce: 2° L31

Page 17: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 18: Chaîne de calcul IPSL  - niveau 2 avril 2013

Eléments techniques : parallélisme, HPC

• Composantes seules : parallélisme MPI et mixte MPI/OpenMP utilisation de fichiers de forçages

• Couplé ou MPMD : 3 composantes au moins : coupleur, atmosphère, océan

chacune MPI ou MPI/OpenMP avec nombre différent de tâches les serveurs d'IO

ajout des composantes imbriquées : 5 exécutables ajout OpenMP en routine

• Codes écrits en Fortran, sauf exception• Beaucoup de sorties

NetcDF librairie IOIPSL serveur : XIOS : en attaché/détaché

• Grand challenge au CINES, SGI, > 2000 procs• Couplé LMDZ 1/3°- OASIS -NEMO 1/4°

Page 19: Chaîne de calcul IPSL  - niveau 2 avril 2013

Evolutions prévues à court terme :

• Physique : nouvelle physique LMDZ• Plus de résolutions, Pulsation et S Masson• Des ensembles, S Denvil tests actuels• Des simulations plus longues, P Braconnot • Des modèles plus complexes à bon escient: ajout de

la chimie A Cozic• Plus grand nombre de processeurs : cœur

dynamique de LMDZ sur grille icosaédrique, Y Meurdesoif

• Optimisations des IO, XIOS, Y Meurdesoif• de l'ensemble de la chaine: modipsl/libIGCM, ...

Contraintes ressources calcul, données, réseau

Page 20: Chaîne de calcul IPSL  - niveau 2 avril 2013

Quelques Enjeux pour les simulations climatiquesDes questions de plus en plus précises impliquant :

de nombreuses échelles de temps et d’espace (global au local, quelques années à quelques décennies)

Evolution des caractéristiques de la météorologies et de la variabilité climatique (heure à décennale)

Couplages entre le climat et les cycles biogéochimiques (gaz à effet de serre, aérosols, cycle du carbone, utilisation des terres,…)

Ens

embl

es

Résolu

tion

Complexité

GIEC (simulations coordonnées) : Ensembles de projections climatiques suivant

différents scénarios socioéconomiques

À 3° de résolution : 380 cœurs pendant 2 ans (exercice actuel) À 2° de résolution : 840 cœurs pendant 2 ans (exercice en cours) À 1/3° de résolution : 500000 cœurs pendant 2 ans (à venir?)

Page 21: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 22: Chaîne de calcul IPSL  - niveau 2 avril 2013

Récupération de la configuration

Compilation

Soumission/Exécution

Visualisation/comparaison des résultats

Description d’une expérience

Assemblage du modèle

Modipsl

Machines

LibIGCM

IOserver

Documentation

Support

Formation

Accés aux résultats

Serveurs CVS/SVN

Environnement

Page 23: Chaîne de calcul IPSL  - niveau 2 avril 2013

Définition : plateforme qui permet, sur les centres de calcul usuels : • de récupérer des configurations de référence• de compiler :

– les sources des différentes composantes– les interfaces de couplage (océan-atmosphère) et le coupleur

• de réaliser une expérience type fournie (y compris fichiers entrée), • de suivre son exécution, • de produire et stocker des résultats bruts, • de produire, stocker et rendre accessible des ATLAS et analyses

systématiques

Le modèle climat de l’IPSL

Page 24: Chaîne de calcul IPSL  - niveau 2 avril 2013

Deux centres de calcul privilégiés

Calcul Ada (10 624 cores, 233 Tflops) : 332 nodes, 4 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (32 cores/node), 128Go/nodes (4Go/core)

Turing (65 536 cores, 836 Tflops) : 4.096 nœuds de calcul, PowerPC A2 (16 cores/node), 16 Go/node (1G/core)

Post Ada : 4 nœuds 4 proc Intel Westmere 8-cœurs à 2,67GHz (32cores/node), 1 To (32 Go/core) Fichiers Gaya, transferts des fichiers dods : http://dods.idris.fr Assistance [email protected], 01-69-35-85-55Infos www.idris.fr

Calcul Curie NF (80 640 cores, 1,6 Pflops) 5 040 thin nodes, 2 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (16 cores/node), 64Go/nodes (4Go/core)

Curie NL (11 520 cores) 90 fat nodes, 16 proc Nehalem-EX 8-cœurs à 2,27 GHz (128 cores/node), 512Go/nodes (4Go/core)

Titane (1 596 cores, 836 Tflops) 1596 nœuds de calcul, 2 proc Intel Xeon 8 cœurs à 2,93 GHz (8 cores/node), 24 Go/node (3G/core)

Post Curie NL, titaneFichiers $CCCWORKDIR, $CCCSTOREDIR, quotas : ccc_quota dods : http://dods.extra.cea.fr/work, http://dods.extra.cea.fr/store Assistance [email protected], 01-77-57-42-42Infos curie.info

Page 25: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl → Une configuration contient les sources des modèles, les outils de lancement basés sur libIGCM (driver et card) et les paramètres d'entrée

Les configurations cohérentes avec IPSLCM5A :

IPSLCM5A : Modèle couplé standard LMDZ-ORCHIDEE-NEMO-PISCES, utilisé pour CMIP5. Responsable A. Caubel

LMDZOR_v4 : Modèle forcé LMDZ-ORCHIDEE. Responsable J. Ghattas. Même réglage que LMDZ4OR_v3.

LMDZORINCA : Modèle avec chimie troposphère LMDZ-ORCHIDEE-INCA. Responsable A. Cozic

IPSLCM5A_C : Comme IPSLCM5A mais avec des versions des composants différentes Responsable P. Cadule

IPSLCM5B : Comme IPSLCM5A mais avec la nouvelle physique dans LMDZ. Responsable L. Fairhead

Page 26: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl → « La famille v5 » : Refonte des configurations pour améliorer le cohérence entre les différentes configurations et faciliter leur utilisation. Les réglages pour une composante restent les mêmes dans toutes les configurations dans la même famille.

Les configurations dans la famille v5 :

IPSLCM5_v5 : Correspond à IPSLCM5A et 5B. Responsable A. Caubel

LMDZOR_v5 : Prend la suite de LMDZOR_v4. Responsable J. Ghattas

LMDZORINCA_v5 : Correspond au LMDZORINCA mais les réglages ont un peu changé pour correspondre à IPSLCM5_v5. Responsable A. CozicLMDZREPR_v5 : Avec chimie stratosphère LMDZ-Reprobus. Responsable J. GhattasIPSLCM5CHT_v5 : Comme IPSLCM5_v5 avec INCA. Responsable A. CozicIPSLCM5CHS_v5 : Comme IPSLCM5_v5 avec Reprobus. Responsable M. Marchand

Page 27: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl

Autre configurations :

NEMO : Modèle forcée de l'océan OPA-LIM-PISCES. Responsable C. Ethé.

ORCHIDEE_TAG : Modèle forcé de surface ORCHIDEE, contient le dernier tag de ORCHIDEE (actuellement 1.9.6). Responsable J. Ghattas.

ORCHIDEE_SVN_AR5 : Modèle forcé de surface ORCHIDEE, contient le version utilisé pour CMIP5 de ORCHIDEE. Responsable J. Ghattas.

Recommandation générale : prévenir lors de nouvelles études basées sur une de ces configurations, en particulier pour les modèles couplés

Page 28: Chaîne de calcul IPSL  - niveau 2 avril 2013

Récupérer, compiler et lancer une configuration de type _v5

1. Accès à MODIPSL svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl

2. Accès à IPSLCM5Acd modipsl/util ; ./model IPSLCM5_v5

3. Installation des Makefilescd modipsl/util ; ./ins_make

4. Compilation cd modipsl/config/IPSLCM5_v5 ; gmake + resolution choisie

5. Installation de l’expérience type (et post-traitements) cp EXPERIMENT/IPSLCM5/piControl/config.card . vi config.card ### JobName=MYEXP ../../util/ins_job ### recopie repertoire piControl dans MYEXP

avec COMP, DRIVER, PARAM

6. Soumission du Job de lancement cd modipsl/config/IPSLCM5A/MYEXP; ccc_msub Job_MYEXPllsumbmit Job_MYEXP

Page 29: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulGestion des sources des composantes

IPSL Serveur cvs/svn

LibIGCM

Récupération de la configuration

Compilation

Exécution/ lancement du run

Connexion

Fron

tale

Description de la simulation

Modipsl

LibIGCM Choix des réglages physiques

Page 30: Chaîne de calcul IPSL  - niveau 2 avril 2013

Script de référence : AA_Job

PeriodLength

Page 31: Chaîne de calcul IPSL  - niveau 2 avril 2013

Schéma de la librairie de scripts libIGCMEXP00 EXP00/COMP

Page 32: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 33: Chaîne de calcul IPSL  - niveau 2 avril 2013

Comment vérifier que cela s’est bien passé?

• Message de fin de simu reçu

• run.card : PeriodState=Completed

• Fichiers sur le serveur de fichiers

• Post-traitements lancés puis finis

• ATLAS et monitoring sur serveur dods

modipsl

MY_EXPERIENCE

config

EXP00

IPSLCM5_v5

Job_EXP00 COMP PARAMconfig.cardrun.card.initrun.cardScript_Output*

en décalé

DRIVER

Page 34: Chaîne de calcul IPSL  - niveau 2 avril 2013

A la fin d’une expérience, vous recevrez un message de ce type :

Dear user, Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301

Message en fin de simulation

Page 35: Chaîne de calcul IPSL  - niveau 2 avril 2013

Arborescences sur serveur de fichiers IDRIS

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL RESTART

JobName

ATM DEBUGICE

AnalyseOutput

[INS]DA [HF]

MO

gaya: cd IGCM_OUT

SE

MBG SBG

NCRCAT

Fichiers archivés à la fréquence définie (PackFrequency)

TAR

MONITORINGATLAS

Page 36: Chaîne de calcul IPSL  - niveau 2 avril 2013

Arborescences sur serveurs de fichiers TGCC

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL RESTART

JobName

ATM DEBUGICE

AnalyseOutput

[INS]DA [HF]

MO

cd $CCCSTOREDIR/IGCM_OUT

SE

MBG SBG

NCRCAT

Fichiers archivés à la fréquence définie (PackFrequency)

TAR

cd $CCCWORKDIR/IGCM_OUT

IPSLCM5A/DEVT/pdControl

MONITORING

JobName

ATLAS

Page 37: Chaîne de calcul IPSL  - niveau 2 avril 2013

Simulations avec libIGCM : les optionsSimulations avec libIGCM : les options

Job_EXP00Job_EXP00create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoringrebuildrebuild

RebuildFrequency=1Y, PackFrequency=NONE, mode « Sans pack » (IDRIS-vargas)

Job_EXP00Job_EXP00create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoring

RebuildFrequency=NONE, PackFrequency=NONE(ou absent), mode « DEBUG » ou « TEST »

rebuild onlinerebuild online

2007

2010

Job_EXP00Job_EXP00

create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoringrebuildrebuild

pack_restartpack_debugpack_restartpack_debug

pack_outputpack_output

RebuildFrequency=1Y, PackFrequency=1Y, mode « Avec pack » (CCRT-TGCC et IDRIS-ada)

2012

Page 38: Chaîne de calcul IPSL  - niveau 2 avril 2013

Les utilitaires de pack

• pack_restart.job : archive, avec tar, les restart par période « PackFrequency »

• pack_debug.job : archive, avec tar, les fichiers debug par période « PackFrequency »

• pack_output.job : • concatène, avec ncrcat, les fichiers output (netcdf) par période « PackFrequency »

• est lancé par le job de rebuild

Page 39: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st

ada

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

RebuildFrequency PackFrequency

$WORKDIR/REBUILD $WORKDIR/IGCM_OUT

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debug

pack_restartpack_debug

PackFrequency

$WORKDIR/IGCM_OUT gaya : IGCM_OUT

Post

gaya:IGCM_OUTdods.idris.fr

pack_outputpack_output

create_tscreate_ts create_secreate_se

SeasonalFrequency

gaya : IGCM_OUT

monitoringmonitoring atlasatlas

Post

TimeSeriesFrequency

ada

ada

ada

tar

ncrcat

IDRIS

Page 40: Chaîne de calcul IPSL  - niveau 2 avril 2013

Les machines et espaces disques de l’IDRIS en une figure

dodsdods

$HOME

$HOME

$WORKDIR $WORKDIR

Bandes robotisées

Machines

résultats

Petits fichiers vitaux

Espaces disques $HOME

$TMPDIR

sourcesREBUILD temporaires

IGCM_OUT : fichiers à packersorties des post-

traitements

gayatous résultats

gayatous résultats

mfput/mfget

dods_cp

mfput/mfget

dmput/dmget

Février 2013

calculcalcul

interactifinteractif adacalculada

calcul

adagrosse

mémoire

adagrosse

mémoire

adafrontale

adafrontale

turingfrontaleturing

frontaleturingcalculturingcalcul

Espace temporaire

Espace sauvegardé

Espace non sauvegardé

Espacesur bandes

$TMPDIR $TMPDIR

Page 41: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st

titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

titane, curie

RebuildFrequency PackFrequency

$SCRATCHDIR/IGCM_OUT

PeriodLength PeriodLength PeriodLength

rebuildrebuild

PackFrequency

$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR

Post

titane, curie

TS et SE : $CCCSTOREDIR/IGCM_OUT/… dods/storeMONITORING et ATLAS : $CCCWORKDIR dods/work

create_tscreate_ts create_secreate_se

SeasonalFrequency

$CCCSTOREDIR/IGCM_OUT

titane, curiemonitoringmonitoring atlasatlas

Post

TimeSeriesFrequency

TGCC

$SCRATCHDIR/REBUILD

tar

ncrcat

pack_restartpack_debug

pack_restartpack_debug

pack_outputpack_output

Page 42: Chaîne de calcul IPSL  - niveau 2 avril 2013

Les machines et espaces disques du TGCC en une figure

curienœuds hybrides

-q hybrid

curienœuds hybrides

-q hybrid

curienœuds fins-q standard

curienœuds fins-q standard

curienœuds larges

-q xlarge

curienœuds larges

-q xlarge

dods/storedods/store

$HOME

$CCCSTOREDIR

$CCCWORKDIR

$SCRATCHDIR

HPSS : Bandes robotisées

curiefrontale

curiefrontale

Machines de calcul

sourcesrésultats

MONITORING/ATLAS

REBUILD temporairesIGCM_OUT :

fichiers à packersorties des post-

traitements

résultats Analyse SE et TS

Petits fichiers vitauxsauvegardés

Espaces disques

dods_cp

cp

ccc_hsm get

airainfrontaleairain

frontaleairaincalculairaincalcul

cpdods/workdods/workdods_cp

Février 2013Espace

temporaire Espace

sauvegardéEspace non sauvegardé

Espacesur bandes

calculcalcul

interactifinteractif

quotasquotas

Page 43: Chaîne de calcul IPSL  - niveau 2 avril 2013

Nombre de fichiers : historical

Sans Pack Pack 1 an Pack 5 ans

Output (ncrcat) 59 904 4 992 1 000

Analyse TS 1 700 1 700 1 700

Analyse SE 255 255 255

Restart (tar) 16 848 156 32

Debug (tar) 20 592 156 32

Exe 3 3 3

MONITORING (work)

400 0 0

ATLAS (work) 19 400 0 0

TOTAUX 121 000 7 262 3 019

Page 44: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 45: Chaîne de calcul IPSL  - niveau 2 avril 2013

1 : Suivi de la simulation

2 : Vérification, correction

Page 46: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Il est indispensable de surveiller très régulièrement sa simulation !!!

• RunChecker : script (libIGCM) à lancer pour obtenir des informations sur l’état d’une (ou plusieurs) simulations.

• Documentationhttp://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi

Suivi de la simulation

Page 47: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : usage et options

• Le script peut être lancé de n'importe où :

path/to/libIGCM/RunCkecker.job [-u user] [-q] [-j n] [-s] [-p path] job_name -u user : lance le Checker sur la simulation d'un autre utilisateur-q : mode silencieux-j n : affiche n jobs de post-traitement (10 par défaut)-s : recherche d'une simulation non référencée $WORKDIR pour l'ajouter à son catalogue personnel de simulations avant d'afficher les informations-p path : pour donner le chemin !!!absolu!!! du répertoire contenant le config.card à la place du job_name. A donner une fois seulement. Ensuite le nom de la simulation suffit.

1) path/to/libIGCM/RunCkecker.job -p $CCCWORKDIR/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.rcp45CMR2

2) path/to/libIGCM/RunCkecker.job v5.rcp45CMR2

Page 48: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : exemple de simulation OK

Page 49: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : exemple de simulation « à problèmes »

Page 50: Chaîne de calcul IPSL  - niveau 2 avril 2013

Si souci, vous recevrez un message de ce type :

Dear user, Simulation v5.historicalCMR5 is failed on supercomputer curie2024. Job started : 18500101 Job ended : 20051231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5

Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5/REBUILD

Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5

Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.historicalCMR5

Message signalant un problème : failed

Page 51: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)

D’où vient le problème ?

• Job calcul (1 mail failed)

Pb machine ? on sait pas trop : on relance : path/to/libIGCM/clean_month.job

ccc_msub (llsubmit) Job_...

Page 52: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)

D’où vient le problème ?

• Job calcul (1 mail failed) : analyse du Script_outputxxxx

######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################

http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output

Page 53: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)• --> Regarder en détail le sous-

répertoire Debug• Regarder le fichier xxxxx_error dans

le répertoire Debug/

– Contient le texte de sortie de LMDZLMDZ s’arrête souvent dans hgardfou Stopping in hgardfou

– Contient les erreurs brutales de toutes les composantes

• Regarder le fichier texte de sortie de NEMO, ORCHIDEE, INCA, OASIS

– Debug/xxxx_ocean.output

– Debug/xxxx_output_orchidee

– Debug/xxxx_inca.out

– Debug/xxxx_cplout

Page 54: Chaîne de calcul IPSL  - niveau 2 avril 2013

DebugPar ex : Valeurs « étranges » dans un fichier

de sortie

• Execution (1er niveau debug)– Space name=TEST dans config.card, pas de

pack, tout sur $SCRATCHDIR(curie) ou $WORKDIR(ada).

– Rebuildfrequency à 1 période (1M) dans config.card

• Execution (2ème niveau debug)– Durée de simulation +Rebuildfrequency à 1

période (1M) dans config.cardou– Durée de simulation +Rebuildfrequency à 1

période (1M) dans config.card– RUN_DIR_PATH=…/rep/debug sur le

$SCRATCHDIR(curie) ou $WORKDIR(ada) + + Jobtype=DEV dans Job_...

– Analyse du $RUN_DIR_PATH– (Pas de rebuild (niveau expert !) : supprimer les

fichiers outputs des cards)

Page 55: Chaîne de calcul IPSL  - niveau 2 avril 2013

DebugPar ex : Plantage inexpliqué

• Dans Debug/out_execution : indices sur le modèle qui plante ?

forrtl: severe (174): SIGSEGV, segmentation fault occurredImage PC Routine Line Sourcep25mpava_lmdz.x_2 0000000000EF005B Unknown Unknown

Unknownp25mpava_lmdz.x_2 00000000006F293D Unknown Unknown

Unknownp25mpava_lmdz.x_2 00000000006BB58F Unknown Unknown

Unknownp25mpava_lmdz.x_2 0000000000477A6F Unknown Unknown

Unknownp25mpava_lmdz.x_2 0000000000457C99 Unknown Unknown

Unknownp25mpava_lmdz.x_2 00000000004568BC Unknown Unknown

Unknownlibc.so.6 00000034AB81ECDD Unknown Unknown Unknownp25mpava_lmdz.x_2 00000000004567B9 Unknown Unknown

Unknown

Compilation du modèle en mode « debug » Execution Si toujours rien, utiliser un débugueur (voir la

documentation)

Page 56: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)

Pb Job calcul : relance (après correctif éventuel)– relance avec clean_month :

path/to/libIGCM/clean_month.job

ccc_msub (llsubmit) Job_...

Page 57: Chaîne de calcul IPSL  - niveau 2 avril 2013

Pb !

STOP (Fatal dans run.card)

Page 58: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)

• Vous avez reçu 2 messages failed, ou le RunChecker est anormal.

• Etudiez la situation :• cas simple :

• Relancer un rebuild ou pack_debug ou pack_restart

• Relancer un pack_output• cas plus compliqué :

• utiliser clean_year pour revenir à la date saine

• trous à reboucherpath/to/libIGCM/

clean_year.job [SSAA] avec SSAA = année jusqu'à laquelle

on efface tout (incluse). • poursuivre la simulation

Page 59: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Cela peut être nécessaire pour boucher un trou• Trous évités avec suivi régulier de la simulation • Les configurations actuelles sont reproductibles à

l'identique, si fichier Bands identique. • Voir trusting : http://webservices.ipsl.jussieu.fr/trusting/• Principe :

– mettre en place une simulation avec SpaceName=REDO– faire tourner une période complète, pack inclus– Repérer et recopier les fichiers de l'espace REDO vers PROD, et

seulement ceux-ci• Détails :

– fichier Bands– fichier meshmask si océan– RESTART 1 seul– config.card

• SpaceName=REDO• Dates• Pas de TS ou SE

Refaire tourner une simulation à l'identique

REDO

PROD

Page 60: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes)

• Tout s’est bien passé • Mail de fin de simulation• Aucune anomalie RunChecker

• TimeSeriesChecker (et SE_checker) : vérifie les séries temporelles existantes et relance les jobs create_TS nécessaires pour reconstruire les TS manquantes.

• Rappel : • les rebuilds lancent automatiquement les

pack, ainsi que les TS et SE en découlant.

• les pack, TS et SE peuvent être relancés séparement (sans passer par les rebuilds)

Page 61: Chaîne de calcul IPSL  - niveau 2 avril 2013

The END ! (enfin...ou déjà )

[email protected] pour communiquer entre utilisateurs.

Page 62: Chaîne de calcul IPSL  - niveau 2 avril 2013

Cas particulier : IPSLCM5A-MR

• Voir : platform/documentation/configuration/IPSLCM5#IPSLCM5A-MR

• MR : Attention au rebuild

– sur curie, les rebuild du MR prennent plus de 24h. Il faut utiliser une astuce pour pouvoir les faire.

– Tourner dans /tmp (SSD), RUN_DIR_PATH=/tmp/REBUILD_$$– -q standard, noeud fin– -x, réserver le noeud entier (16 cores)– 1h40 pour les rebuild historical au lieu de 18h à 30h

• Réduire les tailles des Chunck• TagName, pmagic, ...

Page 63: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Modifier/créer un fichier de type EXP_../POST/monitoring01_model.cfg

• Attention : il faut que les variables que l'on veut visualiser dans les monitoring soient sorties en time series

#----------------------------------------------------------------------------------------------------------------# field | files patterns | files additionnal | operations | title | units | calcul of area#-----------------------------------------------------------------------------------------------------------------NOX_surf_global | "NO NO2" | LMDZ4.0_9695_grid.nc | "(NO[d=1,k=19]+NO2[d=2,k=19])" | " NOX a la surface" | "VMR" | "aire[d=3]"

CH4_surf_global | "CH4" | LMDZ4.0_9695_grid.nc | "CH4[d=1,k=19]" | " CH4 a la surface" | "VMR" | "aire[d=2]"

CO_surf_global | "CO" | LMDZ4.0_9695_grid.nc | "CO[d=1,k=19]" | " CO a la surface" | "VMR" | "aire[d=2]"

O3_surf_global | "_O3" | LMDZ4.0_9695_grid.nc | "O3[d=1,k=19]" | " O3 a la surface" | "VMR" | "aire[d=2]"

HNO3_surf_global | "HNO3" | LMDZ4.0_9695_grid.nc | "HNO3[d=1,k=19]" | " HNO3 a la surface" | "?" | "aire[d=2]"

Les monitorings

Page 64: Chaîne de calcul IPSL  - niveau 2 avril 2013

http://webservices.ipsl.jussieu.fr/monitoring/tmp/fegg_plot01_wHiyP3_prod/

Page 65: Chaîne de calcul IPSL  - niveau 2 avril 2013

InterMonitoring – tutoriel

• Vidéo du tutoriel : http://dods.ipsl.jussieu.fr/brocksce/screencast/InterMonitoring.html

Page 66: Chaîne de calcul IPSL  - niveau 2 avril 2013

IGCMG Web services http://webservices.ipsl.jussieu.fr/monitoring/

Page 67: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 68: Chaîne de calcul IPSL  - niveau 2 avril 2013

Fin…blabla

Page 69: Chaîne de calcul IPSL  - niveau 2 avril 2013

Atelier personnalisé• Questions?

Page 70: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Modipsl : outil d’extraction, de préparation en fonction de la machine, de compilation des modèles pour créer les exécutables.

Introduction – FAQ : http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation

• IOIPSL : librairie commune qui gère les Entrées-Sorties (fichiers de sorties, restarts) au format NetCDF dans les modèles de l’IPSL.

• Rebuild : outil pour recombiner les fichiers créés par sous-domaine, tourne maintenant sur les frontales, en asynchrone

• IOserver : outil gérant les Entrées/Sorties, piloté par fichier xml, capable de tourner en mode asynchrone sur 1 ou plusieurs procs.

Les outils : MODIPSL, IOIPSL, Rebuild et IOserver

Page 71: Chaîne de calcul IPSL  - niveau 2 avril 2013

OutilsNCO/netCDFRnetcdf/3.6.3 + 4hdf5 udunitsferretnetpbmimagemagicktetex-latexCDORSYNCNCAR NCLVTKSubversion et accès non filtrés aux serveurs cvs/svnParaviewgnuplotFirefoxgs

Page 72: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 73: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 74: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 75: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st mercure SX9, titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

mercure , titane, curie

RebuildFrequency

$SCRATCHDIR

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debugpack_restartpack_debug

PackFrequency

pack_outputpack_output

$SCRATCHDIR

Post

mercure , titane, curie

$CCCSTOREDIR

$CCCSTOREDIR

PackFrequency

Page 76: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st mercure SX9, titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

mercure , titane, curie

RebuildFrequency PackFrequency

$SCRATCHDIR/REBUILD

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debugpack_restartpack_debug

$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR

$DMFDIR

rebuild

Page 77: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st mercure SX9, titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

mercure , titane, curie

RebuildFrequency PackFrequency

$SCRATCHDIR/IGCM_OUT

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debugpack_restartpack_debug

PackFrequency

pack_outputpack_output

$SCRATCHDIR

Post

mercure , titane, curie

$CCCSTOREDIR/IGCM_OUT

$CCCSTOREDIR

tar

Page 78: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st mercure SX9, titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

mercure , titane, curie

RebuildFrequency PackFrequency

$SCRATCHDIR

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debugpack_restartpack_debug

PackFrequency

pack_outputpack_output

$SCRATCHDIR/IGCM_OUT

Post

mercure , titane, curie

$CCCSTOREDIR

$CCCSTOREDIR/IGCM_OUT

ncrcat

Page 79: Chaîne de calcul IPSL  - niveau 2 avril 2013

Post

mercure , titane, curie

rebuildrebuild

PackFrequency

rebuildrebuild

$SCRATCHDIR/REBUILD

Post

mercure , titane, curie

$CCCSTOREDIR/IGCM_OUT/…dods/store

pack_outputpack_output

create_tscreate_ts create_secreate_se

SeasonalFrequency TimeSeriesFrequency

$CCCSTOREDIR/IGCM_OUT

mercure , titane, curiemonitoringmonitoring atlasatlas

Post

PackFrequency

pack_outputpack_output

Page 80: Chaîne de calcul IPSL  - niveau 2 avril 2013

Post

mercure , titane, curie

rebuildrebuild

PackFrequency

rebuildrebuild

$SCRATCHDIR/REBUILD

Post

mercure , titane, curie

$CCCWORKDIR/IGCM_OUT/…dods/work

pack_outputpack_output

create_tscreate_ts create_secreate_se

SeasonalFrequency TimeSeriesFrequency

$CCCSTOREDIR/IGCM_OUT

mercure , titane, curiemonitoringmonitoring atlasatlas

Post

mercure , titane, curie

PackFrequency

pack_outputpack_output

Page 81: Chaîne de calcul IPSL  - niveau 2 avril 2013

Avant : Arborescence sur DMFDIR/IGCM_OUTAvant : Arborescence sur DMFDIR/IGCM_OUT

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL MONITORING

JobName

ATM

ATLASICE

RestartAnalyseOutput

[INS]DA [HF] MO

Debug SE_2000_2009

OCE_[TUVW] SRFATM

ICE

SE

MBG SBG

Page 82: Chaîne de calcul IPSL  - niveau 2 avril 2013

Maintenant : Arborescence sur CCCSTOREDIR/IGCM_OUTMaintenant : Arborescence sur CCCSTOREDIR/IGCM_OUT

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL MONITORING

JobName

ATM

ATLASICE

RestartAnalyseOutput

[INS]DA [HF] MO

Debug

SE

MBG SBG

$CCCWORKDIR/IGCM_OUT

Page 83: Chaîne de calcul IPSL  - niveau 2 avril 2013

Maintenant : Arborescence sur $CCCSTOREDIR/IGCM_OUTMaintenant : Arborescence sur $CCCSTOREDIR/IGCM_OUT

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL RESTART

JobName

ATM

DEBUGICE

RestartAnalyseOutput

[INS]DA [HF] MO

Debug

SE

MBG SBG

Fichiers tarés

tar : RESTART/SIMU_deb_fin_restart.tar ATM_SIMU_22690131_restart.nc

ATM/Restart/SIMU_fin_restart.nc