chaîne de calcul ipsl - niveau 2 avril 2013
Post on 03-Jan-2016
24 Views
Preview:
DESCRIPTION
TRANSCRIPT
Chaîne de calcul IPSL - niveau 2avril 2013
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le pôle de modélisation du climat
• 80 personnes, coordinateur Jean-Louis Dufresne, dir adj IPSL• Missions :
– Fédérer les études multidisciplinaires (scientifiques ou techniques) faisant intervenir les composantes du modèle de l'IPSL
– Identifier et coordonner les simulations de référence– Fédérer et rationaliser les moyens, les développements
techniques– Animation scientifique
• Modèle climat :– Atmosphère– Océan et glace de mer– Surfaces continentales– Cycle du carbone– Chimie
• IPSLCM5• Earth System Model
3
Le modèle climat IPSL
Modeling platform (IPSL-ESM)Arnaud Caubel (LSCE) - Marie-Alice Foujols (IPSL)
Data Archive and Access RequirementsSébastien Denvil (IPSL) - Karim Ramage (IPSL)
Atmospheric and surface physics and dynamics (LMDZ)
Frédéric Hourdin (LMD) - Laurent Fairhead (LMD)
Ocean and sea ice physics and dynamics (NEMO, LIM)
C Ethé (IPSL) - Claire Lévy - Gurvan Madec (LOCEAN)
Atmosphere and ocean interactions (IPSL-CM, different resolutions)
Sébastien Masson (LOCEAN) - Olivier Marti (LSCE)
Biogeochemical cycles (PISCES)Laurent Bopp (LSCE) - Patricia Cadule (IPSL)
Current and future climate changes
Jean-Louis Dufresne(LMD) - Olivier Boucher (LMD)
Paleoclimate and last millennium
Pascale Braconnot - Masa Kageyama (LSCE)
“Near-term” prediction (seasonal to decadal)
Eric Guilyardi (LOCEAN) - Juliette Mignot (LOCEAN)
Evaluation of the models, present-day and future climate change analysis
Sandrine Bony (LMD) - Patricia Cadule (IPSL) - Marion Marchand (LATMOS) - Juliette Mignot
(LOCEAN) – Jérôme Servonnat (LSCE)
Regional climatesRobert Vautard (LSCE), Laurent Li (LMD)Atmospheric chemistry and aerosols (INCA,
INCA_aer, Reprobus)Anne Cozic (LSCE) - M. Marchand (LATMOS)
Continental processes (ORCHIDEE)Philippe Peylin (LSCE) - Josefine Ghattas (IPSL)
Organisation du pôle de modélisation du climatResp: J-L Dufresne; Bureau: L. Bopp, MA Foujols, J. Mignot
Comité de pilotage
Groupe de travail Plate-formecoordination M-A. Foujols, A. Caubel
• Ancien nom ESCI : Equipe Système Climat IPSL• 40 personnes ( 15 régulières )• Missions :
– Organiser les développements techniques en accord avec les activités scientifiques du pôle
– Assurer le lien et la cohérence des développements entre les différentes composantes et le modèle couplé IPSLCM5
– Support aux utilisateurs des modèles, liste entraide : platform-users@ipsl.jussieu.fr
– Documentation– Animation technique, formations– Veille technologique
• Organisation : 1 réunion/mois (Jussieu et LSCE)• liste interne : esci@ipsl.jussieu.fr
forge.ipsl.jussieu.fr/igcmg
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le modèle climat de l’IPSL : IPSLCM5
IPSL
IPSLCM5
Carbone / CO2 (Orchidée, Pisces)
Ozone strato. (Reprobus)
Émissions
Utilisation des sols
VolcansInsolation
Physique – Transport
•Atmosphère (LMDZ)
•Surface (ORCHIDEE)
•Océan (NEMO)
•Glace de mer (LIM)
•Coupleur (OASIS)
Modèle du système Terre (ESM)
Climat global
Climat régional
LMDZ zoomé
Chimie tropo & aérosols (INCA)
lmdz.lmd.jussieu.fr
http://www.nemo-ocean.eu/
19 vert. levelsAtmosphère et surf. continentale
(LMDZ - ORCHIDEE)
Océan et glace de mer(ORCA-LIM)
coupleur(OASIS)
Résolutions:
Atm: 3.75°x2.5° (~350 km)
Oce: 2°x2° reserré à l’équateur
Les grilles horizontales - couplage - 3 exécutables
History of IPSLCM model since 2004
Frozen IPSLCM4
for CMIP3/ IP
CC AR4
Carbon configurations fo
r CMIP3/AR4
2004 2005
from IPSLCM4_v1 …
2006 2007 2008 2009
IPSLCM5A-LR : r
eady for C
MIP5
… to IPSLCM5A …
Oasis3 : IP
SLCM4_OASIS3
LMDZ and Orch
idee // IPSLCM4_v2
NEMO for o
cean : IPSLCM5
Carbon cycle
included : IP
SLCM5_v3
20112010
IPSLCM5A-M
R : 144x1
42x39
New physic
: LMZ5B IP
SLCM5B
IO se
rver
iomput for o
cean : IPSLCM5
libIGCM : IPSLCM4_OASIS3
Increasin
g of reso
lution fo
r atm
New dynamica
l core fo
r atm
Increasin
g of reso
lution fo
r oce
an
NEC SX-9
Operationnal o
n vargas,
titane (3
2 procs)
… and prepare the next generation
Implici
t usa
ge of MPI/O
penMP
Petit rappel historique
Nouvel exercice GIEC 2010-2012
IPSLCM4_v1
IPSLCM4_v2
IPSLCM5A
IPSL_ESM_V1
2004 – IPCC/AR4, paléo, land use, …
2007 Parallélisme MPI LMDZ-ORCHIDEEScripts libIGCM
IPSLCM4_LOOP
Cycle du carbone : Stomate (ORCHIDEE) et PISCES (OPA)
Chimie - Aérosols
NEMO : physique validée, ajout PISCES IPSLCM5_vx
Forcages INCA, REPROBUS
Juin 20102011 : en routine sur titane/vargas
2012 curie au TGCClibIGCM v2 : pack
2013 ada à l'IDRIS
IPSLCM5A-B
IPSLCM5_v5
Modèles de l'IPSL pour CMIP5
LMDZ-ORCHIDEE-ORCA-LIM-PISCES-INCA-REPROBUS-OASIS
IPSL-CM5AModèle intégré du système
Terre (ESM)
IPSL-CM5A-MR Moyenne résolutionatm: 2.5°x1.25°L39
oce: 2° L31
IPSL-CM5BIdem IPSL-CM5A, avec modèle
atmosphérique LMDZ5B
IPSL-CM5A-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
IPSL-CM5B-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
Eléments techniques : parallélisme, HPC
• Composantes seules : parallélisme MPI et mixte MPI/OpenMP utilisation de fichiers de forçages
• Couplé ou MPMD : 3 composantes au moins : coupleur, atmosphère, océan
chacune MPI ou MPI/OpenMP avec nombre différent de tâches les serveurs d'IO
ajout des composantes imbriquées : 5 exécutables ajout OpenMP en routine
• Codes écrits en Fortran, sauf exception• Beaucoup de sorties
NetcDF librairie IOIPSL serveur : XIOS : en attaché/détaché
• Grand challenge au CINES, SGI, > 2000 procs• Couplé LMDZ 1/3°- OASIS -NEMO 1/4°
Evolutions prévues à court terme :
• Physique : nouvelle physique LMDZ• Plus de résolutions, Pulsation et S Masson• Des ensembles, S Denvil tests actuels• Des simulations plus longues, P Braconnot • Des modèles plus complexes à bon escient: ajout de
la chimie A Cozic• Plus grand nombre de processeurs : cœur
dynamique de LMDZ sur grille icosaédrique, Y Meurdesoif
• Optimisations des IO, XIOS, Y Meurdesoif• de l'ensemble de la chaine: modipsl/libIGCM, ...
Contraintes ressources calcul, données, réseau
Quelques Enjeux pour les simulations climatiquesDes questions de plus en plus précises impliquant :
de nombreuses échelles de temps et d’espace (global au local, quelques années à quelques décennies)
Evolution des caractéristiques de la météorologies et de la variabilité climatique (heure à décennale)
Couplages entre le climat et les cycles biogéochimiques (gaz à effet de serre, aérosols, cycle du carbone, utilisation des terres,…)
Ens
embl
es
Résolu
tion
Complexité
GIEC (simulations coordonnées) : Ensembles de projections climatiques suivant
différents scénarios socioéconomiques
À 3° de résolution : 380 cœurs pendant 2 ans (exercice actuel) À 2° de résolution : 840 cœurs pendant 2 ans (exercice en cours) À 1/3° de résolution : 500000 cœurs pendant 2 ans (à venir?)
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Récupération de la configuration
Compilation
Soumission/Exécution
Visualisation/comparaison des résultats
Description d’une expérience
Assemblage du modèle
Modipsl
Machines
LibIGCM
IOserver
Documentation
Support
Formation
Accés aux résultats
Serveurs CVS/SVN
Environnement
Définition : plateforme qui permet, sur les centres de calcul usuels : • de récupérer des configurations de référence• de compiler :
– les sources des différentes composantes– les interfaces de couplage (océan-atmosphère) et le coupleur
• de réaliser une expérience type fournie (y compris fichiers entrée), • de suivre son exécution, • de produire et stocker des résultats bruts, • de produire, stocker et rendre accessible des ATLAS et analyses
systématiques
Le modèle climat de l’IPSL
Deux centres de calcul privilégiés
Calcul Ada (10 624 cores, 233 Tflops) : 332 nodes, 4 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (32 cores/node), 128Go/nodes (4Go/core)
Turing (65 536 cores, 836 Tflops) : 4.096 nœuds de calcul, PowerPC A2 (16 cores/node), 16 Go/node (1G/core)
Post Ada : 4 nœuds 4 proc Intel Westmere 8-cœurs à 2,67GHz (32cores/node), 1 To (32 Go/core) Fichiers Gaya, transferts des fichiers dods : http://dods.idris.fr Assistance assist@idris.fr, 01-69-35-85-55Infos www.idris.fr
Calcul Curie NF (80 640 cores, 1,6 Pflops) 5 040 thin nodes, 2 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (16 cores/node), 64Go/nodes (4Go/core)
Curie NL (11 520 cores) 90 fat nodes, 16 proc Nehalem-EX 8-cœurs à 2,27 GHz (128 cores/node), 512Go/nodes (4Go/core)
Titane (1 596 cores, 836 Tflops) 1596 nœuds de calcul, 2 proc Intel Xeon 8 cœurs à 2,93 GHz (8 cores/node), 24 Go/node (3G/core)
Post Curie NL, titaneFichiers $CCCWORKDIR, $CCCSTOREDIR, quotas : ccc_quota dods : http://dods.extra.cea.fr/work, http://dods.extra.cea.fr/store Assistance hotline.tgcc@cea.fr, 01-77-57-42-42Infos curie.info
Configurations distribuées dans modipsl → Une configuration contient les sources des modèles, les outils de lancement basés sur libIGCM (driver et card) et les paramètres d'entrée
Les configurations cohérentes avec IPSLCM5A :
IPSLCM5A : Modèle couplé standard LMDZ-ORCHIDEE-NEMO-PISCES, utilisé pour CMIP5. Responsable A. Caubel
LMDZOR_v4 : Modèle forcé LMDZ-ORCHIDEE. Responsable J. Ghattas. Même réglage que LMDZ4OR_v3.
LMDZORINCA : Modèle avec chimie troposphère LMDZ-ORCHIDEE-INCA. Responsable A. Cozic
IPSLCM5A_C : Comme IPSLCM5A mais avec des versions des composants différentes Responsable P. Cadule
IPSLCM5B : Comme IPSLCM5A mais avec la nouvelle physique dans LMDZ. Responsable L. Fairhead
Configurations distribuées dans modipsl → « La famille v5 » : Refonte des configurations pour améliorer le cohérence entre les différentes configurations et faciliter leur utilisation. Les réglages pour une composante restent les mêmes dans toutes les configurations dans la même famille.
Les configurations dans la famille v5 :
IPSLCM5_v5 : Correspond à IPSLCM5A et 5B. Responsable A. Caubel
LMDZOR_v5 : Prend la suite de LMDZOR_v4. Responsable J. Ghattas
LMDZORINCA_v5 : Correspond au LMDZORINCA mais les réglages ont un peu changé pour correspondre à IPSLCM5_v5. Responsable A. CozicLMDZREPR_v5 : Avec chimie stratosphère LMDZ-Reprobus. Responsable J. GhattasIPSLCM5CHT_v5 : Comme IPSLCM5_v5 avec INCA. Responsable A. CozicIPSLCM5CHS_v5 : Comme IPSLCM5_v5 avec Reprobus. Responsable M. Marchand
Configurations distribuées dans modipsl
Autre configurations :
NEMO : Modèle forcée de l'océan OPA-LIM-PISCES. Responsable C. Ethé.
ORCHIDEE_TAG : Modèle forcé de surface ORCHIDEE, contient le dernier tag de ORCHIDEE (actuellement 1.9.6). Responsable J. Ghattas.
ORCHIDEE_SVN_AR5 : Modèle forcé de surface ORCHIDEE, contient le version utilisé pour CMIP5 de ORCHIDEE. Responsable J. Ghattas.
Recommandation générale : prévenir lors de nouvelles études basées sur une de ces configurations, en particulier pour les modèles couplés
Récupérer, compiler et lancer une configuration de type _v5
1. Accès à MODIPSL svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl
2. Accès à IPSLCM5Acd modipsl/util ; ./model IPSLCM5_v5
3. Installation des Makefilescd modipsl/util ; ./ins_make
4. Compilation cd modipsl/config/IPSLCM5_v5 ; gmake + resolution choisie
5. Installation de l’expérience type (et post-traitements) cp EXPERIMENT/IPSLCM5/piControl/config.card . vi config.card ### JobName=MYEXP ../../util/ins_job ### recopie repertoire piControl dans MYEXP
avec COMP, DRIVER, PARAM
6. Soumission du Job de lancement cd modipsl/config/IPSLCM5A/MYEXP; ccc_msub Job_MYEXPllsumbmit Job_MYEXP
Calc
ulGestion des sources des composantes
IPSL Serveur cvs/svn
LibIGCM
Récupération de la configuration
Compilation
Exécution/ lancement du run
Connexion
Fron
tale
Description de la simulation
Modipsl
LibIGCM Choix des réglages physiques
Script de référence : AA_Job
PeriodLength
Schéma de la librairie de scripts libIGCMEXP00 EXP00/COMP
Comment vérifier que cela s’est bien passé?
• Message de fin de simu reçu
• run.card : PeriodState=Completed
• Fichiers sur le serveur de fichiers
• Post-traitements lancés puis finis
• ATLAS et monitoring sur serveur dods
modipsl
MY_EXPERIENCE
config
EXP00
IPSLCM5_v5
Job_EXP00 COMP PARAMconfig.cardrun.card.initrun.cardScript_Output*
en décalé
DRIVER
A la fin d’une expérience, vous recevrez un message de ce type :
Dear user, Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301
Message en fin de simulation
Arborescences sur serveur de fichiers IDRIS
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
gaya: cd IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
MONITORINGATLAS
Arborescences sur serveurs de fichiers TGCC
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
cd $CCCSTOREDIR/IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
cd $CCCWORKDIR/IGCM_OUT
IPSLCM5A/DEVT/pdControl
MONITORING
JobName
ATLAS
Simulations avec libIGCM : les optionsSimulations avec libIGCM : les options
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
RebuildFrequency=1Y, PackFrequency=NONE, mode « Sans pack » (IDRIS-vargas)
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoring
RebuildFrequency=NONE, PackFrequency=NONE(ou absent), mode « DEBUG » ou « TEST »
rebuild onlinerebuild online
2007
2010
Job_EXP00Job_EXP00
create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
pack_restartpack_debugpack_restartpack_debug
pack_outputpack_output
RebuildFrequency=1Y, PackFrequency=1Y, mode « Avec pack » (CCRT-TGCC et IDRIS-ada)
2012
Les utilitaires de pack
• pack_restart.job : archive, avec tar, les restart par période « PackFrequency »
• pack_debug.job : archive, avec tar, les fichiers debug par période « PackFrequency »
• pack_output.job : • concatène, avec ncrcat, les fichiers output (netcdf) par période « PackFrequency »
• est lancé par le job de rebuild
Calc
ulPo
st
ada
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
RebuildFrequency PackFrequency
$WORKDIR/REBUILD $WORKDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debug
pack_restartpack_debug
PackFrequency
$WORKDIR/IGCM_OUT gaya : IGCM_OUT
Post
gaya:IGCM_OUTdods.idris.fr
pack_outputpack_output
create_tscreate_ts create_secreate_se
SeasonalFrequency
gaya : IGCM_OUT
monitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
ada
ada
ada
tar
ncrcat
IDRIS
Les machines et espaces disques de l’IDRIS en une figure
dodsdods
$HOME
$HOME
$WORKDIR $WORKDIR
Bandes robotisées
Machines
résultats
Petits fichiers vitaux
Espaces disques $HOME
$TMPDIR
sourcesREBUILD temporaires
IGCM_OUT : fichiers à packersorties des post-
traitements
gayatous résultats
gayatous résultats
mfput/mfget
dods_cp
mfput/mfget
dmput/dmget
Février 2013
calculcalcul
interactifinteractif adacalculada
calcul
adagrosse
mémoire
adagrosse
mémoire
adafrontale
adafrontale
turingfrontaleturing
frontaleturingcalculturingcalcul
Espace temporaire
Espace sauvegardé
Espace non sauvegardé
Espacesur bandes
$TMPDIR $TMPDIR
Calc
ulPo
st
titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild
PackFrequency
$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR
Post
titane, curie
TS et SE : $CCCSTOREDIR/IGCM_OUT/… dods/storeMONITORING et ATLAS : $CCCWORKDIR dods/work
create_tscreate_ts create_secreate_se
SeasonalFrequency
$CCCSTOREDIR/IGCM_OUT
titane, curiemonitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
TGCC
$SCRATCHDIR/REBUILD
tar
ncrcat
pack_restartpack_debug
pack_restartpack_debug
pack_outputpack_output
Les machines et espaces disques du TGCC en une figure
curienœuds hybrides
-q hybrid
curienœuds hybrides
-q hybrid
curienœuds fins-q standard
curienœuds fins-q standard
curienœuds larges
-q xlarge
curienœuds larges
-q xlarge
dods/storedods/store
$HOME
$CCCSTOREDIR
$CCCWORKDIR
$SCRATCHDIR
HPSS : Bandes robotisées
curiefrontale
curiefrontale
Machines de calcul
sourcesrésultats
MONITORING/ATLAS
REBUILD temporairesIGCM_OUT :
fichiers à packersorties des post-
traitements
résultats Analyse SE et TS
Petits fichiers vitauxsauvegardés
Espaces disques
dods_cp
cp
ccc_hsm get
airainfrontaleairain
frontaleairaincalculairaincalcul
cpdods/workdods/workdods_cp
Février 2013Espace
temporaire Espace
sauvegardéEspace non sauvegardé
Espacesur bandes
calculcalcul
interactifinteractif
quotasquotas
Nombre de fichiers : historical
Sans Pack Pack 1 an Pack 5 ans
Output (ncrcat) 59 904 4 992 1 000
Analyse TS 1 700 1 700 1 700
Analyse SE 255 255 255
Restart (tar) 16 848 156 32
Debug (tar) 20 592 156 32
Exe 3 3 3
MONITORING (work)
400 0 0
ATLAS (work) 19 400 0 0
TOTAUX 121 000 7 262 3 019
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
1 : Suivi de la simulation
2 : Vérification, correction
• Il est indispensable de surveiller très régulièrement sa simulation !!!
• RunChecker : script (libIGCM) à lancer pour obtenir des informations sur l’état d’une (ou plusieurs) simulations.
• Documentationhttp://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi
Suivi de la simulation
RunChecker : usage et options
• Le script peut être lancé de n'importe où :
path/to/libIGCM/RunCkecker.job [-u user] [-q] [-j n] [-s] [-p path] job_name -u user : lance le Checker sur la simulation d'un autre utilisateur-q : mode silencieux-j n : affiche n jobs de post-traitement (10 par défaut)-s : recherche d'une simulation non référencée $WORKDIR pour l'ajouter à son catalogue personnel de simulations avant d'afficher les informations-p path : pour donner le chemin !!!absolu!!! du répertoire contenant le config.card à la place du job_name. A donner une fois seulement. Ensuite le nom de la simulation suffit.
1) path/to/libIGCM/RunCkecker.job -p $CCCWORKDIR/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.rcp45CMR2
2) path/to/libIGCM/RunCkecker.job v5.rcp45CMR2
RunChecker : exemple de simulation OK
RunChecker : exemple de simulation « à problèmes »
Si souci, vous recevrez un message de ce type :
Dear user, Simulation v5.historicalCMR5 is failed on supercomputer curie2024. Job started : 18500101 Job ended : 20051231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5/REBUILD
Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.historicalCMR5
Message signalant un problème : failed
Suivi et correction (si problèmes)
D’où vient le problème ?
• Job calcul (1 mail failed)
Pb machine ? on sait pas trop : on relance : path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Suivi et correction (si problèmes)
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes)• --> Regarder en détail le sous-
répertoire Debug• Regarder le fichier xxxxx_error dans
le répertoire Debug/
– Contient le texte de sortie de LMDZLMDZ s’arrête souvent dans hgardfou Stopping in hgardfou
– Contient les erreurs brutales de toutes les composantes
• Regarder le fichier texte de sortie de NEMO, ORCHIDEE, INCA, OASIS
– Debug/xxxx_ocean.output
– Debug/xxxx_output_orchidee
– Debug/xxxx_inca.out
– Debug/xxxx_cplout
DebugPar ex : Valeurs « étranges » dans un fichier
de sortie
• Execution (1er niveau debug)– Space name=TEST dans config.card, pas de
pack, tout sur $SCRATCHDIR(curie) ou $WORKDIR(ada).
– Rebuildfrequency à 1 période (1M) dans config.card
• Execution (2ème niveau debug)– Durée de simulation +Rebuildfrequency à 1
période (1M) dans config.cardou– Durée de simulation +Rebuildfrequency à 1
période (1M) dans config.card– RUN_DIR_PATH=…/rep/debug sur le
$SCRATCHDIR(curie) ou $WORKDIR(ada) + + Jobtype=DEV dans Job_...
– Analyse du $RUN_DIR_PATH– (Pas de rebuild (niveau expert !) : supprimer les
fichiers outputs des cards)
DebugPar ex : Plantage inexpliqué
• Dans Debug/out_execution : indices sur le modèle qui plante ?
forrtl: severe (174): SIGSEGV, segmentation fault occurredImage PC Routine Line Sourcep25mpava_lmdz.x_2 0000000000EF005B Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000006F293D Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000006BB58F Unknown Unknown
Unknownp25mpava_lmdz.x_2 0000000000477A6F Unknown Unknown
Unknownp25mpava_lmdz.x_2 0000000000457C99 Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000004568BC Unknown Unknown
Unknownlibc.so.6 00000034AB81ECDD Unknown Unknown Unknownp25mpava_lmdz.x_2 00000000004567B9 Unknown Unknown
Unknown
Compilation du modèle en mode « debug » Execution Si toujours rien, utiliser un débugueur (voir la
documentation)
Suivi et correction (si problèmes)
Pb Job calcul : relance (après correctif éventuel)– relance avec clean_month :
path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Pb !
STOP (Fatal dans run.card)
Suivi et correction (si problèmes)
• Vous avez reçu 2 messages failed, ou le RunChecker est anormal.
• Etudiez la situation :• cas simple :
• Relancer un rebuild ou pack_debug ou pack_restart
• Relancer un pack_output• cas plus compliqué :
• utiliser clean_year pour revenir à la date saine
• trous à reboucherpath/to/libIGCM/
clean_year.job [SSAA] avec SSAA = année jusqu'à laquelle
on efface tout (incluse). • poursuivre la simulation
• Cela peut être nécessaire pour boucher un trou• Trous évités avec suivi régulier de la simulation • Les configurations actuelles sont reproductibles à
l'identique, si fichier Bands identique. • Voir trusting : http://webservices.ipsl.jussieu.fr/trusting/• Principe :
– mettre en place une simulation avec SpaceName=REDO– faire tourner une période complète, pack inclus– Repérer et recopier les fichiers de l'espace REDO vers PROD, et
seulement ceux-ci• Détails :
– fichier Bands– fichier meshmask si océan– RESTART 1 seul– config.card
• SpaceName=REDO• Dates• Pas de TS ou SE
Refaire tourner une simulation à l'identique
REDO
PROD
Suivi et correction (si problèmes)
• Tout s’est bien passé • Mail de fin de simulation• Aucune anomalie RunChecker
• TimeSeriesChecker (et SE_checker) : vérifie les séries temporelles existantes et relance les jobs create_TS nécessaires pour reconstruire les TS manquantes.
• Rappel : • les rebuilds lancent automatiquement les
pack, ainsi que les TS et SE en découlant.
• les pack, TS et SE peuvent être relancés séparement (sans passer par les rebuilds)
The END ! (enfin...ou déjà )
platform-users@ipsl.jussieu.frListe pour communiquer entre utilisateurs.
Cas particulier : IPSLCM5A-MR
• Voir : platform/documentation/configuration/IPSLCM5#IPSLCM5A-MR
• MR : Attention au rebuild
– sur curie, les rebuild du MR prennent plus de 24h. Il faut utiliser une astuce pour pouvoir les faire.
– Tourner dans /tmp (SSD), RUN_DIR_PATH=/tmp/REBUILD_$$– -q standard, noeud fin– -x, réserver le noeud entier (16 cores)– 1h40 pour les rebuild historical au lieu de 18h à 30h
• Réduire les tailles des Chunck• TagName, pmagic, ...
• Modifier/créer un fichier de type EXP_../POST/monitoring01_model.cfg
• Attention : il faut que les variables que l'on veut visualiser dans les monitoring soient sorties en time series
#----------------------------------------------------------------------------------------------------------------# field | files patterns | files additionnal | operations | title | units | calcul of area#-----------------------------------------------------------------------------------------------------------------NOX_surf_global | "NO NO2" | LMDZ4.0_9695_grid.nc | "(NO[d=1,k=19]+NO2[d=2,k=19])" | " NOX a la surface" | "VMR" | "aire[d=3]"
CH4_surf_global | "CH4" | LMDZ4.0_9695_grid.nc | "CH4[d=1,k=19]" | " CH4 a la surface" | "VMR" | "aire[d=2]"
CO_surf_global | "CO" | LMDZ4.0_9695_grid.nc | "CO[d=1,k=19]" | " CO a la surface" | "VMR" | "aire[d=2]"
O3_surf_global | "_O3" | LMDZ4.0_9695_grid.nc | "O3[d=1,k=19]" | " O3 a la surface" | "VMR" | "aire[d=2]"
HNO3_surf_global | "HNO3" | LMDZ4.0_9695_grid.nc | "HNO3[d=1,k=19]" | " HNO3 a la surface" | "?" | "aire[d=2]"
Les monitorings
http://webservices.ipsl.jussieu.fr/monitoring/tmp/fegg_plot01_wHiyP3_prod/
InterMonitoring – tutoriel
• Vidéo du tutoriel : http://dods.ipsl.jussieu.fr/brocksce/screencast/InterMonitoring.html
IGCMG Web services http://webservices.ipsl.jussieu.fr/monitoring/
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Fin…blabla
Atelier personnalisé• Questions?
• Modipsl : outil d’extraction, de préparation en fonction de la machine, de compilation des modèles pour créer les exécutables.
Introduction – FAQ : http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation
• IOIPSL : librairie commune qui gère les Entrées-Sorties (fichiers de sorties, restarts) au format NetCDF dans les modèles de l’IPSL.
• Rebuild : outil pour recombiner les fichiers créés par sous-domaine, tourne maintenant sur les frontales, en asynchrone
• IOserver : outil gérant les Entrées/Sorties, piloté par fichier xml, capable de tourner en mode asynchrone sur 1 ou plusieurs procs.
Les outils : MODIPSL, IOIPSL, Rebuild et IOserver
OutilsNCO/netCDFRnetcdf/3.6.3 + 4hdf5 udunitsferretnetpbmimagemagicktetex-latexCDORSYNCNCAR NCLVTKSubversion et accès non filtrés aux serveurs cvs/svnParaviewgnuplotFirefoxgs
Calc
ulPo
st mercure SX9, titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
mercure , titane, curie
RebuildFrequency
$SCRATCHDIR
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debugpack_restartpack_debug
PackFrequency
pack_outputpack_output
$SCRATCHDIR
Post
mercure , titane, curie
$CCCSTOREDIR
$CCCSTOREDIR
PackFrequency
Calc
ulPo
st mercure SX9, titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
mercure , titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR/REBUILD
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debugpack_restartpack_debug
$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR
$DMFDIR
rebuild
Calc
ulPo
st mercure SX9, titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
mercure , titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debugpack_restartpack_debug
PackFrequency
pack_outputpack_output
$SCRATCHDIR
Post
mercure , titane, curie
$CCCSTOREDIR/IGCM_OUT
$CCCSTOREDIR
tar
Calc
ulPo
st mercure SX9, titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
mercure , titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debugpack_restartpack_debug
PackFrequency
pack_outputpack_output
$SCRATCHDIR/IGCM_OUT
Post
mercure , titane, curie
$CCCSTOREDIR
$CCCSTOREDIR/IGCM_OUT
ncrcat
Post
mercure , titane, curie
rebuildrebuild
PackFrequency
rebuildrebuild
$SCRATCHDIR/REBUILD
Post
mercure , titane, curie
$CCCSTOREDIR/IGCM_OUT/…dods/store
pack_outputpack_output
create_tscreate_ts create_secreate_se
SeasonalFrequency TimeSeriesFrequency
$CCCSTOREDIR/IGCM_OUT
mercure , titane, curiemonitoringmonitoring atlasatlas
Post
PackFrequency
pack_outputpack_output
Post
mercure , titane, curie
rebuildrebuild
PackFrequency
rebuildrebuild
$SCRATCHDIR/REBUILD
Post
mercure , titane, curie
$CCCWORKDIR/IGCM_OUT/…dods/work
pack_outputpack_output
create_tscreate_ts create_secreate_se
SeasonalFrequency TimeSeriesFrequency
$CCCSTOREDIR/IGCM_OUT
mercure , titane, curiemonitoringmonitoring atlasatlas
Post
mercure , titane, curie
PackFrequency
pack_outputpack_output
Avant : Arborescence sur DMFDIR/IGCM_OUTAvant : Arborescence sur DMFDIR/IGCM_OUT
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL MONITORING
JobName
ATM
ATLASICE
RestartAnalyseOutput
[INS]DA [HF] MO
Debug SE_2000_2009
OCE_[TUVW] SRFATM
ICE
SE
MBG SBG
Maintenant : Arborescence sur CCCSTOREDIR/IGCM_OUTMaintenant : Arborescence sur CCCSTOREDIR/IGCM_OUT
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL MONITORING
JobName
ATM
ATLASICE
RestartAnalyseOutput
[INS]DA [HF] MO
Debug
SE
MBG SBG
$CCCWORKDIR/IGCM_OUT
Maintenant : Arborescence sur $CCCSTOREDIR/IGCM_OUTMaintenant : Arborescence sur $CCCSTOREDIR/IGCM_OUT
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM
DEBUGICE
RestartAnalyseOutput
[INS]DA [HF] MO
Debug
SE
MBG SBG
Fichiers tarés
tar : RESTART/SIMU_deb_fin_restart.tar ATM_SIMU_22690131_restart.nc
ATM/Restart/SIMU_fin_restart.nc
top related