chaîne de calcul ipsl - niveau 2 avril 2013. plan présentation du pôle de modélisation...
TRANSCRIPT
Chaîne de calcul IPSL - niveau 2avril 2013
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le pôle de modélisation du climat• 80 personnes, coordinateur Jean-Louis Dufresne, dir adj IPSL• Missions :
– Fédérer les études multidisciplinaires (scientifiques ou techniques) faisant intervenir les composantes du modèle de l'IPSL
– Identifier et coordonner les simulations de référence– Fédérer et rationaliser les moyens, les développements
techniques– Animation scientifique
• Modèle climat :– Atmosphère– Océan et glace de mer– Surfaces continentales– Cycle du carbone– Chimie
• IPSLCM5• Earth System Model
3
Le modèle climat IPSL
Modeling platform (IPSL-ESM)Arnaud Caubel (LSCE) - Marie-Alice Foujols (IPSL)
Data Archive and Access RequirementsSébastien Denvil (IPSL) - Karim Ramage (IPSL)
Atmospheric and surface physics and dynamics (LMDZ)
Frédéric Hourdin (LMD) - Laurent Fairhead (LMD)
Ocean and sea ice physics and dynamics (NEMO, LIM)
C Ethé (IPSL) - Claire Lévy - Gurvan Madec (LOCEAN)
Atmosphere and ocean interactions (IPSL-CM, different resolutions)
Sébastien Masson (LOCEAN) - Olivier Marti (LSCE)
Biogeochemical cycles (PISCES)Laurent Bopp (LSCE) - Patricia Cadule (IPSL)
Current and future climate changes
Jean-Louis Dufresne(LMD) - Olivier Boucher (LMD)
Paleoclimate and last millennium
Pascale Braconnot - Masa Kageyama (LSCE)
“Near-term” prediction (seasonal to decadal)
Eric Guilyardi (LOCEAN) - Juliette Mignot (LOCEAN)
Evaluation of the models, present-day and future climate change analysis
Sandrine Bony (LMD) - Patricia Cadule (IPSL) - Marion Marchand (LATMOS) - Juliette Mignot
(LOCEAN) – Jérôme Servonnat (LSCE)
Regional climatesRobert Vautard (LSCE), Laurent Li (LMD)Atmospheric chemistry and aerosols (INCA,
INCA_aer, Reprobus)Anne Cozic (LSCE) - M. Marchand (LATMOS)
Continental processes (ORCHIDEE)Philippe Peylin (LSCE) - Josefine Ghattas (IPSL)
Organisation du pôle de modélisation du climatResp: J-L Dufresne; Bureau: L. Bopp, MA Foujols, J. Mignot
Comité de pilotage
Groupe de travail Plate-formecoordination M-A. Foujols, A. Caubel
• Ancien nom ESCI : Equipe Système Climat IPSL• 40 personnes ( 15 régulières )• Missions :
– Organiser les développements techniques en accord avec les activités scientifiques du pôle
– Assurer le lien et la cohérence des développements entre les différentes composantes et le modèle couplé IPSLCM5
– Support aux utilisateurs des modèles, liste entraide : [email protected]
– Documentation– Animation technique, formations– Veille technologique
• Organisation : 1 réunion/mois (Jussieu et LSCE)• liste interne : [email protected]
forge.ipsl.jussieu.fr/igcmg
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le modèle climat de l’IPSL : IPSLCM5
IPSL
IPSLCM5
Carbone / CO2 (Orchidée, Pisces)
Ozone strato. (Reprobus)
Émissions
Utilisation des sols
VolcansInsolation
Physique – Transport
•Atmosphère (LMDZ)
•Surface (ORCHIDEE)
•Océan (NEMO)
•Glace de mer (LIM)
•Coupleur (OASIS)
Modèle du système Terre (ESM)
Climat global
Climat régional
LMDZ zoomé
Chimie tropo & aérosols (INCA)
lmdz.lmd.jussieu.fr
http://www.nemo-ocean.eu/
19 vert. levelsAtmosphère et surf. continentale
(LMDZ - ORCHIDEE)
Océan et glace de mer(ORCA-LIM)
coupleur(OASIS)
Résolutions:
Atm: 3.75°x2.5° (~350 km)
Oce: 2°x2° reserré à l’équateur
Les grilles horizontales - couplage - 3 exécutables
History of IPSLCM model since 2004
Frozen IPSLCM4
for CMIP3/ IP
CC AR4
Carbon configurations fo
r CMIP3/AR4
2004 2005
from IPSLCM4_v1 …
2006 2007 2008 2009
IPSLCM5A-LR : r
eady for C
MIP5
… to IPSLCM5A …
Oasis3 : IP
SLCM4_OASIS3
LMDZ and Orch
idee // IPSLCM4_v2
NEMO for o
cean : IPSLCM5
Carbon cycle
included : IP
SLCM5_v3
20112010
IPSLCM5A-M
R : 144x1
42x39
New physic
: LMZ5B IP
SLCM5B
IO se
rver
iomput for o
cean : IPSLCM5
libIGCM : IPSLCM4_OASIS3
Increasin
g of reso
lution fo
r atm
New dynamica
l core fo
r atm
Increasin
g of reso
lution fo
r oce
an
NEC SX-9
Operationnal o
n vargas,
titane (3
2 procs)
… and prepare the next generation
Implici
t usa
ge of MPI/O
penMP
Modèles de l'IPSL pour CMIP5
LMDZ-ORCHIDEE-ORCA-LIM-PISCES-INCA-REPROBUS-OASIS
IPSL-CM5AModèle intégré du système
Terre (ESM)
IPSL-CM5A-MR Moyenne résolutionatm: 2.5°x1.25°L39
oce: 2° L31
IPSL-CM5BIdem IPSL-CM5A, avec modèle
atmosphérique LMDZ5B
IPSL-CM5A-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
IPSL-CM5B-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
Eléments techniques : parallélisme, HPC
• Composantes seules : parallélisme MPI et mixte MPI/OpenMP utilisation de fichiers de forçages
• Couplé ou MPMD : 3 composantes au moins : coupleur, atmosphère, océan
chacune MPI ou MPI/OpenMP avec nombre différent de tâches les serveurs d'IO
ajout des composantes imbriquées : 5 exécutables ajout OpenMP en routine
• Codes écrits en Fortran, sauf exception• Beaucoup de sorties
NetcDF librairie IOIPSL serveur : XIOS : en attaché/détaché
• Grand challenge au CINES, SGI, > 2000 procs• Couplé LMDZ 1/3°- OASIS -NEMO 1/4°
Evolutions prévues à court terme :
• Physique : nouvelle physique LMDZ• Plus de résolutions, Pulsation et S Masson• Des ensembles, S Denvil tests actuels• Des simulations plus longues, P Braconnot • Des modèles plus complexes à bon escient: ajout de
la chimie A Cozic• Plus grand nombre de processeurs : cœur
dynamique de LMDZ sur grille icosaédrique, Y Meurdesoif
• Optimisations des IO, XIOS, Y Meurdesoif• de l'ensemble de la chaine: modipsl/libIGCM, ...
Contraintes ressources calcul, données, réseau
Quelques Enjeux pour les simulations climatiquesDes questions de plus en plus précises impliquant :
de nombreuses échelles de temps et d’espace (global au local, quelques années à quelques décennies)
Evolution des caractéristiques de la météorologies et de la variabilité climatique (heure à décennale)
Couplages entre le climat et les cycles biogéochimiques (gaz à effet de serre, aérosols, cycle du carbone, utilisation des terres,…)
Ens
embl
es
Résolu
tion
Complexité
GIEC (simulations coordonnées) : Ensembles de projections climatiques suivant
différents scénarios socioéconomiques
À 3° de résolution : 380 cœurs pendant 2 ans (exercice actuel) À 2° de résolution : 840 cœurs pendant 2 ans (exercice en cours) À 1/3° de résolution : 500000 cœurs pendant 2 ans (à venir?)
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Récupération de la configuration
Compilation
Soumission/Exécution
Visualisation/comparaison des résultats
Description d’une expérience
Assemblage du modèle
Modipsl
Machines
LibIGCM
IOserver
Documentation
Support
Formation
Accés aux résultats
Serveurs CVS/SVN
Environnement
Documentation
Récupération de la configuration
Compilation
Soumission/Exécution
Visualisation/comparaison des résultats
Description d’une expérience
Assemblage du modèle
Modipsl
Machines
LibIGCM
IOserver
SupportFormation
Accés aux résultats
Serveurs CVS/SVN
Environnement
Documentation : http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation(Version PDF disponible)
Définition : plateforme qui permet, sur les centres de calcul usuels : • de récupérer des configurations de référence• de compiler :
– les sources des différentes composantes– les interfaces de couplage (océan-atmosphère) et le coupleur
• de réaliser une expérience type fournie (y compris fichiers entrée), • de suivre son exécution, • de produire et stocker des résultats bruts, • de produire, stocker et rendre accessible des ATLAS et analyses
systématiques
Le modèle climat de l’IPSL
Deux centres de calcul privilégiés
Calcul Ada (10 624 cores, 233 Tflops) : 332 nodes, 4 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (32 cores/node), 128Go/nodes (4Go/core)
Turing (65 536 cores, 836 Tflops) : 4.096 nœuds de calcul, PowerPC A2 (16 cores/node), 16 Go/node (1G/core)
Post Ada : 4 nœuds 4 proc Intel Westmere 8-cœurs à 2,67GHz (32cores/node), 1 To (32 Go/core) Fichiers Gaya, transferts des fichiers dods : http://dods.idris.fr Assistance [email protected], 01-69-35-85-55Infos www.idris.fr
Calcul Curie NF (80 640 cores, 1,6 Pflops) 5 040 thin nodes, 2 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (16 cores/node), 64Go/nodes (4Go/core)
Curie NL (11 520 cores) 90 fat nodes, 16 proc Nehalem-EX 8-cœurs à 2,27 GHz (128 cores/node), 512Go/nodes (4Go/core)
Titane (12 768 cores, 140 Tflops) 1596 nœuds de calcul, 2 proc Intel Xeon 8 cœurs à 2,93 GHz (8 cores/node), 24 Go/node (3G/core)
Post Curie NL, titaneFichiers $CCCWORKDIR, $CCCSTOREDIR, quotas : ccc_quota dods : http://dods.extra.cea.fr/work, http://dods.extra.cea.fr/store Assistance [email protected], 01-77-57-42-42Infos curie.info
Configurations distribuées dans modipsl → Une configuration contient les sources des modèles, les outils de lancement basés sur libIGCM (driver et card) et les paramètres d'entrée
Les configurations cohérentes avec IPSLCM5A :
IPSLCM5A : Modèle couplé standard LMDZ-ORCHIDEE-NEMO-PISCES, utilisé pour CMIP5. Responsable A. Caubel et M-A Foujols
LMDZOR_v4 : Modèle forcé LMDZ-ORCHIDEE. Responsable J. Ghattas. Même réglage que LMDZ4OR_v3.
LMDZORINCA : Modèle avec chimie troposphère LMDZ-ORCHIDEE-INCA. Responsable A. Cozic
IPSLCM5A_C : Comme IPSLCM5A mais avec des versions des composants différentes Responsable P. Cadule
IPSLCM5B : Comme IPSLCM5A mais avec la nouvelle physique dans LMDZ. Responsable L. Fairhead
Ces configurations sont figées et ne sont plus maintenues
Configurations distribuées dans modipsl → « La famille v5 » : Refonte des configurations pour améliorer le cohérence entre les différentes configurations et faciliter leur utilisation. Les réglages pour une composante restent les mêmes dans toutes les configurations dans la même famille.
Les configurations dans la famille v5 :
IPSLCM5_v5 : Correspond à IPSLCM5A et 5B. Responsable A. Caubel et M-A Foujols
LMDZOR_v5 : Prend la suite de LMDZOR_v4. Responsable J. Ghattas
LMDZORINCA_v5 : Correspond au LMDZORINCA mais les réglages ont un peu changé pour correspondre à IPSLCM5_v5. Responsable A. CozicLMDZREPR_v5 : Avec chimie stratosphère LMDZ-Reprobus. Responsable J. GhattasIPSLCM5CHT_v5 : Comme IPSLCM5_v5 avec INCA. Responsable A. CozicIPSLCM5CHS_v5 : Comme IPSLCM5_v5 avec Reprobus. Responsable M. MarchandA noter : IPSLCM5CHT_v5 et IPSLCM5CHS_v5 sont des versions de travail et non des version de production
Configurations distribuées dans modipsl
Autre configurations :
NEMO : Modèle forcé de l'océan OPA-LIM-PISCES. Responsable C. Ethé.
ORCHIDEE_TAG : Modèle forcé de surface ORCHIDEE, contient le dernier tag de ORCHIDEE (actuellement 1.9.6). Responsable J. Ghattas.
ORCHIDEE_SVN_AR5 : Modèle forcé de surface ORCHIDEE, contient la version utilisée pour CMIP5 de ORCHIDEE. Responsable J. Ghattas.
Recommandation générale : prévenir lors de nouvelles études basées sur une de ces configurations, en particulier pour les modèles couplés
Récupérer, compiler et lancer une configuration de type _v5
1. Accès à MODIPSL svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl
2. Accès à IPSLCM5_v5cd modipsl/util ; ./model IPSLCM5_v5
3. Installation des Makefilescd modipsl/util ; ./ins_make
4. Compilation cd modipsl/config/IPSLCM5_v5 ; gmake + resolution choisie
5. Installation de l’expérience type (et post-traitements) cp EXPERIMENT/IPSLCM5/piControl/config.card . vi config.card ### JobName=MYEXP ../../util/ins_job ### recopie repertoire piControl dans MYEXP
avec COMP, DRIVER, PARAM
6. Soumission du Job de lancement cd modipsl/config/IPSLCM5A/MYEXP; ccc_msub Job_MYEXPllsumbmit Job_MYEXP
Calc
ulGestion des sources des composantes
IPSL Serveur cvs/svn
LibIGCM
Récupération de la configuration
Compilation
Exécution/ lancement du run
Connexion
Fron
tale
Description de la simulation
Modipsl
LibIGCM Choix des réglages physiques
Script de référence : AA_Job
PeriodLength
Schéma de la librairie de scripts libIGCMEXP00 EXP00/COMP
Simulations avec libIGCM : les optionsSimulations avec libIGCM : les options
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
RebuildFrequency=1Y, PackFrequency=NONE, mode « Sans pack » (IDRIS-vargas)
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoring
RebuildFrequency=NONE, PackFrequency=NONE(ou absent), mode « DEBUG » ou « TEST »
rebuild onlinerebuild online
2007
2010
Job_EXP00Job_EXP00
create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
pack_restartpack_debugpack_restartpack_debug
pack_outputpack_output
RebuildFrequency=1Y, PackFrequency=1Y, mode « Avec pack » (CCRT-TGCC et IDRIS-ada)
2012
Les utilitaires de pack
• pack_restart.job : archive, avec tar, les restart par période « PackFrequency »
• pack_debug.job : archive, avec tar, les fichiers debug par période « PackFrequency »
• pack_output.job : • concatène, avec ncrcat, les fichiers output (netcdf) par période « PackFrequency »
• est lancé par le job de rebuild
Arborescence sur serveur de fichiers IDRIS
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
gaya: cd IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
MONITORINGATLAS
Arborescences sur serveurs de fichiers TGCC
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
cd $CCCSTOREDIR/IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
cd $CCCWORKDIR/IGCM_OUT
IPSLCM5A/DEVT/pdControl
MONITORING
JobName
ATLAS
Calc
ulPo
st
titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild
PackFrequency
$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR
Post
titane, curie
TS et SE : $CCCSTOREDIR/IGCM_OUT/… dods/storeMONITORING et ATLAS : $CCCWORKDIR dods/work
create_tscreate_ts create_secreate_se
SeasonalFrequency
$CCCSTOREDIR/IGCM_OUT
titane, curiemonitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
TGCC
$SCRATCHDIR/REBUILD
tar
ncrcat
pack_restartpack_debug
pack_restartpack_debug
pack_outputpack_output
quotasquotas
Calc
ulPo
st
ada
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
RebuildFrequency PackFrequency
$WORKDIR/REBUILD $WORKDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debug
pack_restartpack_debug
PackFrequency
$WORKDIR/IGCM_OUT gaya : IGCM_OUT
Post
gaya:IGCM_OUTdods.idris.fr
pack_outputpack_output
create_tscreate_ts create_secreate_se
SeasonalFrequency
gaya : IGCM_OUT
monitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
ada
ada
ada
tar
ncrcat
IDRIS
Nombre de fichiers : historical
Sans Pack Pack 1 an Pack 5 ans
Output (ncrcat) 59 904 4 992 1 000
Analyse TS 1 700 1 700 1 700
Analyse SE 255 255 255
Restart (tar) 16 848 156 32
Debug (tar) 20 592 156 32
Exe 3 3 3
MONITORING (work)
400 0 0
ATLAS (work) 19 400 0 0
TOTAUX 121 000 7 262 3 019
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
1 : Suivi de la simulation
2 : Vérification, correction
• Il est indispensable de surveiller très régulièrement sa simulation !!!
• RunChecker : script (libIGCM) à lancer pour obtenir des informations sur l’état d’une (ou plusieurs) simulations.
• Documentationhttp://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi
Suivi de la simulation
RunChecker : usage et options
• Le script peut être lancé de n'importe où :
path/to/libIGCM/RunCkecker.job [-u user] [-q] [-j n] [-s] [-p path] job_name -u user : lance le Checker sur la simulation d'un autre utilisateur-q : mode silencieux-j n : affiche n jobs de post-traitement (10 par défaut)-s : recherche d'une simulation non référencée $WORKDIR pour l'ajouter à son catalogue personnel de simulations avant d'afficher les informations-p path : pour donner le chemin !!!absolu!!! du répertoire contenant le config.card à la place du job_name. A donner une fois seulement. Ensuite le nom de la simulation suffit.
1) path/to/libIGCM/RunCkecker.job -p $CCCWORKDIR/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.rcp45CMR2
2) path/to/libIGCM/RunCkecker.job v5.rcp45CMR2
RunChecker : exemple de simulation OK
RunChecker : exemple de simulation à problèmes
Si souci, vous recevrez un message de ce type :
Objet : v5.historicalCMR5 failed
Dear user,
Simulation v5.historicalCMR5 is failed on supercomputer curie2024. Job started : 18500101 Job ended : 20051231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5/REBUILD
Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.historicalCMR5
Message signalant un problème : failed
Suivi et correction (si problèmes) 1/
D’où vient le problème ?
• Job calcul (1 mail failed)
Pb machine ? On regarde le Script_output_xxxx.
Si pas de messages très clairs,on relance (clean_month): path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Suivi et correction (si problèmes) 2/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 3/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 4/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
======================================================================== EXECUTION of : mpirun -f ./run_file > out_run_file 2>&1 Return code of executable : 1 IGCM_debug_Exit : EXECUTABLE !!!!!!!!!!!!!!!!!!!!!!!!!! !! IGCM_debug_CallStack !! !------------------------! !------------------------! IGCM_sys_Cp : out_run_file xxxxxxxxxxxx_out_run_file_error========================================================================
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 5/
• --> Regarder en détail le sous-répertoire Debug (si il existe)
• Regarder le fichier xxxxx_error dans le répertoire Debug/
– Contient le texte de sortie de LMDZLMDZ s’arrête souvent dans hgardfou Stopping in hgardfou
– Contient les erreurs brutales de toutes les composantes
• Regarder le fichier texte de sortie de NEMO, ORCHIDEE, INCA, OASIS
– Debug/xxxx_ocean.output
– Debug/xxxx_output_orchidee
– Debug/xxxx_inca.out
– Debug/xxxx_cplout
Debug 1/Par ex : Plantage inexpliqué
• Dans Debug/out_execution : indices sur le modèle qui plante ?
forrtl: severe (174): SIGSEGV, segmentation fault occurredImage PC Routine Line Sourcep25mpava_lmdz.x_2 0000000000EF005B Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000006F293D Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000006BB58F Unknown Unknown
Unknownp25mpava_lmdz.x_2 0000000000477A6F Unknown Unknown
Unknownp25mpava_lmdz.x_2 0000000000457C99 Unknown Unknown
Unknownp25mpava_lmdz.x_2 00000000004568BC Unknown Unknown
Unknownlibc.so.6 00000034AB81ECDD Unknown Unknown Unknownp25mpava_lmdz.x_2 00000000004567B9 Unknown Unknown
Unknown
Compilation du modèle en mode « debug » Execution Si toujours rien, utiliser un débugueur (voir la
documentation)
Par défaut nous compilons les codes en mode « optimisé » (= « prod »). Pour pouvoir trouver l’origine des bugs, certaines options du compilateur sont utiles. La méthode « debug » est différente suivant les modèles :
• Pour ORCHIDEE et IOIPSL il faut modifier les options de compilation dans le fichier modipsl/util/AA_make.gdef
#-Q- curie F_O = -DCPP_PARA -xHost -O3 -p -g -traceback -fp-stack-check -ftrapuv $(F_D) $(F_P) -I$(MODDIR) -module $(MODDIR)
Après avoir modifié ce fichier, vous devez relancer la commande ins_make permettant la création des Makefile
• Pour LMDZ et INCA il faut modifier le fichier Makefile dans config/xxx/ en rajoutant l'option -debug ou -dev dans la ligne de compilation
(cd ../../modeles/INCA3; ./makeinca_fcm -debug -chimie CH4 -resol (...) ../../bin/inca.dat ; )
(cd ../../modeles/LMDZ; ./makelmdz_fcm -cpp ORCHIDEE_NOOPENMP -debug -d (..) ../../bin/gcm.e;)
• Pour NEMO il faut modifier le fichier Makefile dans modeles/NEMO/WORK/MakefileF_O = -O3 -i4 -r8 –xHost -traceback -module $(MODDIR)/oce -I$(MODDIR) -I$(MODDIR)/oce -I$
(NCDF_INC) $(USER_INC)
A noter : Lorsqu’on débugue (mode « debug »), il peut être utile de diminuer l’optimisation qui est (-O3) en mode « prod ».
=> Travail d’harmonisation des systèmes de compilation en cours
Debug 2/
Debug 3/Par ex : Valeurs « étranges » dans un fichier
de sortie
• Execution (1er niveau debug)– Space name=TEST dans config.card, pas de
pack, tout sur $SCRATCHDIR(curie) ou $WORKDIR(ada).
– Rebuildfrequency à 1 période (1M) dans config.card
• Execution (2ème niveau debug)– Durée de simulation +Rebuildfrequency à 1
période (1M) dans config.cardou– Durée de simulation +Rebuildfrequency à 1
période (1M) dans config.card– RUN_DIR_PATH=…/rep/debug sur le
$SCRATCHDIR(curie) ou $WORKDIR(ada) + + Jobtype=DEV dans Job_...
– Analyse du $RUN_DIR_PATH– (Pas de rebuild (niveau expert !) : supprimer les
fichiers outputs des cards)
Suivi et correction (si problèmes) 6/
Pb Job calcul : relance (après correctif éventuel)– relance avec clean_month :
path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Pb !
STOP (Fatal dans run.card)
Suivi et correction (si problèmes) 7/
• Vous avez reçu 2 messages failed ou le RunChecker est anormal.
• Etudiez la situation :• cas simple :
• Relancer un rebuild ou pack_debug ou pack_restart
• Relancer un pack_output• cas plus compliqué :
• utiliser clean_year pour revenir à la date saine
• trous à reboucherpath/to/libIGCM/
clean_year.job [SSAA] avec SSAA = année jusqu'à laquelle
on efface tout (incluse). • poursuivre la simulation
• Cela peut être nécessaire pour boucher un trou• Trous évités avec suivi régulier de la simulation • Les configurations actuelles sont reproductibles à
l'identique, si fichier Bands identique. • Voir trusting : http://webservices.ipsl.jussieu.fr/trusting/• Principe :
– mettre en place une simulation avec SpaceName=REDO– faire tourner une période complète, pack inclus– Repérer et recopier les fichiers de l'espace REDO vers PROD, et
seulement ceux-ci• Détails :
– fichier Bands– fichier meshmask si océan– RESTART 1 seul– config.card
• SpaceName=REDO• Dates• Pas de TS ou SE
Refaire tourner une simulation à l'identique
REDO
PROD
Suivi et correction (si problèmes) 8/
• Tout s’est bien passé • Mail de fin de simulation• Aucune anomalie RunChecker
• TimeSeriesChecker (et SE_checker) : vérifie les séries temporelles existantes et relance les jobs create_TS nécessaires pour reconstruire les TS manquantes.
• Rappel : • les rebuilds lancent
automatiquement les pack, ainsi que les TS et SE en découlant.
• les pack, TS et SE peuvent être relancés séparement (sans passer par les rebuilds)
A la fin d’une expérience, vous recevrez un message de ce type :
Objet : T05042013 completed
Dear user,
Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301
Message en fin de simulation
The END ! (déjà )
[email protected] pour communiquer entre utilisateurs.
The END ! (déjà )
[email protected] pour communiquer entre utilisateurs.
[email protected] pour trinquer entre utilisateurs.
Cas particulier : IPSLCM5A-MR
• Voir : platform/documentation/configuration/IPSLCM5#IPSLCM5A-MR
• MR : Attention au rebuild
– sur curie, les rebuild du MR prennent plus de 24h. Il faut utiliser une astuce pour pouvoir les faire.
• Tourner dans /tmp (SSD), RUN_DIR_PATH=/tmp/REBUILD_$$• -q standard, noeud fin• -x, réserver le noeud entier (16 cores)• 1h40 pour les rebuild historical au lieu de 18h à 30h
– Sur ada, il faut préciser: # @ as_limit = 7.0gb dans le job de calcul.
• Réduire les tailles des Chunck• TagName, pmagic, ...
• Modifier/créer un fichier de type EXP_../POST/monitoring01_model.cfg
• Attention : il faut que les variables que l'on veut visualiser dans les monitoring soient sorties en time series
#----------------------------------------------------------------------------------------------------------------# field | files patterns | files additionnal | operations | title | units | calcul of area#-----------------------------------------------------------------------------------------------------------------NOX_surf_global | "NO NO2" | LMDZ4.0_9695_grid.nc | "(NO[d=1,k=19]+NO2[d=2,k=19])" | " NOX a la surface" | "VMR" | "aire[d=3]"
CH4_surf_global | "CH4" | LMDZ4.0_9695_grid.nc | "CH4[d=1,k=19]" | " CH4 a la surface" | "VMR" | "aire[d=2]"
CO_surf_global | "CO" | LMDZ4.0_9695_grid.nc | "CO[d=1,k=19]" | " CO a la surface" | "VMR" | "aire[d=2]"
O3_surf_global | "_O3" | LMDZ4.0_9695_grid.nc | "O3[d=1,k=19]" | " O3 a la surface" | "VMR" | "aire[d=2]"
HNO3_surf_global | "HNO3" | LMDZ4.0_9695_grid.nc | "HNO3[d=1,k=19]" | " HNO3 a la surface" | "?" | "aire[d=2]"
Les monitorings
http://webservices.ipsl.jussieu.fr/monitoring/tmp/fegg_plot01_wHiyP3_prod/
InterMonitoring – tutoriel
• Vidéo du tutoriel : http://dods.ipsl.jussieu.fr/brocksce/screencast/InterMonitoring.html
IGCMG Web services http://webservices.ipsl.jussieu.fr/monitoring/
Formations
Formations IPSL
• Formations niveau 1 et 2 : modipsl, libIGCM, chaîne de calcul• Formation LMDZ (contact [email protected]) • Chaque mois, INCAHowTo (inscription per mail to [email protected])
Autres formations
• Fortran(14-05-2013) and MPI(30-09-2013) à l’IDRIS (2 fois par an) www.idris.fr• Formations à l’utilisation des calculateurs du TGCC• Formation UNIX
A retenir
Avant de lancer une simulation • informer le responsable de la configuration• s’assurer de la bonne version des modèles• s’assurer du type de simulation qu’on lance
• historique, piControl, pdControl• paramètres dans les fichiers de configuration• niveaux des sorties (écritures,…)
Savoir ce qu’on fait - faire attention à ce qu’on fait• chaîne de calcul IPSL = chaîne complexe
• un ou plusieurs modèles (modèles couplés) • gros calculateurs (milliers/millions de cœurs de calcul)
• on pense à soi : gain de temps• on pense aux autres : ressources partagées par la communauté
Problèmes• machine => hotline centre de calcul• configuration, chaîne de calcul => documentation, platform-users, responsable de la configuration• modèle => « hotline » modèle
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Contributions
Le groupe de travail Plate-forme de l’IPSL
OutilsNCO/netCDFRnetcdf/3.6.3 + 4hdf5 udunitsferretnetpbmimagemagicktetex-latexCDORSYNCNCAR NCLVTKSubversion et accès non filtrés aux serveurs cvs/svnParaviewgnuplotFirefoxgs