giens octobre 2002 j.j.blaising grille de calcul et de données1 j.j blaising in2p3/lapp pourquoi ?,...
Post on 05-Apr-2015
109 Views
Preview:
TRANSCRIPT
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 1
J.J Blaising
IN2P3/LAPP
Pourquoi ?, Concept, Projets
Domaines d’application
Analyse des besoins, Architecture
Description des services, Exemple
Testbeds (EDG/US), Applications HEP
Bilan, Perspectives
Conclusion
La Grille
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 2
Besoins informatiquesaccrus et nouveaux
GRILLE ?
Les instruments scientifiques produisent d’énormes quantités de données
Les donnés à analyser doivent etreaccessibles à tous les chercheurs indépendamment de la localisation géographique
Pourquoi ?
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 3
Définition (Utilisateur du cc)
La grille est un super-cc-in2p3 (cc-grid)
Un seul login permet d’accéder à cc-grid
Toutes les données à analyser y sont accessibles
Permet de faire du calcul batch et interactif
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 4
Définition (Expert)
I.Foster, père du concept et fondateur de Globus
(boîte à outils permettant la construction de grilles)
La grille est une infrastructure matérielle et logicielle fournissant :
Un accès sécurisé, transparent et bon marché à des ressources (calcul, stockage) hétérogènes distribuées géographiquement.
Une gestion cohérente des ressources partagées par les utilisateurs d’une organisation virtuelle (VO), Bio, Eobs, Alice, Babar, …
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 5
ProjetsProjets utilisant Globus
CrossGrid/EU (interactif)
DataGrid/EU BIO/EOBS/HEP
Datatag/EU (interopérabilité)
GridStart/US
GriPhyN/US HEP
iVDGL/US Astronomie/HEP
Nasa Information PowerGrid/US
NorduGrid/EU HEP
PPDG/US HEP
Teragrid/US
Autres projets
AP Grid, Astrogrid AVO - Astrophysical Virtual ObservatoryBBSRC Bioinformatics and e-science programmeBIRN - Biomedical Informatics Research NetworkCondor , DamienDOE SciDAC, DOE science GridECOGRIDEUROGRIDGRIA , GRIPGridware IBM
Irish Computational GridLegion NEES GridNMI - NSF Middleware InitiativeSpaceGrid
The Earth System Grid II
Trans PAC, UNICORE Plus
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 6
Domaines d’application
Les domaines d’application qui dans le cadrede DataGrid (EDG) ont analysé les cas d’utilisations et participent à l’évaluation des services developpés par EDG et déployés sur les plate-formes de test sont:
La biologie et la médecine L’observation de la terre La physique des hautes énergies
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 7
Seq1 > dcscdssdcsdcdsc
bscdsbcbjbfvbfvbvfbvbvbhvbhsvbhdvbhfdbvfd
Seq2 > bvdfvfdvhbdfvb
bhvdsvbhvbhdvrefghefgdscgdfgcsdycgdkcsqkc
…
dedzedzdzedezdzecdscsdcscdssdcsdcdscbscdsbcbjbf
Seqn > dedzedzdzedezdzecdscsdcscdssdcsdcdscbscdsbcbjbdfndfjvbndfbnbnfbjnbjxbnxbjk:nxbf
Recherche d’analogies entre une nouvelle séquenced’ADN et celles existants déja dans des bases de donnéesdispersées géographiquement .
RESULTATdedzedzdzedezdzecdscsdcscdssdcsdcdscbscdsbcbjbfvbfvbvfbvbvbhvbhsvbhdvbhfdbvfdbvdfvfdvhbdfvbhdbhvdsvbhvbhdvrefghefgdscgdfgcsdycgdkcsqkcqhdsqhfduhdhdhqedezhdhezldhezhfehflezfzeflehfhezfhehfezhflezhflhfhfelhfehflzlhfzdjazslzdhfhfdfezhfehfizhflqfhduhsdslchlkchudcscscdscdscdscsddzdzeqvnvqvnq! Vqlvkndlkvnldwdfbwdfbdbd wdfbfbndblnblkdnblkdbdfbwfdbfn
Génomique comparatives
Séquençage de l’ADN=> croissance du nombre et de la taille des bases de données•Localisation•Gestion des accès•Réplication
DB
BLAST
dedzedzdzedezdzecdscsdcscdssdcsdcdscbscdsbcbjbf
dedzedzdzedezdzecdscsdcscdssdcdcdscbscdsbcbjbf
DB
BLAST
dedzedzdzedezdzecdscsdcscdssdcsdcdscbscdsbcbjbf
dedzedzdzedezdzecdscsdcscdssdcdcdscbscdsbcbjbf
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 8
Mais exige aussi:• Fiabilité• Interactivité (vidéo conf/opération)• Confidentialité (cryptage)• Faible latence, …
Imagerie médicale
Le développement de l‘imagerie médicale =>des besoins croissants en capacité de stockage (~ 10 Tb/CHU) et en puissance de calcul pour le traitement et l’interprétation des images.
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 9
En 24 heures• 30000 mesures• temps d’analyse: 24 heures avec 40
cpus (800 Mhz)
GOME/ESA sur ERS échantillonne la couche d’ozone
Surveillance de l’Environnement
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 10
CMSATLAS
LHCb
~109 events/anraw data ~6-8 PetaBytes /an, cpu n*MSI95
2/3 puissance cpu/disk hors CERN~103 utilisateurs batch, interactif
Détecteurs LHC
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 11
Europe: 267 instituts, 4603 utilisateursAilleurs: 208 instituts, 1632 utilisateurs
Instituts reliés au CERN
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 12
Analyse des besoins
RAW Data
DAQ
Trigger
Reconstruction
Event Summary Data (ESD) Reconstruction Tags
RAW Tags Conditions / Calibration Data
Physics Generator
Detector Simulation
Generator Data
RAWmc Data
Monte Carlo
Reconstruction
Event Summary Data (ESD) Reconstruction Tags
RAWmc Tags Conditions / Calibration Data
AOD
Analysis Tags
Physics Analysis
Private Data (e.g. Ntuple)
Analysis Workstation
Physics results
Generator Data For Monte Carlo
events
ESD Sample
RAW Sample
L’analyse des cas d’utilisation des expériencesLHC a permis d’identifier les besoins en matièrede calcul distribué.
Simulation Données Analyse
Document -> LCG -> Priorités
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 13
Analyse des besoins
La comparaison avec les autres domaines a misen évidence des différences, mais aussi des besoins similaires qui permettent l’utilisation deservices communs: Authentification: identification de l’utilisateur
Autorisation: autorisation d’accès aux ressources
Gestion des tâches: création, contrôle,
surveillance de l’éxécution
Gestion des données et des meta-données
accès à l’aide de protocoles standards des données locales et distantes.
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 14
Analyse des besoins Gestion des données (suite)
protection
stockage
Publication des ressources
Découverte des ressources
Optimisation du choix des ressources
Allocation et réservation de ressources
Interopérabilité
Comptabilité de l’utilisation des ressources
Calcul interactif
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 15
Collective ServicesCollective Services
Information &
Monitoring
Information &
Monitoring
Replica ManagerReplica
ManagerGrid
SchedulerGrid
Scheduler
ApplicationsBiomed, Eobs, HEP
ApplicationsBiomed, Eobs, HEP
Underlying Grid ServicesUnderlying Grid ServicesComputing
Element Services
Computing Element Services
Authentication Authorization
Accounting
Authentication Authorization
AccountingReplica CatalogReplica Catalog
Storage Element Services
Storage Element Services
SQL Database Services
SQL Database Services
Fabric servicesFabric services
Grid
Fabric
GridGrid Application LayerGrid Application Layer
Data Management
Data Management
Job Management
Job Management
Metadata Management
Metadata Management
Service Index
Service Index
APPLICATIONS
GLOBUSM / W
Architecture DataGrid
GlobusGlobus
OS & Network, ...OS & Network, ...
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 16
Elément de calcul (CE)
Gère l’accès au système de
gestion des tâches du site
Publie les informations sur les
ressources de calcul du site
CEId: lxshare0399.cern.ch:2119
OpSys: RH 6.2
TotalCPUs: 42, FreeCPUs: 38
TotalJobs: 11, RunningJobs: 4
LRMSType: PBS, …
Description des Services
Computing Computing ElementElement StorageStorage ElementElement
Publish resources
ral
Computing Computing ElementElement StorageStorage ElementElement
Publish resources
cnaf
Computing Computing ElementElement StorageStorage ElementElement
Publish resources
ccin2p3
Elément de stockage (SE)
Gère l’accès
au système de stockage du site
(disque, hpss, castor, …)
aux données (open, rfio, gridftp)
Publie les informations sur les
ressources de stockage du site
SEId: lxshare0393.cern.ch
MountPoint: /flatfiles/SE00
SEfreespace: 16220 MB
SEvo: alice:/flatfiles/SE00/alice, ..
Ressourcesdisponibles?
CEId:tbn09.nikhef.nl
CEId:gppce05.gridpp.rl.ac.uk
CEId:testbed001.cnaf.infn.it
CEId:ccgridli03.in2p3.fr
CEId:ce001.crossgrid.fzk.de
SEId:lxshare0393.cern.ch
SEId:tbn03.nikhef.nl
SEId:gppse05.gridpp.rl.ac.uk
SEId:grid007g.cnaf.infn.it
Pfn:lxshare0393.cern.ch:/flatfiles/SE00/cms/higgs-130
Pfn:tbn03.nikhef.nl:/flatfiles/SE1/cms/higgs-130
Lfn: higgs-130 Pfn ?
ReplicaCatalogue
Server(R.C)
cnaf
InformationIndex
SystemGIIScern
RBJSS
cern
RB/JSSSystème de gestion
des tâches de la grille
UIJDL
cppm
Interface Utilisateur Utilisateurs
autorises ?
Virtual Organization
UsersServer
VO
AuthorizedUser: /C=FR/O=CNRS/OU=LPNHE/CN=Claude Charlot
AuthorizedUser: /C=FR/O=CNRS/OU=SUBATECH/CN=Yves Schutz
AuthorizedUser: /C=IT/O=INFN/L=Milano/CN=Francesco Prelz
AuthorizedUser: /C=FR/O=CNRS/OU=LAPP/CN=Jean-Jacques Blaising
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 17
UIJDL
cppm Computing Computing ElementElement StorageStorage
ElementElement
Publish resources
cin2p3
RBJSS
InformationIndex
SystemGIIS
ReplicaCatalogue
Server(R.C)
cnaf
cern
cern
Exemple de fonctionnement
JDL
JDL
InputSandbox
OutputSandbox
# File job.jdl
Executable = "job.csh";
Arguments = "123";
StdOutput = "job.out";
StdError = "job.err";
InputSandbox = {"job.csh"};
OutputSandbox = {"job.out",job.log,job.hist"};
InputData = "LF:higgs-130:;
ReplicaCatalog = "ldap://atrc.cnaf.infn.it";
I/O
OutputSandbox submit
Job
myproxy
OutputSandbox
Computing Computing ElementElement StorageStorage ElementElement
Publish resources
ral
Computing Computing ElementElement StorageStorage ElementElement
Publish resources
cnaf
InputSandbox
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 18
Testbed Datagrid
Avril 2001: Globus deployé sur quelques sites constituants la plate-forme de test (testbed0). Les applications commencent à utiliser globus. Décembre 2001 Testbed1 (Globus + EDG1.0) deployés CERN(CH), CC-IN2P3(FR), CNAF(IT), NIKHEF(NL), RAL(UK) problèmes (Globus et EDG), tests <-> release Mars 2002 Nouveau release, tests d’applications pour
valider les fonctionnalités tester les performances faire de petites productions (DC)
Aout 2002 EDG1.2 robustesse ameliorée Septembre 2002 Atlas Data ChallengesMap: Map Center Home Page.htm Ressources: Testbed
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 19
Testbed US GriPhyn/PPDG/iVDGL utilisent: Globus + Condor + VDT, deployés sur 8 sites Atlas et Cms développent des services de:
soumission et contrôle de tâches Grappa, Boss gestion de données, Gdmp, Magda gestion de meta-données, Magda monitoring
Ressources utilisées pour les D.C Atlas, Cms
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 20
Application Alice
AliEn: ensemble de logiciels distribués, Globus, Condor, Bbftp, …+ développements ALICE (management de tâches et de données) ALICE a développé des outils pour pallier l'absence de fonctionnalités des produits existants. Alien est modulaire et peut échanger ses modules avec ceux à venir, de la grille EDG/VDT ALICE utilise la GRILLE pour produire des données afin d’optimiser les detecteurs et préparer le document concernant les performances d’Alice pour la physique des ions lourds.
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 21
Application Atlas
Atlas souhaite utiliser les logiciels de grille dans le cadre des productions nécessaires pour le TDR triggers de hauts niveaux (HLT).
Atlas a developpé des applications utilisants les logiciels de management de jobs, de donneés et de meta-données fournis par EDG, Nordugrid, VDT Septembre, Data Challenges DC1 phase-1 simulation Atlsim v3.2.1 pre-installé sur les testbeds EDG, Nordugrid, VDT. 10% des données ont été re-produites sur le testbed EDG. Les resultats sont encourageants => Novembre, Data Challenges DC1 phase-1 pile-up nouvel ensemble de tests afin d’estimer la possibilité d’utiliser la grille pour des productions plus importantes en 2003
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 22
Application Babar
Babar dispose d’un prototype d’interface permettantde soumettre des jobs sur les ressources Babaraccessibles par la grille. Il utilise les services suivants:
Un serveur de VO et un RB/JSS installés à Imperial College Les CE deployés a Slac au CC-IN2P3 et dans
plusieurs autres sites UKBabar souhaite: Implémenter un catalogue de meta-données permettant la préparation des jobs. Evaluer:
L’élément de stockage et le Replica manager EDG Le Storage Resource Broker VDT
Fournir un proto de système de soumission de jobs Planifier les activités Babar pour 2003
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 23
Application Cms
Cms souhaite tester ses outils de production dansl’environnement de la grille.
Cms a developpé des interfaces de logiciels de management de jobs, de données et meta-données BOSS, IMPALA, GDMP Souhaite utiliser le testbed EDG étendu avec des ressources supplémentaires venant de Cms Cpus~200, Disk~2TB Cmsim pre-installé sur les sites: CERN, CC-IN2P3, CNAF, X-IN2P3, Padova, RAL, IC Simuler ~200000 événements, début mi-novembre. Permettra de tester la robustesse et les performances des services EDG (RB, CE, SE)
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 24
Application LHCB
Lhcb a developpé de nouveaux outils de production etsouhaite les tester sur la grille.
Ces outils sont en cours d’installation sur les sites: CERN, CC-IN2P3, CNAF, Nikhef, RAL + ~ 10 petits sites. Souhaite effectuer le test suivant:
Simulation MC données transferées vers SE fichiers logs et histos transferés au CERN
Reconstruction donnees transferées vers SE, puis Castor
Lire les données dans castor a l’aide d’un job d’analyse (hors grille).
Permettra de planifier les activités Lhcb pour 2003
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 25
L’installation et la configuration des services est encore peu conviviale. Certains services manquent de robustesse. Certaines fonctionnalités ne seront disponibles qu’en 2003. Les standards des protocoles d’accès aux ressources et aux données ainsi que ceux des systèmes d’information sont en cours de définition (GLUE). Des développements sont cours afin de tester l’interopérabilité (Datatag).Les services disponibles permettent cependant aux expériences de tester des fonctionnalités de gestion de taches et de données et d’utiliser les sites du testbed pour simuler des événements MC.Les nombreux développements et les tests des applications démontrent l’intérêt croissant des expériences pour la grille.
Bilan DataGrid (Oct-2002)
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 26
Perspectives
Novembre 2002 Datatag (interopérabilité EDG/VDT) Décembre 2002, release EDG1.2.x tests <-> release, D.C Atlas/Cms/Lhcb Février 2003 revue EU, Décembre 2003 fin EDG.
Evolution technologique Globus Toolkit 3.0 “Open Grid Service Architecture” implémentation type services web (XML, SOAP, …) Commercialisation des services (IBM, SUN) IBM annonce IBM Grid: version commerciale de la boîte a outils Globus. Nouveaux Programmes (EU 2004, G.Wormser) Enabling Grids for E-science and industry in Europe EGEE EGEE (appel à expression d’intérêt)
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 27
Conclusions
Les développements et les tests de prototypes de calculdistribué en EU et au USA ont validé le concept. Les expériences développent des outils de productionet les adaptent pour utiliser les services de la grille.Les développements technologiques en cours devraient permettre d’intégrer et de mutualiser les ressourcesnécessaires à l’exploitation des données des détecteursLHC et des autres domaines d’application.
Giens Octobre 2002J.J.Blaising
Grille de calcul et de données 28
Pour en savoir plus
Présentation de F.Hernandez (CC-IN2P3) http://doc.in2p3.fr/doc/public/publications/fabio/
sur le projet http://www.eu-datagrid.org
sur l’état du testbed (F.Etienne) (déploiement, tests, …)
http://marianne.in2p3.fr sur les développements Biomed (V.Breton)
http://marianne.in2p3.fr/datagrid/wp10 sur l'état d'avancement au CC-IN2P3
http://ccgrid.in2p3.fr sur Globus
http://www.globus.org
top related