automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les...
TRANSCRIPT
J ournées informatiquesde l’IN2P3, Cargèse
23 Juillet 2001
Automatisation dutraitement dedonnées dans
SNIFSCécile AUFRANC,Service informatique,
Institut de Physique Nucléaire de Lyon
11/07/01 Automatisation du traitement de données dans SNIFS 2
Plan de la présentation� Introduction
�Nécessité d’automatiser le traitementdes données
�Principe de l’automatisation
�Optimisation du stockage des données
�Traitement des données
�Tests
�Conclusion
11/07/01 Automatisation du traitement de données dans SNIFS 3
SNIFS : observation de Supernovae de type Ia
� explosion thermonucléaired’une naine blanche, dans unsystème binaire, accrétant lamatière de son compagnon� événement très brillant ~ 10milliards de fois la luminosité dusoleil� événement bref ~ 40 jours� événement rare ~ 1 galaxie parmillénaire
Qu’est-ce qu’une Supernovae de type Ia?
SNIFS : observation de 400 supernovae de type Ia en 3 ans
11/07/01 Automatisation du traitement de données dans SNIFS 4
� amélioration de la précision surle calcul des paramètrescosmologiques� vérification du caractèrestandard des Supernovae de type Ia(entre autres, explication desdifférences entre les spectres dedeux Supernovae différentes)
SupernovaeSupernovae : chandelles standards très utiles pour la mesure de distances et de paramètres cosmologiques pour un modèle d’univers donné
SNIFS : observation de Supernovae de type Ia
Objectifs scientifiques de SNIFS :
11/07/01 Automatisation du traitement de données dans SNIFS 5
La collaboration SNfactory� Recherche de Supernovae, sous la responsabilité de Berkeley� Identification, suivi photométrique et spectroscopique de Supernovae :l’instrument SNIFS sur UH2.2m, Centre de recherche Astronomique de Lyonet Institut de Physique Nucléaire de Lyon (construction et réduction dedonnées)
� Analyse physique : Berkeley, CRAL, IPNL, LPNHE (Paris 6)
Mauna Kea(4200 m),Hawaii,
11/07/01 Automatisation du traitement de données dans SNIFS 6
SNIFS : 2 voies spectroscopiques, 1 voie photométrique
11/07/01 Automatisation du traitement de données dans SNIFS 7
2) Nécessitéd’automatiser letraitement des
données
11/07/01 Automatisation du traitement de données dans SNIFS 8
SNIFS est un spectrographe intégral de champ : très utilisé pourl’observation d’objets étendus car observation simultanéeen trois dimensions (2 dimensions spatiales, 1 dimension spectrale)
SNIFS : SuperNovae Field Integral Spectrometer
Éclatement du champ par une tramede micro-lentilles puis dispersion(chaque lentille concentre le faisceaupour gagner de la place sur ledétecteur / légère rotation de latrame afin d’éviter lechevauchement des spectres)
Réduction de données très complexe
11/07/01 Automatisation du traitement de données dans SNIFS 9
Illustration de la complexité de la réduction spectrale
Spectre initial : nombreuxtraitements à effectuer pouratteindre le spectre final ci-contre
11/07/01 Automatisation du traitement de données dans SNIFS 10
Exemple de chaînede traitement d’un
spectrographeintégral de champ
8 étapes de traitement : réduction longue et complexe!!!
1 x parconfig
1
29 30 31 32 33
37
2 4 8 13 1834
35
36
27
28
2737 38 39 40
5 9 191441
29
42 43 44 45
6 10 2015
4647 48 4930
11 2116
50 51 52
44 2245
53
4342
54 55
38
41
57 5856
3259 60
23
2-Creation du masque
d’extraction1-Prétraitement des images CCD brutes
3-Extraction du spectre
4-Calibration en longueur d’onde
5-Calibration en gain
6-Elimination des cosmiques
7-Soustraction du fond du ciel
8- Calibration en flux
1 x par config
1 x par configet par étoile
31
1 3 7 12 17
24
31
47
11
LégendeFichier identifié par sa fclassModule Oasis
1 x par configet par étoile
SUPERNOVAEBiais
CielLumièreblancheLampe
Spectre de laSUPERNOVAE
Or SNIFS = 3 voies de trai--tement d’où NECESSITE:1) de sélectionnerautomatiquement lesfichiers/modules2) de paralléliser les
traitements
11/07/01 Automatisation du traitement de données dans SNIFS 11
Description des données
Volume important de données : NECESSITE D’AUTOMATISERLE STOCKAGE et ce, de façon optimale pour permettre unenchaînement efficace des traitements
� Données brutes : 53700 fichiers de 32 Mo, 1.72 To de données� Données prétraitées : 51000 fichiers de 32 Mo, 1.63 To de données� Données réduites : 100000 fichiers de 2.4 Mo environ, 320 Go dedonnées
+ relance de traitements : estimation de 100000 fichiers supplémentaires, rajoutant 0.5 To
Nombre total de fichiers : 300000Volume total : 4.2 To
11/07/01 Automatisation du traitement de données dans SNIFS 12
Principe
� Acquisition des données (CRAL)� Mini-chaîne de traitement : vérification que
-les données sont exploitables-la cible observée est une supernovae
Stockage:- des fichiers- d’informations techniques sur les fichiers dans une base de données
Automatisation de la réduction de données :utilisation d’une base de données
Hawaii
Transfert via ftp ou bbftp
Centre decalcul del’IN2P3
Stockage optimal
Gestion autonome de la chaîne de traitement
11/07/01 Automatisation du traitement de données dans SNIFS 13
Optimisation du stockage des données
� Données brutes (50000 fichiers de 32 Mo): stockage sous HPSSétant donné la taille et le nombre de fichiers-stockage transparent pour l’utilisateur, mais avantage, les donnéesissues d’une même nuit seront regroupées sur une même cassette-l’arborescence des fichiers aura pour sommet trois grands types defichiers, chacun d’entre eux possèdera 400 sous-répertoirescorrespondants aux 400 nuits d’observation�Données prétraitées (100000 fichiers de 32 Mo en comptant leretraitement) : stockage probable sous HPSS mais l’organisationdes données sera différente à cause du retraitement� Données réduites (150000 fichiers de 2.4 Mo en comptant leretraitement, fréquemment accédés par des modules de tempsd’exécution courts) : stockage sur disque
11/07/01 Automatisation du traitement de données dans SNIFS 14
5) Traitement desdonnées
11/07/01 Automatisation du traitement de données dans SNIFS 15
3 objectifs principaux pour l’automatisation de la chaîne detraitement de SNIFS:
� La réduction de données des 3 voies en parallèle +fusion des données à certaines étapes
� La relance automatique et optimale de la chaîne lorsde la modification d’un fichier ou d’un module
� La chaîne doit pouvoir fonctionner en mode manuel et/ouautomatique
Cahier des charges de la chaîne detraitement
11/07/01 Automatisation du traitement de données dans SNIFS 16
Stratégie adoptée(1)
35
3 5 6
15 17
module
fichiersd’entrée
fichiersde sortie
Noyau de base : Permet l’auto-organisation de lachaîne : les fichiers de sortie du modulesont les fichiers d’entrée d’un autremodule
� permet de créer toutes les chaînes detraitements possibles
� permet le rajout / la suppressionaisée de modules dans la chaîne detraitement
Le mode de communication entre traitements s’effectue par fichier.
fournit un haut niveau de parallélisme
11/07/01 Automatisation du traitement de données dans SNIFS 17
Stratégie adoptée(2)
� Auto-déclencheur : la détection dans la base de nouveauxfichiers / modules déclenche l’exécution des traitements sil’ensemble des fichiers d’entrée nécessaires sont présents
� Reprise de traitement : détection dans la base de données detoutes les modifications de fichiers ou de modules : permet derelancer l’auto-déclencheur
Principe
11/07/01 Automatisation du traitement de données dans SNIFS 18
� 1° jeu de tables : une table définissant les modules, une autretable définissant l’historique du traitement
� 2° jeu de tables : les tables contenant des informations sur cesfichiers (informations techniques et physiques)
Réalisationpratique
gestion automatique de la chaîne grâceà l’utilisation d’une base de données
permet la définition de la chaîne de traitement / l’enchaînement des étapes
permet de trouver les fichiers à utiliser/ de vérifier la validité de ces fichiers
Schéma représentatif du 2° jeu de tables de labase de donnéescenter
name
storage
address
contact
ActiveNon_activeRemovedExpected
DOMAINCONSTRAINT
PRIMARY KEY
CONSTRAINT
files_type
name
description
files
files_id
files_size
name
type
checksum
original_name
creation_time
user_create
db_create_time
user_modify
db_create
modify_time
localization
files_id
storage
center
validity
path
date_storage
telescope
name
secondary_diameter
primary_diameter
latitude
longitude
instrument
name
nb_channel
description
detector
detector_id
instrument
name
channel
telescope
filter
name
band
type
spectral_response
target
name
declinaison
ascension
equinox
coord_system
users
name
laboratory
role
phone
permission
Bias
filter
files_id
standard
target
airmass?
files_idfits
files_id
fits_type
detector_id
kind
fclass
date_taking
Ident on kind&frame
Ident on type
frame
Imoy
Imax
Imin
illum_area
overscan
Sigma_Imoy
files_id
fits_type
name
description
kind
name
description
fclass
name
description
science
target
airmass
files_id
type
Informations techniques Informations sur le contenu des fichiers
11/07/01 Automatisation du traitement de données dans SNIFS 20
� La base de données utilisée est Oracle (backup assuréau CCIN2P3)
� Les programmes permettant l’interface avec la base et lesystème BQS (Batch Queuing System) du Centre deCalcul où les modules s’exécuteront, seront écrits en Cet contiendront du SQL embarqué
Implémentation
11/07/01 Automatisation du traitement de données dans SNIFS 21
6) Conclusion
Planning
Stockage autom. avecdonnées Paris 6
20022001
Installation + mise enplace à Hawaii
Dvlpt interface utilisateur
Mini-chaîne de contrôle àHawaii
Dévlpt : autom. chaînetraitement
Design : autom. de lachaîne de traitement
Stockage autom. avecdonnées issues de 33{télescopes, instruments}différents
Développement de la basede données
2003Juin Février
Réunions Snfactory:25Juin
10/11Déc.