reprise sur incident - rmll 2011

30
RMLL 2011 Reprise sur incident

Upload: jean-marc-fontaine

Post on 27-Jun-2015

1.221 views

Category:

Technology


5 download

DESCRIPTION

Que se soit suite à une attaque, une défaillance matérielle ou un bogue applicatif, et malgré toute les précautions prises en amont, aucune application en production n’est à l’abri d’une catastrophe.L’important est d’avoir un plan de reprise sur incident efficace pour limiter le plus possible l’impact d’un tel incident sur la qualité de service.Cela passe par une phase de préparation (mise en place de logs, sauvegardes régulière, etc) et par un plan d’action pour le jour J (Communication de crise, diagnostiques, priorisation des tâches, etc.)

TRANSCRIPT

Page 1: Reprise sur incident - RMLL 2011

RMLL 2011

Reprise sur incident

Page 2: Reprise sur incident - RMLL 2011

Qui suis-je ?

» Jean-Marc Fontaine

» Consultant pour Alter Way Consulting

» Président de l'AFUP

» Formateur / Professeur vacataire à l'université de Saint Quentin

» Co-auteur du livre blanc « Industrialisation PHP »

» Auteur du blog Industrialisation-PHP.com

Page 3: Reprise sur incident - RMLL 2011

Cela va arriver !Cela va arriver !

Page 4: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Diminuer la gravité

» Durée d'indisponibilité

» Perte de données

» Rupture de la confidentialité

Page 5: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Minimiser l'impact

» En terme d'image

» Financier

Page 6: Reprise sur incident - RMLL 2011

22/07/11

Se préparerSe préparer

Page 7: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Avoir un plan

» Se préparer pour être efficace le jour J

» Equipe spécialisée

» Implication des fournisseurs

Page 8: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Mesures de mitigation

» Machines virtuelles configurées

» Réplication de la base de données

» Désactivation de certaines fonctionnalités

» Version statique

Page 9: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Sauvegardes

» Sauvegarder tout

» Sauvegarder régulièrement

» Garder un historique intelligent

Page 10: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Journalisation (1/2)

» Système

» Application

» Déploiements

» Opérations de maintenance

Page 11: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Journalisation (2/2)

» Privilégier les formats plats– Manipulation aisée– Signature– Compressibles– Gestion des droits aisées– Rotation

Page 12: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Communiquer en interne

» Certains pics de fréquentations sont anticipables :– Période de l'année– Publicité– Promotion– Communication dans les médias

Page 13: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Déploiement automatisé

» Rapide

» Pas sujet à la pression

» Outils :– Ant– Capistrano– Phing

Page 14: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Tester les procédures

» Régulièrement

» Avec précaution

Page 15: Reprise sur incident - RMLL 2011

22/07/11

DétecterDétecter

Page 16: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Supervision

» Ressources– Nagios– Centreon– Zabbix

» Journaux

» Application

» Disponibilité– Pingdom– NetVigie

Page 17: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Facilitez le contact

» Personne / service à contacter identifiés

» Moyens de contact disponibles facilement

» Réactivité aux contacts entrants

Page 18: Reprise sur incident - RMLL 2011

22/07/11

CommuniquerCommuniquer

Page 19: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Communication

» Isoler l'équipe d'intervention

» Escalader en interne si nécessaire

» Communication externe :– Régulière– Aussi transparente que possible– Page d'état

Page 20: Reprise sur incident - RMLL 2011

22/07/11

AnalyserAnalyser

Page 21: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Identification de la cause

» Interne– Panne matérielle– Instabilité logicielle– Bogue applicatif– Erreur humaine

» Externe– Attaque– Panne matérielle– Pic de fréquentation

Page 22: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Portée

» Quels sont les éléments touchés ?

» Le service est-il réduit ou coupé ?

Page 23: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Impact

» Problème de sécurité ?

» Perte de données ?

» Atteinte à l'image ?

Page 24: Reprise sur incident - RMLL 2011

22/07/11

CorrigerCorriger

Page 25: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Correction

» Activer les mesures de mitigation si nécessaire

» Appliquer les mesures correctives

» Déployer l'application si nécessaire

» En dernier recours tout couper

Page 26: Reprise sur incident - RMLL 2011

22/07/11

ApprendreApprendre

Page 27: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Capitaliser

» Méthode des 5 pourquoi

» Intégrer le résultat aux procédures de test

Page 28: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Récapitulatif

» Se préparer

» Communiquer

» Analyser

» Corriger

» Apprendre

Page 29: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Merci !

» Email : [email protected]

» Twitter : jmfontaine

» Blog : www.jmfontaine.net

» Autre blog : www.industrialisation-php.net

Page 30: Reprise sur incident - RMLL 2011

22/07/11 ALTER WAY - Reprise sur incident

Crédits photos

» http://www.flickr.com/photos/r000pert/136999467/

» http://www.flickr.com/photos/illetirres/2214018398/

» http://www.flickr.com/photos/larimdame/2575986601/

» http://www.flickr.com/photos/techne/107093245/

» http://www.flickr.com/photos/p-doodle/466500483/

» http://www.flickr.com/photos/dennissylvesterhurd/141183312/