la haute disponibilité

39
La haute disponibilité

Upload: dolbou

Post on 11-Jun-2015

811 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: La haute disponibilité

La haute disponibilité

Page 2: La haute disponibilité

Table des matières

Introduction……………………………………………………………………………………………..3Mesure de la disponibilité brute .............................................................................................................. 4Mesure de la disponibilité ajustée ........................................................................................................... 8Disponibilité de Cisco IT-LAN-SJ-Production en 2002 ....................................................................... 10Les étapes Cisco pour une disponibilité de 99,9 % .................................. .......................................... 14Etape 1 : Mesure de la disponibilité ..................................................................................................... 14Etape 2 : Alertes d’interruption de service ........................................................................................... 17Etape 3 : Hiérarchie physique ............................................................................................................... 17Etape 4 : Hiérarchie logique.................................................................................................................. 20Etape 5 : Analyse des causes fondamentales des interruptions de service ........................................... 26Etape 6 : Des onduleurs pour les unités critiques.................................................................................. 30Etape 7. Gestion de la redondance ....................................................................................................... 30Etape 8 : Gestion des changements ...................................................................................................... 31Etape 9 : Pièces de rechange en cas d’urgence..................................................................................... 31Etape 10 : Gestion hors bande.............................................................................................................. 31Les étapes Cisco pour une disponibilité de 99,99 % ........................................................................... 33Etape 1 : Le contrôle proactif de la redondance .................................................................................. 33Etape 2 : Des onduleurs pour toutes les unités .................................................................................... 35Etape 3 : Des générateurs pour les unités critiques ............................................................................. 35Etape 4 : Des audits automatisés sur la configuration des routeurs..................................................... 35Etape 5 : Intégration de la gestion des changements avec la surveillance de la disponibilité ............ 36Etape 6 : Normalisation des versions de code .................................................................................... 36Etape 7 : Formation au dépannage ..................................................................................................... 44Etape 8 : Séparation de la gestion des incidents et de la résolution des problèmes ........................... 44Les étapes Cisco pour une disponibilité de 99 999 % ....................................................................... 46Etape 1 : Toutes les unités doivent être sur générateur de secours.................................................... 46Etape 2 : Contrôle automatique de la configuration des commutateurs ............................................ 46Etape 3 : Audit manuel semi-annuel ................................................................................................. 46Les tactiques spécifiques de Cisco pour améliorer la disponibilité du réseau Production ................47Séparation des réseaux Production et Alpha ..................................................................................... 47Le centre d’assistance technique ....................................................................................................... 47Adoption des recommandations…………………………………………………............................. 49Cisco IT-LAN-SJ : la haute disponibilité en quelques étapes

Page 3: La haute disponibilité

INTRODUCTION

Le réseau est le principal facteur de productivité de l’entreprise du 21ème siècle. Vos clients l’utilisent pour acheter vos produits. Il contrôle votre chaîne d’approvisionnement, simplifie le travail des ressources humaines, facilite la gestion de la paie, des avantages sociaux et de la formation. Grâce à la téléphonie IP, les appels téléphoniques partagent l’infrastructure du réseau de données.Dans un tel environnement, on serait dans l’incapacité de travailler sans un réseau opérationnel à haute disponibilité. Pour mesurer cette disponibilité, l’entreprise compte généralement le nombre de minutes d’interruption de service ou d’indisponibilité du réseau :• Trois 9 (99,9 %) = 10 minutes de temps d’arrêt chaque semaine ;• Quatre 9 (99,99 %) = 1 minute de temps d’arrêt chaque semaine ;• Cinq 9 (99,99 %) = 6 secondes de temps d’arrêt chaque semaine ;

Pour Nous, une disponibilité « trois 9 » ne suffit plus. Nous devons atteindre au moins «quatre 9 » pour travailler de manière efficace, mais toute entreprise soucieuse de sa productivité aspire à une disponibilité de 99,999 %. Bien que les grandes compagnies possèdent le plus souvent des réseaux et des équipements conçus pour le niveau « cinq 9 », très peu d’entre elles font état d’une telle disponibilité dans un environnement productif à grande échelle.

Page 4: La haute disponibilité

PRESENTATION

Les protocoles réseaux transportent les données des applications à travers le réseau de l'entreprise. Ces protocoles comptent sur une architecture réseau qui fournit la hiérarchie, les adresses et les informations de la topologie aux machines clientes. Une passerelle ou un routeur multi protocole approvisionne toutes ces informations. Les stations de travail, routeurs, et serveurs de fichiers doivent communiquer entre eux, et c'est dans ce but que les protocoles ont implémenté des méthodes de recherche pour trouver et conserver l'adresse de la passerelle.

Certains protocoles font cette recherche automatiquement, mais d'autres ont besoins que ces informations soient enregistrées dans la configuration des stations de travail. Après que l'ordinateur a trouvé la passerelle et qu'il communique avec les serveurs d'applications, le chemin est ainsi trouvé. Le chemin dure le temps d'une session, il y a donc une possibilité d'erreur. Si jamais quelque chose change dans le chemin, par exemple la passerelle, la session prend fin. Sauf si une passerelle redondante a été installée, pour accroître la disponibilité du réseau, le protocole va mettre la session en timeout avant de trouvé un autre chemin jusqu'à la prochaine passerelle, sans pour autant déconnecter l'utilisateur.

1. Le protocole HSRP

1.1. Introduction

HSRP( Hot Standby Router Protocol) est une méthode standard de Cisco, HSRP permet de fournir une très bonne disponibilité du réseau en fournissant une "première couche" de redondance de panne sur les IP des ordinateurs configurés avec une adresse IP de passerelle par défaut, sur un réseau en IEEE 802 LAN. Les routes créées par le protocole HSRP transportent le trafic sans compter sur la présence d'un routeur. Il permet de faire travailler les interfaces d'un routeur comme une seule interface, de façon transparente pour l'utilisateur.

Lorsque le protocole HSRP est configuré sur un réseau ou un segment, il fournit une adresse MAC virtuelle et une adresse IP virtuelle, qui est partagée entre plusieurs routeurs configurés. HSRP permet 2 ou plusieurs routeurs configurés avec HSRP à utiliser les adresses MAC et IP d'un seul routeur virtuel. Bien sûr le routeur virtuel n'existe pas; il représente la cible commune pour les routeurs configurés en back up les uns les autres. Un des routeurs est sélectionné pour être le routeur actif et un autre pour être le routeur en attente, qui assumera le control des adresses MAC et IP si jamais le routeur actif tombe.

HSRP offre une méthode qui permet un accès illimité sur le protocole IP en partageant les adresses MAC avec les passerelles redondantes. Le protocole HSRP a été implémenté à l'IOS CISCO à partir de la version 10. Le protocole consiste à une adresse MAC virtuelle et une autre "vrai" adresse qui sont partagées avec deux routeurs. Et un procédé qui monitor à la fois les interfaces LAN et serial via protocole Multi cast. Cette caractéristique s'active avec les commandes suivantes :

Standby [group number] ip [ ip-address( secondary)]Standby [group number] timers hellotime holdtimeStandby [group number] priority  numberStandby [group number] preemptStandby [group number] track type number [interface priority]Standby [group number] authentication string 

Page 5: La haute disponibilité

Les routeurs, qui sont inclus dans le group HSRP, communiquent ensemble via un protocole UDP. Pendant l'utilisation des priorités et des commandes préemptées, un des routeurs est choisi pour être le routeur actif et le deuxième est considéré comme une back up. Si le routeur de back up ne reçoit plus les paquets HSRP provenant du routeur actif, c'est du soit aux segment LAN qui est instable ou soit le routeur actif a un problème. Dans ces cas là, le routeur de back up assume le contrôle de la MAC virtuelle et du protocole. Avec l'IOS on configure le temps ou le HSRP envoie des paquets de "réveil" au routeur de back up et le moment ou  le routeur de back up prend le relais en déclarant que le routeur actif ne l'est plus.

 

1.2. Mise en place

Pour l'implémentation du protocole HSRP dans n'importe lequel des environnements, une seul règle doit être suivi, sinon le réseau ne fonctionnera pas correctement. La règle est simple :

LA CONNEXION DE PORTS ENTRE LES DEUX ROUTEUR DOIT IMPÉRATIVEMENT ETRE GARANTIE.

Si l'environnement réseau casse, les deux routeurs prennent la main et assurent tous les deux l'adresse IP primaire, et préviennent le réseau tout entier. Si les routeurs sont attachés à un groupe de switchs, la même règle s'applique; les switchs sont alors considérés comme un seul segment Ethernet ou Token Ring. Si l'ATM est utilisé pour interconnecter des switchs et les routeurs dans le LAN, pendant que le HSRP envoie ses "recovry data" qui sont destinés aux routeurs à travers du broadcast. 

Une implémentation (voir figure 1) consiste en plusieurs utilisateurs connectés à un switch et à 2 serveurs. Le serveur Y est connecté à une ligne à haute vitesse derrière les routeurs, et le serveur Z est situé dans un endroit distant. Les switchs réseaux sont connectés les uns aux autres via un trunck 100BaseT, et chacun des switchs est connecté à un routeur.

Page 6: La haute disponibilité

Figure 1 : Réseau de test.

 

    Cette implémentation réduit de façon significative les impacts de la perte d'un élément. Cependant, les issues spécifiques doivent être configurées comme un tel environnement, surtout pour le spanning-tree et le routeur HSRP actif. Si le switch A est le switch qui gère le trunck et que le routeur B est le routeur actif, alors il y a 4 possibilités de couper les clients des serveurs :

- le routeur principal lâche- le switch perd la connexion avec un autre- les 2 switchs perdent le trunck qui est entre eux- un des câbles séries lâche...

Comment configurer son routeur :

routeur  # configure terminalrouteur  (config)# interface gigabitethernet1/0/1routeur  (config-if)# no switchportrouteur  (config-if)# standby 1 iprouteur  (config-if)# endrouteur  # show standby

Page 7: La haute disponibilité

3. Le protocole GLBP

3.1. Introduction

Le Protocole d’équilibrage de Charge (Gateway Load Balancing Protocol) protège les données de toutes failles d’un routeur ou d’un circuit, à peu près comme le fait le HSRP et le VRRP, tout en permettant le partage de charge de paquets entre plusieurs routeurs redondants.

 

3.2. Mise en place

Tout d’abord, il faut s’assurer que votre routeur peut supporter des adresses MAC multiples sur une interface physique. Pour chaque routeur configuré en GLBP, une nouvelle adresse MAC est utilisée.            Le GLBP fournit un back up automatique pour les hôtes configurés en IP avec une simple passerelle par défaut. Certains routeurs présents sur le réseau local offrent une seule et même adresse IP de passerelle et se partagent les paquets et la charge réseau. Les autres routeurs sur le réseau local sont considérés comme des redondants et inactifs. A partir du moment où l’un des routeurs principaux tombe, les autres routeurs deviennent actifs.             Le GLBP fournit un service similaire mais pas identique (pour l’utilisateur) que le HSRP et que le VRRP. Les deux derniers protocoles nommés permettent l’utilisation de plusieurs routeurs qui participent à faire un routeur virtuel configuré avec une adresse IP virtuelle.

Le souci c’est qu’un seul des routeurs est sélectionné c’est lui qui gère tout le trafic, et les autres routeurs attendent que le principale lâche…  Les routeurs inactifs n’utilisent pas la bande passante qui leur est allouée. Tous les groupes de routeurs servant, à faire un routeur virtuel, ne servent qu’à cela. Alors pour configurer plusieurs passerelles par défaut, ce n’est pas très pratique.             Le GLBP permet de faire de la répartition de charge sur plusieurs routeurs en utilisant une seule et même adresse IP virtuelle et plusieurs adresses MAC virtuelles. Chaque hôte est configuré avec la même adresse IP virtuelle de passerelle, et tous les routeurs du groupe participent à la répartition de la charge. 

            Les routeurs membres d’un groupe GLBP élisent un AVG (Active virtual Gateway) qui va se faire passer pour la passerelle par défaut pour les utilisateurs. L’AVG s’occupe de répondre à toutes les requêtes ARP pour l’adresse IP virtuelle. La répartition se fait sur le fait que l’AVG répond aux requêtes ARP avec des adresses MAC virtuelles différentes.

 la Figure 1, le routeur A est l’AVG pour le groupe GLBP, et il est responsable de l’adresse IP virtuelle 10.21.8.10. Le routeur A est aussi un AVF (Active virtual Forwarder) pour l’adresse MAC virtuelle 0007.b400.0101. Le routeur B est un membre du même group GLBP et il est désigné pour être un AVF pour l’adresse MAC virtuelle 0007.b400.0102.

Le Client 1 a pour passerelle par défaut l’adresse IP 10.21.8.10 et pour adresse MAC de passerelle : 0007.b400.0101. Le Client 2 partage la même adresse IP que le Client 1 mais reçoit une adresse MAC de passerelle différente : 0007.b400.0102 (celle du routeur B), car le routeur B partage le trafic avec le routeur A.

Page 8: La haute disponibilité

 

Si le routeur A devient inaccessible, le Client 1 ne perdra pas l’accès au WAN car le routeur B assume la responsabilité, du transfert des paquets envoyés à l’adresse MAC virtuelle du routeur A, et répond aux paquets envoyés à l’adresse MAC du routeur B.Le routeur B prend aussi le relais et devient AVG à son tour pour tout le groupe GLBP. La communication entre les membres du groupe du GLBP continue en dépit de l’échec d’un routeur dans le groupe.

Comment le mettre en œuvre :

1. enable2. configure terminal3. interface type number4. ip address ip-address mask [secondary]5. glbp group authentication text string6. glbp group forwarder preempt [delay minimum seconds]7. glbp group load-balancing [host-dependent | round-robin | weighted]8. glbp group preempt [delay minimum seconds]9. glbp group priority level10. glbp group timers [msec] hellotime [msec] holdtime11. glbp group timers redirect redirect timeout12. exit

 Retour sur différentes étapes :

Page 9: La haute disponibilité

 5) glbp group authentication text string : Authentifie les paquets GLBP reçu par les autres   routeurs du groupe. Si il y a configuration de l’authentification, tous les routeurs doivent avoir la même chaîne d’authentification.

6) glbp group forwarder preempt [delay minimum seconds] :Configure le routeur pour prendre la main pour être AVF pour le groupe GLBP si il a une priorité plus élevée que l’AVF courant.

7) glbp group load-balancing [host-dependent |round-robin | weighted] :Spécifie les méthodes de répartition des charges utilisées pour le GLBP.

8) glbp group preempt [delay minimum seconds] :Configure le routeur à prendre la main pour être AVG pour le groupe GLBP si il a une priorité plus élevée que l’AVG courant.

9) glbp group priority level :Etablit le niveau de priorité de la passerelle avec le groupe GLBP.

10) glbp group timers [msec] hellotime [msec] holdtime :Configure l’intervalle entre les envois successifs des paquets « hello » envoyé par l’AVG dans le groupe GLBP. 

11) glbp group timers redirect redirect timeout :Configure le temps de l’intervalle durant lequel l’AVG continue à rediriger les clients vers un AVF.

4. Le protocole SLB

4.1. Introduction

Le protocole de Cisco : Server Load Balancing, prend des décisions de répartition de charge, basées sur la disponibilité des applications, de la capacité des serveurs et de la charge des algorithmes de distribution des paquets. L’utilisation de matériel compatible SLB permet de déterminer un vrai serveur et de lui envoyer tous les paquets et surtout de pouvoir transférer les réponses aux clients. Après que la décision optimale soit prise tous les autres paquets sont redirigés à ce serveur même si il y a une augmentation du trafic réseau.

SLB met en place un serveur virtuel pour tout un groupe de serveur réel. Dans cet environnement les clients sont configurés pour se connecter à l’adresse IP du serveur virtuel.L’adresse IP du serveur virtuel est configurée comme une adresse de LoopBack ou comme une adresse IP secondaire qui pointe sur chaque vrai serveur. Si un client tente une connexion au serveur virtuel le SLB choisie un vrai serveur pour la connexion grâce à la configuration de l’algorithme de répartition de charge.

Page 10: La haute disponibilité

 

4.2. Mise en place

 

 

            L’algorithme du SLB repose sur le Round Robin et sur le minimum de raccordement. On peut choisir l’un ou l’autre pour permettre de passer du serveur virtuel au serveur réel. Le Round Robin permet d’attribuer à chaque serveur réel un numéro (n) qui correspond à sa capacité de prise en charge. Par exemple, il y a 3 serveurs réels : SrvA n=3, SrvB n=1, SrvC n=2 ; Les 3 premières connexions se feront sur SrvA, puis la quatrième sur SrvB et les 2 dernières sur SrvC. L’algorithme du minimum de raccordement spécifie que sur le prochain vrai serveur la connexion est faite que si c’est le serveur qui a le moins de raccordements actifs. Tous les serveurs réels ont un poids qui leur est assigné. Lorsque le poids est assigné, le serveur est choisi par le nombre de connexions inactives et sa capacité de connexion. 

Page 11: La haute disponibilité

Comment le mettre en œuvre : 

- Routeur (config) # ip slb serverfarm nom_ferme-des-srvAjoute un nom de ferme de serveur à la configuration de SLB et rentre dans le mode de configuration de  la ferme de serveurs.

- Routeur (config-slb-sfarm) # real adresse-ipIdentifie les différents serveurs réels et rentre de le mode de configuration des serveurs réels.

- Routeur (config-slb-real) # inservicePermet de créer les serveurs réels.

- Routeur (config) # ip slb vserver serveur_virtuelIdentifie un serveur virtuel et rentre dans le mode de configuration du serveur virtuel.

- Routeur (config-slb-vserver) # serverfarm nom_ferme-des-srvAssocie une ferme de serveurs réels à un serveur virtuel.

Routeur (config-slb-vserver) # virtual adresse-ip {tcp | udp} numéro-port [service nom-service]Spécifie l’adresse IP du serveur virtuel, le type de la connexion, et le numéro du port utilisé.

Conclusion

la disponibilité de HSRP pour l'IP fourni une infrastructure complète et directe de gestion de réseau et de redondance de panne. Le protocole VRRP est très utile pour relier différents LAN grâce au VPN. Son point fort est la gestion d’une route statique avec de la redondance de panne.Le GLBP offre un service similaire mais plus que le HSRP et que le VRRP. Les deux derniers protocoles nommés permettent l’utilisation de plusieurs routeurs qui participent à faire un routeur virtuel configuré avec une adresse IP virtuelle.

Le souci, quand on utilise HSRP ou VRRP, c’est qu’un seul des routeurs est sélectionné c’est lui qui gère tout le trafic, et les autres routeurs attendent que le principale lâche…  Les routeurs inactifs n’utilisent pas la bande passante qui leur est allouée. Tous les groupes de routeurs servant, à faire un routeur virtuel, ne servent qu’à cela.

Le GLBP permet donc une utilisation complète de la bande passante dédiée à tous les routeurs. Il permet aussi de gérer les différentes pannes sans pour autant arrêter le service pour les utilisateurs.

 

Page 12: La haute disponibilité

Les étapes Cisco pour une disponibilité de 99,9 %

Etape 1 : Mesure de la disponibilité

La première étape à suivre pour réaliser des temps de fonctionnement optimaux consiste à surveiller età mesurer la disponibilité en continu. La mesure de la disponibilité ne doit pas être perçue comme unoutil statistique occasionnel pour la gestion, mais plutôt comme un moyen d’améliorer la fourniture deservice. Ces mesures peuvent être utilisées pour identifier et corriger, de manière stratégique, lescauses des interruptions de service majeures, et de manière tactique, celles des petites interruptionslocalisées.Utilisation stratégique des mesures de disponibilitéLes rapports de disponibilité mensuelle, trimestrielle et annuelle sont générés par un ingénieur réseauprincipal. Ils permettent d’attirer notre attention sur la disponibilité du service et de mettre en évidenceles réussites comme les secteurs qui doivent être tous les deux améliorés.

Etape 2 : Alertes d’interruption de service

La communication est un facteur critique de la haute disponibilité et les interruptions de servicedoivent être signalées en temps réel à l’équipe d’assistance technique. Pour que celle-ci puisse réagirde manière appropriée, un niveau de priorité a été attribué à chaque unité du réseau Cisco IT-LAN-SJ.En voici la liste :• Priorité 1 : les grands commutateurs de couche d’accès lorsqu’il n’existe pas de possibilité deredondance car les clients se connectent directement au commutateur ou à la passerelle qui ne sont pas doublés.• Priorité 2 : les routeurs avec redondance et les petits commutateurs de couche d’accès.• Priorité 3 : les réseaux de gestion hors bande et les autres réseaux d’assistance.• Priorité 4 : les points d'accès sans fil.

Etape 3 : Hiérarchie physique

Pour atteindre une disponibilité de 99,9 %, Nous avons besoin d’un réseau fondamentalement stable,ce qui sous-entend une double hiérarchie physique et logique.Résumé de la hiérarchie physiquePour atteindre une disponibilité égale ou supérieure à 99,9 %, le réseau doit être fondamentalementstable avec une hiérarchie physique bien définie. Ceci évite que les extensions de réseau finissent parengendrer une topologie chaotique avec une redondance excessive en certains endroits – qui accroît lacomplexité du routage – et insuffisante dans d’autres. Une hiérarchie physique bien définie permetd’ajuster au plus près les besoins de redondance et garantit la stabilité fondamentale du réseau.De plus, la hiérarchie physique est un pré-requis de la hiérarchie logique, laquelle est absolumentvitale au maintien de la stabilité du routage.

Etape 4 : Hiérarchie logiqueParallèlement à la hiérarchie physique, la hiérarchie logique pose les fondations d’un réseaufondamentalement stable. La base de données de gestion des adresses du réseau mondial de Ciscorecense plus de 23 000 sous-réseaux. Bien que le protocole BGP (Border Gateway Protocol) puissegérer sans difficulté une table de routage aussi volumineuse, ce n’est pas le cas des protocoles IGP quifavorisent la rapidité de la convergence au détriment de l’évolutivité. La gestion d’une table de routagede 23 000 entrées entraînerait l’instabilité du réseau quels que soient les protocoles IGP (EIGRP,OSPF ou IS-IS).Une hiérarchie logique permet de réduire la taille de la table de routage. Cette hiérarchie s’appuie surtrois composantes :

Page 13: La haute disponibilité

1. une hiérarchie physique2. l’assignation hiérarchique de l’espace d’adressage pour qu’il s’aligne sur la hiérarchie physique 3. les résumés de routes qui permettent de profiter de l’allocation hiérarchique de l’espace d’adressage.

Résumé de la hiérarchieLa hiérarchie physique est un pré-requis de toute hiérarchie logique. L’allocation de l’espaced’adressage dans une hiérarchie logique permet la réduction. Cette hiérarchie et cette réduction sontindispensables à la réalisation d’un réseau fondamentalement stable.

Etape 5 : Analyse des causes fondamentales des interruptions de service

Pour l’équipe de topologie de réseau, une même interruption évitable ne doit pas sereproduire une seconde fois. Cet objectif important donne lieu à une procédure simple :1. identifier la cause de l’interruption de service ;2. éliminer la cause de l’interruption dans le bâtiment concerné ;3. déterminer si d’autres bâtiments sont vulnérables ;4. si c’est le cas, modifier le réseau pour éviter la même interruption dans ces autres bâtiments ;5. mettre à jour la documentation architecturale pour limiter la vulnérabilité des déploiementsultérieurs.En raison de leur charge de travail, les ingénieurs réseaux ont tendance à s’occuper des causesfondamentales dans le bâtiment touché, puis à passer à leurs autres tâches. La direction doit se chargerdu suivi pour éviter l’apparition d’interruptions identiques dans les autres bâtiments et vérifier la miseà jour de la documentation architecturale.

Visibilité de gestion

Un service astreint opérationnel tous les jours 24 heures sur 24, assurera les fonctions suivantes :• il identifie les interruptions de service en cours lorsqu’elles ont un impact sur l’activité, soit grâce àun logiciel de surveillance, soit sur rapport téléphonique ;• il classe l’interruption de service en fonction de sa gravité ;• il notifie le personnel de service pour qu’il résolve le problème technique ;• en fonction de la gravité et de la durée de l’interruption, il fait remonter l’information à la direction.Lorsqu’une réparation provisoire a été mise en place, le personnel technique :• assure un suivi régulier avec la personne qui a résolu le problème pour s’assurer que la cause fondamentale a été identifiée ;• assure un suivi régulier avec la personne qui a résolu le problème pour s’assurer qu’une solution àlong terme a été trouvée, si nécessaire ;

Définitions des priorités et de la gravité des interruptions de service

Le suivi des unités prioritaires permet d’obtenir à l’avance une estimation de la gravité potentielled’une interruption. Les unités, les applications et les bases de données sont surveillées car leur défaillance peut avoir des conséquences graves sur l’activité de l’entreprise. Les incidents de typeP1 et P2 nécessitent ainsi une intervention immédiate du service technique lorsqu’il est contacté parles responsables incidents. En théorie, les incidents P1 doivent être résolus en 2 heures maximum, etles incidents P2 en moins de 4 heures.

Page 14: La haute disponibilité

Priorité 1 : réponse immédiate et résolution en moins de deux heures. Les applications P1 sontnécessaires au traitement des revenus et utilisées par la pluspart du personnel de direction. Ces applications doivent bénéficier d’une assistance technique sur simple appel 24 heures sur 24. En cas de panne, elles donnent lieu à l’ouverture d’un ticket P1 et à l’envoi de pages de notification. Les équipements de réseau P1 sont ceux qui supportent plus de 100 personnes ou un site partenaire pendant les heures d’ouverture, ou qui accèdent à n’importe quel serveur ou application P1.Un ticket P1 peut être ouvert lorsque le service de réseau est interrompu et si plusieurs unitésassimilables à la catégorie P2 sont affectées.

Priorité 2 : réponse dans les deux heures et résolution en moins de 4 heures. Les applications P2 sontutilisées par un plus petit nombre de clients et peuvent, par définition, demeurer en panne pluslongtemps sans affecter la capacité de traitement. Les équipements de réseau P2 supportent moins de 100 personnes ou permettent l’accès à des applications et des serveurs de catégorie P2.

Priorité 3 : réponse en moins d’une journée. Les applications P3 sont utilisées par un groupespécifique de clients : en cas de défaillance, elles ne doivent pas empêcher ces clients de poursuivreleurs activités ou peuvent être aisément contournées. Ces applications peuvent rester en panne pendantune durée prolongée sans incidence sur la productivité. Parmi les équipements de réseau P3 figurentles connectivités RNIS et Frame Relay locales ainsi que les réseaux de serveurs consoles.

Priorité 4 : réponse en moins de deux jours. Les applications P4 sont généralement en cours dedéveloppement ou très rarement utilisées et n’ont aucune incidence sur les revenus.

Définition de la gravité d’une interruption

La gravité est une mesure de l’incidence réelle sur l’activité. Les incidents qui entraînent l’indisponibilité des ressources surveillées de type P1 ou P2 n’ont pas systématiquement d’incidencegrave sur l’activité. La gravité permet de différencier, en fonction de la priorité, les réponses attenduesau problème à partir de l’incidence (la gravité de l’impact sur l’activité). La gravité d’un cas est déterminée au moment de l’incident et sur la base des circonstances réelles. Pour les tous les incidents P1 et P2 gérés par les responsables incidents, elle est évaluée selon la grille ci-dessous:Définition Exemples

Définition Exemples

Gravité 1 • Incidence immédiate et importante surl’activité

• Coupure de courant dans un centre de calcul

• Aucun contournement possible • Panne complète du réseau sur tout le campus

Gravité 2 • Incidence négative sur l’activité • Dégradation d’un système critique• Aucun contournement possible • Incidence sur la fabrication au

niveau mondialGravité 3 • Faible incidence sur l’activité • Indisponibilité d’un contenu de

production ou d’un déploiement decode

• Contournement possible avec baisse desperformances

• Effet localisé

Gravité 4 • Incidence faible ou nulle sur l’activité • Equilibrage de charge desapplications

• Contournement possible • Service de réseau redondant

• Interruption des services de bureau en dehors des heures d’ouverture

Page 15: La haute disponibilité

Responsabilité de la direction

Les responsables informatiques exposent les informations essentielles à leurs supérieurs au cours d’une revue opérationnelle. Ces analyses périodiques de la disponibilité et des évaluations P1 à tous les niveaux de la chaîne de direction donnent la priorité à la résolution des causes fondamentales des interruptions de service.Les informations clés présentées au cours de ces revues opérationnelles sont notamment :• les mesures de disponibilité du réseau ou des applications,• les chiffres des interruptions de service de type P1 (y compris leur nombre et leur gravité),• des informations détaillées sur les éventuelles interruptions de gravité 1 et 2.

Etape 6 : Des onduleurs pour les unités critiques

Une disponibilité de 99,9 % correspond à 8,766 heures de temps d’arrêt par an. Les coupures decourant imprévues sont à l’origine d’une partie de ces temps d’arrêt, mais comme le réseau électriqueest raisonnablement stable, il n’est pas nécessaire que toutes les unités soient sur alimentation non interruptible pour atteindre une disponibilité de 99,9 %. Il est toutefois recommandé de mettre sur onduleur les unités critiques, et notamment les routeurs de coeur de réseau, pour :• éviter que les coupures de courant localisées dans les bâtiments qui hébergent des routeurs de coeurde réseau se transforment en panne de réseau élargie• protéger les unités critiques contre les surtensions qui peuvent générer des défaillances matérielles.

Etape 7. Gestion de la redondance

La redondance est un facteur essentiel pour atteindre une disponibilité de 99,9 %. Pour chaquecommutateur de couche 2, Cisco prévoit deux chemins distincts en direction de passerelles decouche 3 indépendantes. L’architecture du réseau est prévue pour empêcher qu’une défaillance uniqueprovoque la segmentation des domaines de couche 2. Chaque passerelle de couche 3 est égalementdotée de deux chemins distincts vers le coeur de réseau redondant.Pour la réalisation de sites de réseau WAN et MAN, la connectivité est assurée par lignes louées avecdes chemins différents lorsque cette solution est économiquement acceptable. Chaque passerelleredondante de réseau WAN ou MAN est liée au fédérateur par l’intermédiaire d’une des lignes louées.

Etape 8 : Gestion des changements

La gestion des changements fournit un mécanisme nécessaire de communication qui :• évite que des changements non planifiés superposent des interruptions de service sur des systèmesliés • crée un enregistrement des changements afin que les ingénieurs d’assistance puissent savoir si uneinterruption de service est la conséquence d’un changement récent.

Etape 9 : Pièces de rechange en cas d’urgence

L’équipe du réseau LAN conserve au moins une pièce de rechange pour chaque pièce déployée sur le réseau de production. Installés de la périphérie jusqu’au coeur du réseau, les commutateurs de la gamme Cisco Catalyst 6500 permettent de limiter considérablement le nombre de pièces détachées qui doivent rester immédiatement disponibles. Les pièces de rechange d’urgence font l’objet d’une gestion distincte de l’inventaire général. Elles sont clairement étiquetées et permettent une intervention en cas d’interruption de service sans attendre la délivrance d’un numéro d’autorisation de retour de matériel ou RMA (Return Materials Authorization). Un ingénieur réseau subalterne est responsable de l’inspection régulière du stock des pièces de rechange.

Page 16: La haute disponibilité

Etape 10 : Gestion hors bande

Pour limiter les interruptions de service réseau, il est nécessaire de réaliser un réseau distinct degestion hors bande. Le réseau hors bande présente les caractéristiques suivantes :• c’est un réseau plat et non redondant ;• il utilise un routage statique pour la connexion au réseau de production ;• il possède son propre serveur DNS ;• chaque console d’unité de réseau de production est connectée à un serveur console sur le réseau horsbande.Un tel réseau hors bande réduit considérablement la durée des interruptions planifiées et non planifiéescar il permet de résoudre de nombreux problèmes à distance.

En résumé : Comment atteindre une disponibilité de 99,9 %

Il n’est pas difficile d’atteindre de tels temps de fonctionnement à la condition de disposer d’un réseaufondamentalement stable. Pour garantir ce niveau de disponibilité, l’équipe technique doit suivre les étapes suivantes :• mesurer la disponibilité et exploiter activement les rapports de manière tactique et stratégique ;• construire un réseau doté d’une hiérarchie physique ;• construire un réseau doté d’une hiérarchie logique ;• assurer le suivi de l’analyse et de la remédiation des causes fondamentales ;• protéger les unités critiques par des onduleurs ;• construire un réseau redondant ;• communiquer et enregistrer les changements à l’aide d’un système simple de gestion deschangements ;• prévoir des pièces de rechange pour les cas d’urgence ;• réaliser un réseau de gestion hors bande.La plupart de ces étapes sont relativement simples à mettre en place. La réalisation d’un réseauredondant doté d’une hiérarchie physique et logique peut exiger des travaux d’envergure ; sans cescaractéristiques, toutefois, il est impossible d’atteindre des niveaux élevés de disponibilité sur lesréseaux de grande taille.

Page 17: La haute disponibilité

Les étapes Cisco pour une disponibilité de 99,99 %

Alors qu’une disponibilité de 99,9 % représente 8,766 heures de temps d’arrêt par an, il faut descendreen dessous de 53 minutes d’interruption par an et par appareil pour atteindre une disponibilité de99,99 % : une seule interruption globale de 15 minutes, et vous dépassez vos objectifs trimestriels ! Unréseau fondamentalement stable permet d’obtenir une disponibilité de 99,9 %, mais le niveausupérieur exige un réseau plus robuste encore.En plus des étapes décrites ci-dessus (voir la section 99,9 %), les étapes suivantes étaient nécessaires pour atteindre ce niveau de disponibilité :• le contrôle proactif de la redondance • des onduleurs pour toutes les unités • l’alimentation par générateur des unités critiques • des audits automatisés sur la configuration des routeurs • l’intégration de la gestion des changements avec la surveillance de la disponibilité • des versions de code normalisées• la formation au dépannage • la séparation de la gestion des incidents et de la résolution des problèmes

Etape 1 : Le contrôle proactif de la redondance

Dans l’objectif d’une disponibilité de 99,9 %, la construction du réseau avait déjà intégré la redondance. Toutefois, avec le temps, certaines de ces liaisons redondantes peuvent tomberen panne ou être accidentellement mal configurées. Si ces défaillances ne sont pas détectées etréparées, la seconde liaison risque à tout moment de provoquer une interruption importante. Imaginezque vous deviez remettre une analyse de causes fondamentales comportant le message suivant : « Il y adeux mois, notre liaison redondante est tombée en panne. La panne n’a pas été détectée. Hier, laliaison principale est tombée en panne provoquant une interruption de service. »De telles interruptions sont acceptables lorsque vous disposez d’une marge de manoeuvre de8,7 heures, mais vous ne pouvez pas les laisser se produire si vous n’avez droit qu’à 53 minutes detemps d’arrêt par an.On peut exécute un script Perl pour vérifier que chaque commutateur de couche 2 dispose bien de deux chemins différents vers des routeurs distincts, et que chaque routeur de couche 3 est relié de deux manières différentes au coeur de réseau.Bien que la procédure ne soit pas parfaite – dans notre architecture de réseau, la plupart descommutateurs de couche 2 sont connectés directement aux passerelles de couche 3 – presque toutes lesinterruptions dues à une « perte non décelée de redondance » ont été éliminées. Ce script peutégalement distinguer les « unités connues comme non redondantes ». Pour plus de clarté, le rapport deredondance donne la liste de ces « unités connues comme non-redondantes » dans une sectiondistincte.

Etape 2 : Des onduleurs pour toutes les unités

Avec une tolérance d’interruption de service inférieure à 53 minutes par an, toutes les unités de réseaudoivent être sur onduleurs. On imposera une réserve de 2 heures d’alimentation sur onduleur pourchacune des unités réseaux. Cette spécification est d’autant plus importante que les téléphones IPCisco permettent de contacter le 911, qui est le service des appels d’urgence aux Etats-Unis. Lapolitique de Cisco exige l’évacuation d’un bâtiment en cas de défaillance des systèmes d’alimentationnon interruptibles car il devient impossible de composer le 911 dans de telles circonstances.

Page 18: La haute disponibilité

Etape 3 : Des générateurs pour les unités critiques

Pour éviter qu’une panne de courant prolongée dans un bâtiment de coeur de réseau puisse provoquerune interruption de grande envergure, les unités de coeur de réseau sont alimentées par des générateurs.

Etape 4 : Des audits automatisés sur la configuration des routeurs

Pour faire appliquer ses configurations normalisées, Cisco utilise l’outil RAT (Router Audit Tool) dewww.cisecurity.org. Cette politique présente deux grands avantages :• nous disposons d’une configuration normalisée et documentée ;• nos routeurs sont conformes à cette configuration normalisée et documentée.L’équipe de réseau trouve des avantages dans une telle rigueur. Lorsque l’analyse des causesfondamentales suggère des modifications de configuration, cette procédure normalisée à auditautomatique renforce la conformité de ces changements.Chaque semaine, un rapport nommé le « Bottom 10 », donne la liste des dix routeurs les moinsconformes aux normes en fonctions des rapports RAT, ainsi que les 10 règles de configuration les plusfréquemment enfreintes. Voici un exemple de ce rapport « Bottom 10 » :Date : Mar 8 avril 2003 06:15:29 US/PacifiqueObjet : RAT_Bottom_10_Report_For_it-lan-sj-dutyRapport « Bottom 10 » des fichiers de configuration personnalisés de it-lan-sj-dutyNom de l’hôte Score Propriétaire Nombre de semaines sur la liste Bottom 10softoken-test.cisco.com 75 [supprimé] 23pmr-gw1.cisco.com 85 [supprimé] 8sjcd-00-cs1.cisco.com 85 [supprimé] 6wlshb-gw1.cisco.com 85 [supprimé] 8sjc12-00-gw2.cisco.com 86 [supprimé] 7sjca-12-cs1.cisco.com 86 [supprimé] 7wlshd-gw1.cisco.com 87 [supprimé] 7sjce-00-gw1.cisco.com 89 [supprimé] 4sjc16-00-gw2.cisco.com 89 [supprimé] 3sjc15-00-gw2.cisco.com 89 [supprimé] 1Règles les plus fréquemment enfreintes dans les fichiers de configuration personnalisés de it-lan-sj-duty133 tacacs-server timeout 340 udld enable33 ip igmp snooping27 no class-map match-any http-hacks22 exec-timeout 300 0 (line vty)22 ip ssh time-out 3021 ip name-server 171.68.226.12021 logging source-interface loopback019 no ip source-route18 snmp-server community xxxxxx ro 90

Page 19: La haute disponibilité

Etape 5 : Intégration de la gestion des changements avec la surveillance dela disponibilité

Si vous acceptez jusqu’à 8,7 heures d’interruption par an, il n’est pas nécessaire de différencier lesinterruptions planifiées des interruptions non planifiées. Vous disposez d’une marge suffisante pourabsorber les interruptions planifiées et atteindre malgré cela les 99,9 % de disponibilité. Pour le niveausupérieur de 99,99 %, il devient nécessaire de distinguer les deux types d’interruption. Pour cela, lesystème de gestion des changements exige des ingénieurs réseaux qu’ils fournissent lesinformations suivantes lorsqu’ils planifient une interruption :• la période à laquelle s’effectuera le changement planifié • les unités affectées par ce changement.Si le calcul de la disponibilité brute est réalisé de manière normale, celui de la disponibilité ajustéeimpose que les unités désignées par la demande de changement soient considérées commeopérationnelles à 100 % pendant la fenêtre d’intervention considérée. Ce système, qui fournit desdonnées précises sur la disponibilité brute et ajustée, présente l’avantage supplémentaire d’imposer laplus grande rigueur aux ingénieurs réseaux lorsqu’ils planifient une interruption. La moindre omissionpeut entraîner un signalement d’indisponibilité.L’adoption d’une convention standard de dénomination est extrêmement utile à la planification deschangements. Le nom de chaque unité de réseau Cisco commence par un identifiant de bâtiment. Parexemple, sjc12-31-sw2 désigne, à San Jose : bâtiment n° 12, 3ème étage, séparateur IDF n°1, ledeuxième commutateur de la pièce. Imaginons une coupure de courant planifiée dans le bâtiment 12.L’ingénieur réseau devra s’assurer que toutes les unités dont le nom commence par « sjc12- » sontincluses dans la demande de changement.Ceci réduit considérablement la possibilité d’oublier une unité pendant la préparation. Si une unité estoubliée, elle subira une « interruption non planifiée » au cours de l’intervention. Une convention dedénomination bien conçue permet de réduire fortement ce type d’erreur.L’intégration de la gestion des changements et des calculs de disponibilité permet d’avoir des mesuresprécises de la disponibilité brute et ajustée qui caractérisent les temps d’arrêts planifiés et nonplanifiés. Cette double mesure invite l’équipe réseau à la rigueur dans la planification des changementssur le réseau. Elle l’incite également à minimiser les interruptions planifiées dans les environnementsde centres de calcul car celles-ci sont portées à la connaissance de la direction. La convention standardde dénomination facilite considérablement l’identification des unités touchées par le changement.

Etape 6 : Normalisation des versions de code

Sur le réseau, il est possible d’atteindre une disponibilité de 99,9 % avec desversions « prises au hasard » de la plate-forme logicielle Cisco IOS : le risque de ne pas choisirsystématiquement des versions rigoureusement testées ne dépasse pas en effet quelques interruptionsde services non planifiées supplémentaires. On peut ainsi demeurer en dessous du seuil acceptable de8,7 heures de temps d’arrêt, et donc au-dessus des 99,9 % de disponibilité, sans le surcroît de travailque représente le choix et la mise à niveau de versions particulières de Cisco IOS.En revanche, une disponibilité de 99,99 % exige la sélection de versions précises de Cisco IOS et deCisco Catalyst OS. Les règles générales consistent à :• sélectionner une version disposant des fonctionnalités requises ;• sélectionner une version particulière bénéficiant du plus grand nombre possible de correctifs depuisla dernière intégration de fonctionnalités ;• éviter les images « reportées » (sur www.cisco.com, la liste des images reportées fait l’objet d’unesection distincte de la page Web de planification des mises à niveau de la plate-forme logicielle CiscoIOS) ;• éviter les images avec « avis logiciel » (un avertissement s’affiche sur www.cisco.com avant de vous

Page 20: La haute disponibilité

permettre de télécharger une image contenant un avis logiciel).

Etape 7 : Formation au dépannage

Ironiquement, lorsque vous atteignez une disponibilité de 99,99 %, l’absence d’interruptions finit parémousser vos compétences de dépannage. Lorsque la disponibilité est faible, vous n’avez pas vraimentbesoin de formation particulière, mais dès qu’elle touche les 99,99 %, il devient nécessaire d’organiserdes exercices réguliers de dépannage. L’équipe doit tenir chaque semaine des réunions administratives et techniques distinctes. Régulièrement, ces réunions techniques amènent desingénieurs à réparer un réseau de laboratoire qui a été délibérément mis en panne. Bien qu’imparfaite,cette formation au dépannage permet de ne pas perdre la main malgré le « problème » que représentela pénurie de défaillances réseau.

Etape 8 : Séparation de la gestion des incidents et de la résolution desProblèmes

En cas d’interruption du service réseau, l’équipe informatique IT remplit deux fonctions :• elle résout le problème ;• elle gère les communications et la remontée des informations concernant l’incident. les ingénieurs réseaux sont libres de se concentrer sur la résolution du problème technique. Ceci garantit également la cohérence des notifications et des remontées de l’information. L’équipe informatique IT simplifie également la prévention des interruptions en assurant le suivi des activités d’analyse des causes fondamentales et de correctifs à long terme. Cette séparation des fonctions de gestion des incidents et de résolution des problèmes améliore la qualité du service et réduit la durée des interruptions.

Page 21: La haute disponibilité

Les étapes Cisco pour une disponibilité de 99 999 %

• Pour atteindre une disponibilité de 99,9 % (8,7 heures d’interruptions de service par an), vous devezdisposer d’un réseau stable et bien conçu.• Pour atteindre une disponibilité de 99,99 % (53 heures d’interruptions de service par an), vous devezdisposer d’un réseau encore plus robuste.• Pour atteindre une disponibilité de 99,999 % (315 secondes d’interruption de service par an, soitmoins d’une seconde par jour), votre réseau doit être presque parfait en tout point.Pour le département informatique , qui détermine la disponibilité de chaque unité toutes les15 à 20 secondes, chaque appareil n’a pas le droit d’échouer à plus d’une mesure de disponibilitétoutes les trois semaines. Un tel niveau de disponibilité est extrêmement difficile à obtenir.Pour y parvenir sur un réseau LAN, le département informatique doit adopter toutes les étapes nécessaires aux niveaux 99,9 % et 99,99 %, plus les trois étapes suivantes :

Etape 1 : Toutes les unités doivent être sur générateur de secours

Il est impossible d’atteindre moins d’une seconde de temps d’arrêt par jour sur chaque unité et de subirune coupure électrique imprévue. Dans les secteurs où le réseau doit atteindre une disponibilité de 99,999 %, Cisco place chaque unité sur onduleur et générateur de secours pour éviterles conséquences d’une panne d’électricité.

Etape 2 : Contrôle automatique de la configuration des commutateurs

Pour atteindre une disponibilité de 99,99 %, l’équipe du réseau peut développer une configuration standard des routeurs et un contrôle automatisé de cette configuration appuyé sur le système RAT de www.cisecurity.org.Une disponibilité de 99,999 % exige l’audit proactif de la configuration standard des commutateurs, depréférence de manière automatisée. L’équipe réseau utilise également le système RAT avec un fichier de configuration modifié pour auditer les fichiers de configuration de sescommutateurs.

Etape 3 : Audit manuel semi-annuel

Même les plus intelligents des outils automatisés d’audit de la redondance et des configurations nepeuvent pas faire face à tout. Pour atteindre une disponibilité de 99,999 %, l’équipe réseau doit commencé à vérifier manuellement, au moins tous les six mois, l’ensemble des connectivités, dela topologie, des plans de réseaux et des configurations. Plus particulièrement, il est essentiel devérifier la bonne tenue de la hiérarchie logique et physique déployée pour atteindre une disponibilitéde 99,99 %.

Les étapes nécessaires pour atteindre une disponibilité de 99,999 % peuvent engendrer des coûtsprohibitifs si elles sont adoptées sans planification au préalable. Le département informatique a mis en oeuvre un grand nombre des étapes précédentes, mais pas toutes, ni dans tous les secteurs pour des raisons de coûts - bénéfices. En effet, certains secteurs de notre réseau, comme les réseaux delaboratoire, sont considérés comme moins importants que d’autres, notamment les centres de calcul.L’analyse coûts – bénéfices de la haute disponibilité donne des résultats différents suivant les parties

Page 22: La haute disponibilité

du réseau. ANNEXES

Catalyst 3750/3750E

Page 23: La haute disponibilité

Nexus 7000, Catalyst 6500 and 4500 highly redundant Modular systems

Page 24: La haute disponibilité
Page 25: La haute disponibilité

ARCHITECTURE DE CAMPUS