Download - Agenda
Windows Server 2008Cluster Géographiquement Dispersé
Agenda
IntroductionQu’est ce qu’un cluster distribué ?Mise en œuvre
Considérations de stockageConsidérations de réseauxType de quorum
Questions & Réponses
Construire les contrats de service
Réduire la perception de l'indisponibilité pour les utilisateurs
Dialogue entre des responsables infrastructures et les clients internes
Démarche application par applicationQuelle est la Qualité de Service attendue par les utilisateurs ?Combien d'utilisateurs utilisent-ils cette application ?Est-il possible de chiffrer la perte d'une heure d'interruption de service ?Quels sont les risques à couvrir en priorité ?Quelle est la fréquence des pannes?Quelles sont les ressources déjà en place et quel est le budget d'investissement disponible ?
Recovery Point/Time Objectives
RPO : Point de redémarrageJours Heures Minutes Transactions
Désastre
Corruption des données
Erreurs humaines
Perte de serveurs
Opérations de maintenance
Pannes du stockage
Cau
ses
des
inte
rrup
tions
de
serv
ice
99.9%
99.99%
99.999%
99.9999%
8.75h/an
52min/an
5.2min/an
32sec/an
Jours Heures Minutes Secondes InstantanéRTO : Temps de redémarrage
Coû
ts
Robustesse matérielle
Objectif : NON STOPAgir sur les risques, en amontConstruire un ensemble cohérentDisposer de ressources garanties avec une capacité de montée en chargeIsoler les applications entre-ellesÉliminer les Single Point Of Failure
Données, application, frontaux, clients
Redondance des composantsConnectivités Power, LAN et SANServeurs redondantsBaie de stockage (contrôleurs, RAID …)
Garantir la production et la stabilité
Sauvegarde et restauration
Le principal enjeu est la restaurationQualité et rapidité de la restaurationProtection multiple des données, protection des copiesCapacité de reprise sur erreur humaineUtilisation des sauvegardes pour alimenterd’autres plateformes (assurance qualité)
Selon les besoins, technologies complémentairesSnapshot (basé sur VSS)System Center Data Protection ManagerTierce partie : éditeur ou constructeur
Snapshot Snapclone (copie complète)Orchestration via VSS (Volume Shadow copy Services)
tt0 t2T1
tapelib
Qu’est-ce qu’un cluster distribué ?
Bénéfices du service de Cluster
Disponibilité Surveille l’état des applications ou/et servicesPermet aux applications ou/et services de basculer automatiquement et de redémarrer à froid (le contenu de la mémoire n’est pas préservé)Équilibrage de charge statique
EvolutivitéPossibilité d’ajouter du matériel : Disque, CPUPossibilité d’ajouter jusqu’à 16 serveurs
AdministrationPermet d’administrer les nœuds comme une seule entitéPermet de mettre les ressources sur un autre nœud pour des raisons de maintenance
Services clusterisables
Les plus courantsHyper-VSQL ServerExchange ServerServeur de fichiersServeur d’impression
Tierces partiesDifférents rôles, ex : base de données
Les autresMSMQDTCDHCPDFS-NamespaceNFSiSNSWINS
Les génériquesApplication GénériqueScript GénériqueService Générique
Clustering aujourd’hui
Client PCs
Server A Server B
Disk cabinet A
Disk cabinet B
Heartbeat
Cluster management SQL Server
SQL ServerSQL Server
PCs clientsRéseau Public
Disquespartagés
FC avec cheminredondant
Nœudscluster
RéseauPrivé
Topologie Cluster
Simple Cluster LocalSimplifions l’exemple précédent
SAN
Site A
Cluster traditionnel 2 nœudsConnecté à une baie de stockage partagée
Même site physique
Mais que se passe-t-il dans le cas d’une catastrophe ?
Comme par exemple un feu…
SAN
Site B
Cluster Géographiquement Dispersé Séparons les nœuds
SAN
Site A
Replication des données
Les applications basculentautomatiquement sur un autre site
physiqueNœud sur un site physique
distant
Qu’est ce qu’un cluster distribué ?
Un cluster géographiquement dispersé ou cluster distribué est un cluster dont les nœuds qui le composent sont localisés sur différents sites physiques
Principaux scénarios d’implémentations :Donner un accès local aux utilisateurs dispersés sur une grande zone géographiquePermet une continuité d’activité en cas de problèmes électriques ou de catastrophes naturelles par exemple
Différences par rapport à un Cluster simple
Le GéoCluster se différencie par les points suivants :Multiple baies de stockage
Indépendantes sur chaque siteLes nœuds accèdent classiquement au stockage local sur leur siteRéplication des données entre les sites
Site A Site B
ReplicaLes changements effectués sur le site A sont répliqués
sur le site B
Avantages du cluster distribué
Basculement automatiqueRéduit le temps d’indisponibilitéMoins complexe
Réduit la charge administrative associéeSynchronisation automatique des changements cluster et des applicationsPlus facile de garder consistant par rapport à de simples serveurs (« non-clusterisés »)
Supprime le facteur d’erreur humaine
Mise en œuvreConsidérations de stockage
Considérations StockageTopologie
Site A
Mécanismes deréplication
des données
Site B
Replica
ModeLecture/Ecriture
ModeLecture
Changements effectués sur le Site A
et répliqués sur le Site B
Considérations Stockage
Requiert un système de réplication de donnéesMatériel (niveau bloc)
Logiciel (niveau système de fichiers)
Application
Considérations Stockage
Type de réplication synchrone ou asynchroneSynchrone : si une application fait une opération sur un nœud d’un site, cette dernière ne sera pas complète tant que le changement n’est pas rejoué sur l’autre site.Asynchrone : si les données sont modifiées sur un site, ce changement sera éventuellement reproduit sur l’autre site.
Réplication des donnéesSynchrone
L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur l'ensemble des stockages
PrimaryStorage
SecondaryStorage
WriteComplete
Replication
Acknowledgement
WriteRequest
Réplication des donnéesAsynchrone
L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur le premier stockage.
PrimaryStorage
SecondaryStorage
WriteComplete
Replication
WriteRequest
Synchrone vs. Asynchrone
Synchrone AsynchronePas de perte donnée Perte de données potentielle
si défaillance matérielleConnexion avec une bande passante importante et une
faible latence
Connexion avec une bande passante suffisante pour
répliquer les donnéesCourte distance Longue distance
Impact sur les performances lié à la latence d’écriture
Potentiellement pas d’impact de performance
Assure la communication entre
le nœud et le stockage local et vérifie son état
Disk Resource
Resource Group
Custom Resource
IP Address Resources*
Network Name Resource
Défini l’ordre de
démarrage
Groupe est l’Unité de
bascule
Resource(s) liée(s) au stockage
Assure la communication entre
le nœud et le stockage local et vérifie son état
Assure que l'application est en
ligne une fois la réplication terminée
Workload Resource (example File Server)
Validation cluster Avec un système de réplication
Les tests “Stockage” de l’outil de validation cluster sont désignés pour vérifier que le stockage est partagéLes tests ne vont pas s’exécuter et vont afficher un avertissement sur le fait qu’aucun stockage partagé n’a été détectéIl n’est pas nécessaire de passer les tests « Stockage » sur les clusters distribués pour être supportés
Validation Guide and Policy:http://go.microsoft.com/fwlink/?LinkID=119949
Mise en œuvreConsidérations de réseaux
Considérations RéseauxTopologieLes nœuds d’un même cluster peuvent se trouver sur des sous-réseaux différents
Communications inter-nœuds possibles au travers des routeursPlus besoin de connecter les nœuds via des VLANs!
Site BSite A10.10.10.1 20.20.20.1
30.30.30.1 40.40.40.1
WAN
WAN
Réseaupublic
RéseauSéparé
Nouveau modèle de DépendancesNouveaux Objets pour filtrer les dépendancesLe Nom Réseau reste en ligne si la ressource adresse IP A ou B est en ligne
Auparavant, les deux ressources A et B devaient être en ligne pour que le nom réseau soit accessible par les utilisateursCela permet la redondance des ressources et un impact réduit pour les applications et services clusterisés
Adresse IP Ressource B
Adresse IP Ressource A
Ressource Nom Réseau
OU
Disk Resource
Workload Resource (example, File Server)
IP Address Resources A
Network Name Resource
Dépendances des ressources
IP Address Resources B
Comes online on site A
Comes online on site B
OR
Considérations DNS Il y a des conséquences lorsque les nœuds sont sur des sous réseaux différents
La réplication DNS peut impacter le temps de reconnexion des clients
10.10.10.111 20.20.20.222
DNS Server 1 DNS Server 2
DNS Replication
Record Updated
Record CreatedRecord Obtained
FS = 10.10.10.111
Record Updated
FS = 20.20.20.222Site A Site B
Solution 1 : VLAN
Etendre un VLAN reste une option pour minimiser le temps de reconnexion client
10.10.10.111
DNS Server 1 DNS Server 2
FS = 10.10.10.111Site A Site B
VLAN
10.10.10.111
Solution 2 : Basculement site local de préférence
Basculement local pour les temps d'arrêt planifiés et cross-basculement de site pour PRA
10.10.10.111
DNS Server 1 DNS Server 2
FS = 10.10.10.111Site A Site B
Ajout de noeuds
Solution 3 : Configurer les paramètres DNS
RegisterAllProvidersIP Contrôle quelles adresses IP dépendantes sont enregistrées
HostRecordTTLContrôle la durée de vie de la ressource nom réseauExchange recommande une valeur de 5 minutes
Configurable via la ligne de commande :Cluster res “Cluster Name” /priv
Paramétrer la pulsationLes communications inter-noeuds sont configurables dans Windows server 2008Cluster.exe /propSameSubnetDelay
Fréquence d’envoi de la pulsation, défaut : 1 seconde
CrossSubnetDelayFréquence d’envoi de la pulsation lorsque les nœuds sont sur des sous réseaux différents, défaut : 1 seconde
SameSubnetThresholdNombre de pulsation manquée avant de considérer qu’une interface est tombée, défaut : 5 pulsations
CrossSubnetThresholdNombre de pulsation manquée avant de considérer qu’une interface est tombée lorsque les nœuds sont sur des sous réseaux différents, défaut : 5 pulsations
Considerations RéseauxRésumé
Quel sont les attentes/besoins métiers concernant le temps de bascule?
Reprise d’activité :Les nœuds peuvent se trouver sur des sous réseaux différents pour plus de flexibilité
Haute disponibilité et reprise d’activité :L’utilisation de VLAN peut être une solution pour réduire au minimum le temps d’indisponibilité
Quel est l’impact pour les clients lors de la bascule sur un autre site ?Bascule locale avant bascule sur un autre site ?
Mise en œuvreChoisir le bon modèle de quorum
Considérations Quorum
Lorsque les nœuds perdent la communication entre eux, il est nécessaire d’avoir un mécanisme d’arbitrage qui détermine quels sont les nœuds qui restent en ligne et ceux qui ne sont plus membres du cluster.
Différents modèles de quorum :Majorité de nœuds et un disqueDisque témoinMajorité de nœudsMajorité de nœuds et un partage
Evolution des modèles de Quorum
Disque témoin uniqueMajorité de nœuds et un disque témoin
Majorité de nœudsMajorité de nœuds et un partage témoin
Vote Vote Vote Vote
Nouveaux modèles de Quorum basés sur la notion de voteIl existe 4 types de quorums
Vote
Majorité de nœuds et un disque
Modèle de quorum basé sur la majorité de nœuds et un disque3 voix au total, dont 2 nécessaires pour la majorité
Le cluster peut survivre à la perte de n’importe quelle voix
Modèle non utilisé traditionnellement dans un cluster dispersé
Vote VoteVote
Replicated Storage
Majorité de noeuds
Seuls les noeuds ont une voixUne voix par nœud (ici, 3). Pas de voix pour le stockage partagéMajorité de voix nécessaire pour le fonctionnement du clusterDéployé en nombre impair de nœuds
Vote VoteVote
Site et Majorité de nœuds
Site BSite A
Perte de communication
réseau entre les sites
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster?
Oui, donc je reste en ligne
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster?
Non, donc je me retire du cluster
Cluster 5 nœuds: Majorité = 3
SAN SAN
Majorité sur le site primaire
Site et Majorité de nœuds
Site BSite AEntire site is down!
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster ?
Oui, donc je reste en ligne
Cluster 5 nœuds: Majorité = 3
SAN SAN
Majorité sur le site primaire
Site et Majorité de nœuds
Site BSite APerte du site
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster ?
Non, donc je me retire du cluster
Cluster 5 nœuds: Majorité = 3
SAN SAN
Majorité sur le site primaire
Demande de “forcer le quorum”
manuellement
Majorité de nœuds et un partagePermet d’avoir un cluster 2 nœuds sans disque partagé
Majorité de nœuds + un partage témoinMeilleure solution pour les Clusters Géographiques
Le partage témoin peut être hébergé sur un 3eme site
Un serveur de fichiers peut servir de témoin pour de multiples clusters
Chaque cluster doit avoir son propre partageVote Vote Vote
Le partage est sur un serveur indépendant
Majorité partage témoin
Site A Site BWAN
Site C
SAN
\\FSW\Cluster1
Le partage est sur un serveur indépendant
Perte du site
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster (+FSW) ?
Oui, donc je reste en ligne
5 Votes Cluster: Majorité = 3
SAN
Majorité partage témoin
Site A Site BWAN
Site C
Connexion réseau intersite perdue
5 Votes Cluster: Majorité = 3
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster (+FSW) ?
Non (lock impossible), donc je me retire du
cluster\\FSW\Cluster1
Le partage est sur un serveur indépendant
Est-ce que je peux communiquer avec la
majorité des nœuds du cluster (+FSW) ?
Oui, donc je reste en ligne
SAN SAN
Cluster distribué sur 3 sites
Permet une bascule automatique en cas de perte d’un des sites principaux
Partage témoin :Simple serveur de fichier Windows
Doit être dans la même forêtPeut être localisé sur un 3ième site différentConnecté à aucun stockage partagéN’est pas un nœud du clusterUtilisé pour accorder la voix nécessaire pour donner la majorité au site survivantUn seul serveur de fichiers peut être utilisé pour de multiples cluster
Chaque cluster requiert son propre partage
Modèle de QuorumRésumé
Choisir le bon modèle de quorumMajorité de nœuds et un disque
Seulement si le fournisseur le demande
Uniquement un disqueSeulement si le fournisseur le demande
Majorité de nœudsUtiliser si limité à 2 sites
Majorité de nœuds et un partageMeilleure solution pour la disponibilitéRecommandé pour Echange 2007 CCR
Q&A
Multi-Site Clustering
Cluster Team Site : http://www.microsoft.com/windowsserver2008/en/us/failover-clustering-multisite.aspx KB Article : Deployment Considerations for Windows Server 2008 failover cluster nodes on different, routed subnetsWebcast : TechNet Webcast: Geographically Dispersed Failover Clustering in Windows Server 2008 Enterprise Webcast : How You Can Achieve Greater Availability with Failover Clustering Across Multiple Sites (Level 300) Whitepaper : Multi-site ClusteringWebcast : Multi-Site Clustering in Windows Server 2008Blog : http://blogs.msdn.com/clustering/