Compte-Rendu d'Incident préliminaire

by Gurvan 5. juillet 2013 11:13

Bonjour,

 

Notre prestataire en baie et électricité a rencontré Jeudi 4 Juillet 2013 un très important incident électrique provoquant des perturbations sur notre infrastructure.

 

Service impacté :

  • Serveur VPS11
  • Serveur VPS13
  • Serveur VPS14
  • Serveur VPS15
  • Serveur VPS16
  • 10 serveurs dédiés
  • 2 switch


Voici le rapport préliminaire du prestataire : 

  • 10h21:14 : le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant : Ivry sur Seine, Vitry sur Seine, Charenton et Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter sont simultanément coupés. Les réseaux de téléphonie mobile sont rapidement inutilisables, les antennes relais étaient impactées sur une zone très large, ce qui a retardé l’escalade technique interne.
     
  • 10h21:33 : les 7 chaines électriques basculent sur groupe électrogène avec succès, sans coupure.
     
  • 10h21:34 : les onduleurs A4 et A5 de la chaine A sont en défaut (défaut « hacheur PFC batterie »), sans coupure sans conséquence compte tenu de la redondance N+2 de la chaine électrique.
     
  • 10h22:45 : Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance ». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S). Le temps de la bascule, la température des salles augmente très légèrement 3°C, sans impact.
     
  • 10h26:30 : Un deuxième groupe électrogène de la chaine A (GE-A) s’arrête en défaut « électronique ». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure.
     
  • 11h15:00 : Communication clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Appel téléphonique au service dépannage du poste source.
     
  • 11h18:11 : Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur. La chaine A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.
     
  • 11h29:18 : Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée des salles 101 et 206.
     
  • 11h41:23 : La décision est prise de remettre en service le groupe électrogène GE-A en « marche forcée pour réalimenter la chaine A. Cette opération consiste à inhiber l’automate de contrôle du groupe électrogène, défaillant. L’opération est un succès, retour de l’énergie dans les salles 101 et 206.
 
De notre côté :
  • 11h22:20 : Le monitoring indique une coupure réseau de notre baie au RDC et de la liaison vers notre prestataire de transit Cogent. Nous sommes informé d'une coupure électrique complète.
     
  • 11h42:00 : Retour de l'alimentation électrique mais nous avons un problème réseau.
     
  • 12h05:20 : Retour du réseau suite à l'intervention d'un technicien sur nos deux fibres optiques.
     
  • 12h22:20 : Nouvelle coupure du réseau au RDC. Une de nos voies électriques a disjoncté provoquant l'arrêt du switch principal. Un technicien remet la voie en route mais celle-ci retombe immédiatement. Un autre technicien se rend sur place, débranche nos équipements, réalimente la voie électrique puis rebranche un par un les machines et switch afin d'isoler l'équipement à problème sans succès vu que la voie ne disjoncte pas de nouveau... Toutes les alimentations sont au vert.
     
  • 13h13:20 : Les services impactés sont tous en ligne.
 
Le rapport complet sera disponible d'ici 24 à 72h.
 
 
Gurvan.