- Door
- Arnout Veenman
- geplaatst op
- 4 februari 2015 14:45 uur
Afgelopen dinsdag lag het treinverkeer rondom Utrecht CS volledig plat. De oorzaak daarvan was een storing in het datacenter dat ProRail gebruikt. Opvallend is dat de storing veroorzaakt werd door een stroomstoring tijdens gepland onderhoud aan de stroomvoorziening van het datacenter. Deze storing leidde tot een kettingreactie die er uiteindelijk voor zorgde dat het treinverkeer niet meer kon worden geregeld.
Stroomstoring datacenter
In een verklaring over de storing schrijft ProRail dat het gebruik maakt van het datacenter van British Telecom in Nieuwegein. Dit datacenter volledig redundant is opgezet en voldoet aan de Tier III-standaard. Volgens ProRail is dat de ‘hoogst mogelijke internationale vereiste standaard’, maar er is natuurlijk nog één stap hoger, namelijk de Tier IV-standaard.
Het afgelopen weekend werd er onderhoud verricht aan het datacenter om de stroomvoorziening van het datacenter uit te breiden. In totaal heeft het datacenter drie stroomvoorzieningspaden (feeds). In het weekend werd er aan één van die feeds gewerkt. Het onderhoud ging goed, maar één van de andere twee feeds kreeg tegelijkertijd wel een storing:
De aanpassing aan het ene stroomvoorzieningskanaal is afgelopen zondag zonder problemen verlopen. We werden zondag echter wel geconfronteerd met een kortstondige uitval van de systemen. Deze systemen zijn verbonden aan één van de twee stroomvoorzieningskanalen, waar niet aan is gewerkt. De systemen functioneerden na de kortstondige uitval weer normaal.
Storing Storage Area Network
Op maandagochtend om 8:00 uur viel één van de computersystemen van verkeersleidingpost Utrecht uit. Dit systeem maakte gebruik van de zondag daarvoor uitgevallen servers in het datacenter. Als gevolg daarvan werd er overgeschakeld op een backup-systeem. De overschakeling zorgde voor een te zware belasting van het Storage Area Network (SAN) van ProRail.
Door de overschakeling naar de back-up ontstond, naar nu blijkt een te zware belasting op het systeem waar de data van het treinverkeersysteem wordt opgeslagen: de dataserver (Storage Area Network). Hierdoor werd het systeem traag. Er trad een onwerkbare situatie op voor onze treinverkeersleiders. De treinverkeersleiders konden de seinen en wissels buiten niet goed bedienen. Er is toen besloten om een aantal werkplekken van treindienstleiders uit te schakelen. Hierdoor kreeg het totale systeem ‘lucht’ en kon de treindienst rond 12:30 uur beperkt worden opgestart.
De voorlopige conclusie die ProRail over de storing trekt is interessant:
De eerste conclusie is dat het totale systeem inclusief de redundantie (de backupsystemen) in het weekend een ‘tik’ hebben gekregen vanwege de kortstondige uitval die zeer waarschijnlijk ontstond door een verstoring in de stroomvoorziening.
De mens en redundantie als storingsfactor?
Hoe is het mogelijk dat het totale systeem inclusief het backupsysteem een ‘tik’ krijgen van een kortstondige stroomstoring? Redundantie betekent toch dat een systeem kan doordraaien juist wanneer er sprake van een storing is? Hopelijk kan ProRail ons daar later meer over vertellen.
Wel bevestigt deze storing bij ProRail twee dingen:
- Allereerst dat storingen aan de infrastructuur in datacenters vaak ontstaan wanneer er dingen worden veranderd of meer in het algemeen als het gevolg van menselijk handelen. Wanneer de datacenterinfrastructuur draait, dan blijft het meestal wel draaien. Pas wanneer er mensen in de buurt zijn of nog sterker wanneer die dingen gaan veranderen. Dan worden storingen een serieus risico.
- Ten tweede laat het ook zien hoe belangrijk het is om redundantie goed op te zetten. Wanneer de redundantie nodig is, dan is er iets aan de hand. Het overschakelen op de backup zal daarom vrijwel nooit gebeuren onder ideale omstandigheden. Is elk onderdeel van het redundantiesysteem daar geschikt voor (en is er geen single point of failure zoals in dit geval het Storage Area Network)? Daarnaast kan een systeem redundant maken, ook betekenen dat er een nieuwe single point of failure in het systeem ontstaat. Daardoor kun je dan van de regen in de drup raken.
Imago van de branche
Een laatste, een beetje grappig maar wel serieus punt is, hoe lastig het voor de goegemeenschap is om te begrijpen wat een datacenter en complexe IT-infrastructuur betekent. De volgende reactie werd door iemand onder de uitleg van ProRail geplaatst (en is daarna ook verwijderd). Het is heel grappig om te zien, maar laat ook zien dat de hosting- en datacenterbranche nog werk te doen heeft om niet alleen te werken aan het eigen imago, maar ook bekendheid te krijgen bij ‘de onderbuik van Nederland’.
https://twitter.com/veenman/status/562687075234103297