- Door
- Arnout Veenman
- geplaatst op
- 14 maart 2007 08:36 uur
Afgelopen zaterdag trad er een stroomstoring op in het NIKHEF datacentrum. Vrijwel direct nadat deze voorbij was volgde een artikel over de stroomstoring. In dit nieuwe artikel volgt uitleg over de achtergrond van de stroomstoring en de reactie van AMS-IX op het incident.
Op zaterdag 10 maart om 11:23 uur viel de derde stroomfase in het NIKHEF datacentrum uit. Dit had direct tot gevolg dat apparatuur die gebruik maakt van deze stroomgroep en geen redundantie voeding hebben uitviel. Omdat zich hieronder veel cruciale netwerkapparatuur bevind, welke veelal de verbinding naar AMS-IX verzorgt, had de stroomstoring gevolgen voor de performance van veel netwerken en de bereikbaarheid van sommige websites.
Rond 14:15 uur viel ook de tweede stroomfase in het NIKHEF datacentrum uit, daarmee werd ook de AMS-IX apparatuur in het NIKHEF datacentrum getroffen, waarna het dataverkeer dat via AMS-IX werd verstuurd ineens met 40 procent daalde van 210 naar 125Gbit/s.
Uit communicatie op de AMS-IX mailingslijst blijkt dat er om 15:00 uur nog geen engineer van NIKHEF op locatie aanwezig was. Om 15:55 uur is de kwestie geescaleerd tot het senior management van NIKHEF en dat er eindelijk medewerkers van NIKHEF op locatie zijn, helaas daaronder (nog steeds) geen engineers die de stroomstoring konden verhelpen.
Daarnaast blijkt uit de update dat een deel van de AMS-IX apparatuur ook is getroffen:
The following switches have been affected:
edge-nik-003
edge-nik-004
pxc-nik-103This effectively means that all 10/100/1000 Mbit/s connections at NIKHEF are down. A number of 10GE connections are down too. I’ll provide a list as soon as possible.
Om 17:02 uur kwam het eerste bericht op de AMS-IX mailinglist van NIKHEF zelf:
We have a partial power cut at NIKHEF. This problem affects all equipment connected to the C1BH power distribution system. NIKHEF technical staff has diagnosed the problem and is in the process of repairing it.
Enkele minuten na dit bericht was de stroomstoring verholpen. Hierna herstelde de hoeveelheid AMS-IX dataverkeer zich vrij snel tot het niveau van voor de stroomstoring en redelijk snel tot op het niveau zoals dat normaal is voor het moment van de dag.
Op maandag kwam er een rapportage over de stroomstoring en de te nemen maatregelen van NIKHEF. Daaruit zou blijken dat rondom 16:00 uur de NIKHEF engineers op locatie waren, die doorgebrande 200 Ampère zekeringen aantroffen vlak na de hoofd stroomvoorziening. Om 17:00 uur wisten deze de stroomvoorziening te herstellen, waarbij de 200 Ampère zekeringen vervangen werden met exemplaren van 250 Ampère.
Uit een analyse die maandag gemaakt is blijkt dat de capaciteit de derde stroomfase aan zijn max zit en dat daarom de zekering van de derde stroomfase doorbrandde. Doordat de tweede stroomfase (deels) de belasting van de derde stroomfase overnam, brandde de zekering van deze na enige tijd ook door.
Om dit in de nabije toekomst te voorkomen wordt er nu gebruik gemaakt van zekering van 250 ipv 200 Ampère. Daarnaast zal er geprobeerd worden om de belastingen van de verschillende stroomfasen beter te verdelen, dit in overleg met klanten. Op de langere termijn zal NIKHEF een beter systeem implementeren om de belasting van de verschillende stroomfasen beter te kunnen monitoren.
Als laatste adresseert NIKHEF de klachten over de tijd tussen de eerste signalen van een stroomstoring van klanten en de aankomst van de NIKHEF engineers op locatie. Op dit punt belooft NIKHEF te overleggen met de AMS-IX NOC om er voor te zorgen dat hiervoor een betere procedure komt voor het geval dat er weer een probleem met de infrastructuur ontstaat.
Gezien de gevolgen van de stroomstoring voor AMS-IX heb ik met Job Witteman van AMS-IX gesproken over de kwestie. In principe geeft Job aan dat er naar zijn idee fouten zijn gemaakt bij NIKHEF en dat de techniek hun verantwoordelijkheid is. Daarnaast wijt hij de lange duur van de stroomstoring aan een gebrekkige escalatie procedure en communicatie tijdens het incident. Dat wordt ook door NIKHEF in hun rapportage erkend.
Daarnaast zal er nog een uitgebreid rapport van NIKHEF over de stroomstoring volgen, daar wil Job begrijpelijkerwijs niet te veel op vooruit lopen. Al geeft hij wel aan dat het voor AMS-IX een eis is dat er in de toekomst bij incidenten een betere escalatie procedure is en er beter gecommuniceerd moet worden. Natuurlijk zijn ze bij AMS-IX ook “boos” dat dit is gebeurt. Daarom zullen er een aantal minder plezierige gesprekken naar aanleiding van de stroomstoring volgen. Dat is onvermijdelijk en noodzakelijk, na een dergelijk ernstig incident.
Daarna moeten AMS-IX en NIKHEF weer samen verder om er voor te zorgen dat de leden van AMS-IX een zo goed en onverstoord mogelijke dienstverlening wordt geboden. Een goede samenwerking tussen AMS-IX en NIKHEF is daarvoor een absolute noodzaak. Daarom is het belangrijk om de afhandeling van dit incident in samenspraak tot een goed einde te brengen en er voor te zorgen dat de kans op toekomstige herhaling minimaal wordt!
Als laatste punt is het denk ik belangrijk om op te merken dat AMS-IX begin dit jaar al bekend maakte dat euNetworks een nieuwe AMS-IX Core PoP zal worden. Job gaf daarover nog aan dat de de core en colocatie locaties van AMS-IX eigenlijk over verschillende datacentra moeten zijn verspreid. Zodoende zal NIKHEF over enige tijd enkel nog een colocatie locatie van AMS-IX blijven. Al is die beslissing al ruim een jaar geleden genomen en heeft dat niks te maken met de stroomstoring van afgelopen zaterdag.
Als laatste mijn dank aan de niet nader te noemen AMS-IX leden die mij van de nodige informatie hebben voorzien voor het schrijven van dit artikel.