- Door
- Veenman
- geplaatst op
- 17 maart 2008 08:00 uur
Afgelopen donderdag is er rond 20:30 uur een stroomstoring opgetreden in het EvoSwitch in Haarlem. De stroomstoring ontstond net als een eerdere stroomstoring iets meer dan een maand geleden aan UPS1 waarvan de elektronische bypass opnieuw niet goed functioneerde.
Con Zwinkels, Managing Director LeaseWeb:
Het ging om een deel van de eigen ruimte van LeaseWeb binnen datacenter EvoSwitch (red: beide zijn onderdeel van de Ocom group). Hier hebben wij 500 ‘groene’ racks in gebruik. De stroomstoring duurde minder dan 30 seconden, maar voor klanten is zo’n stroomonderbreking natuurlijk erg vervelend. Klanten zonder 2e powerfeed moesten hierdoor hun apparatuur weer opnieuw opstarten. Om het probleem zo snel mogelijk op te lossen, hebben wij meteen acht supportengineers ter plekke gestuurd om onze klanten te assisteren.
Gezien de eerdere problemen met UPS1 stond deze al op de planning om begin april vervangen te worden door een gloednieuwe 2x1200KW N+1 APC Symmetra UPS. Omdat UPS1 nu volledig onbetrouwbaar bleek te zijn, is om 6:00 uur ’s ochtends de load van UPS1 naar UPS2 overgezet. Dit had nogmaals 2 minuten noodzakelijke downtime tot gevolg.
Con Zwinkels:
EvoSwitch was al druk bezig om de nieuwe UPS in te bouwen. In de eerste week van april zullen we definitief overgaan op deze nieuwe UPS, maar helaas heeft het niet zo mogen zijn dat we zonder kleerscheuren die deadline haalden. Om er zeker van te zijn dat de oude UPS tot die tijd geen stroomstoringen meer veroorzaakt, hebben we hem alvast buiten werking gesteld en de capaciteit tijdelijk overgedragen aan een andere UPS.
Ondanks de zeer vervelende situatie heeft LeaseWeb haar klanten wel zéér goed op de hoogte gehouden van de storing zelf en de oplossing hiervoor. Op webhostingtalk.nl opende LeaseWeb zelf direct een topic, waarin het continue status updates heeft gegeven over de storing. Daarnaast valt in het zelfde topic te lezen, dat alle klanten van LeaseWeb die aanwezig zijn in het EvoSwitch datacentrum gebeld zijn over het feit dat er om 5:00 uur ’s ochtends spoedonderhoud zou plaatsvinden, dat opnieuw enige downtime zou veroorzaken.
Op basis van de status updates kon ISPam.nl de volgende lijst met gebeurtenissen samenstellen. Dit geeft een interessant kijkje in de keuken bij EvoSwitch.
ACTIONS TAKEN
Time
12h00 Datacenter Facility Manager (DFM) notices failure of UPS1 which operates in Static Bypass. DFM contacts contractor to resolve failure.
14h30 Battery strings are checked and 1 string found to be at fault.
16h30 UPS1 is fully checked for faults in order to prevent a disruption.
18h30 The faulty battery stings is disconnected and 2 new strings are connected.
20h35 After a short period the UPS1 malfunctioned resulting in a failure of the static bypass. NB1 (UPS1) lost power while switch to manual bypass for approx. 15 seconds.
22h00 Engineers cannot detect any fault in the UPS1 system. A contingency plan is being made in order to restore no-break power.**********************************
23h00 Due to the unreliability of UPS1, the decision is made to transfer the load of UPS1 to UPS2. The transfer involves engineering and new cable connections. It shall take place in 6 hours from now; 05:00CET on 14/03.
A full maintenance team is called upon to increase the capacity of UPS2 (add power modules) and prepare new power cables between UPS1 and UPS2 connection boards.At the moment 2 options are engineered; the ‘short option’ will cause 1 minute downtime and the ‘long option’ maximum 30 minutes. All effort will be made to take the ‘short option’.
14/03
00h10 The ‘short option’ is possible and will be used. The UPS2 will be provided with extra power modules around 01:00CET. The preparations for the new cables between UPS1 and UPS2 should be completed at 03:30CET.The transfer of the load from UPS1 to UPS2 shall be done at 05:00CET, causing a planned downtime of 1 minute.
01h00 Extra power modules have been successfully added to UPS2.
02h00 Cables have been successfully connected between UPS1 and UPS2. Final checks are being made in order to make the transfer at 05:00CET.
03h45 Team is ready for transfer
05h00 Transfer of all UPS1 load to UPS2 is initiated and completed within 2 minutes. Subsequently all former UPS1 load that act a secondary feeds for racks in dataroom 2 and meetme room is transferred to mainboard 1 in order to provide diverse electrical paths. This took 15 minutes.
05h45 Maintenance completed. Engineers will monitor all systems carefully.