- Door
- Edwin Feldmann
- geplaatst op
- 2 juli 2013 08:05 uur
Na de omvangrijke storing van 17 juni bij PCextreme wordt er een splitsing in het storage platform gemaakt. Dit moet voorkomen dat bij een eventuele herhaling weer zoveel klanten gedupeerd zijn.
“We hebben onze databases, e-mail en hostingplatformen van elkaar gescheiden, dat is al jaren zo. Onze vervolgstap is dat we een splitsing maken in het hosting platform zelf zodat, bij een storing van grote omvang, een kleiner deel van de dienstverlening wordt getroffen”, vertelt Jeroen van Brink van PCextreme in gesprek met ISPam.nl.
“Met dit laatste zijn we overigens al bezig, we hebben in de afgelopen dagen enkele honderden sites gemigreerd. De komende nachten blijft dit proces in gang om deze splitsing stapsgewijs te verwezelijken.”
PCextreme heeft de hosting niet op losse servers draaien, maar op een cluster; een gecentraliseerde opslagomgeving met hierboven talloze webservers, caches, losse ftp-servers, losse ssh-servers een volledig losstaande mailomgeving (met eigen opslag omgeving) en losse databaseservers (met eigen opslag). Op deze manier kunnen er bijvoorbeeld webservers uitvallen zonder dat de klant daar iets van merkt, stelt Van Brink.
Hoewel hierin de nodige redundantie is aangebracht, kon er tijdens onderhoudswerkzaamheden toch een storing plaatsvinden. “We concludeerden dat het probleem werd veroorzaakt door de op dat moment actieve storage headend. Tijdens de werkzaamheden zouden we een overstap maken naar onze stand-by headend, hopende daarmee het probleem te tackelen. Zo’n overstap hebben we in het verleden vaker gemaakt, want daar is een dergelijke omgeving in oorsprong voor gebouwd.”
Alleen toen ging het mis. “Het vermoeden is dat tijdens de overstap naar de stand-by headend een ‘split brain’ situatie is ontstaan waarbij er vanaf beide storage headends data geschreven kon worden: met data corruptie als gevolg. Dit zou in theorie niet mis mogen gaan, dat ging het echter wel. De RCA van de leverancier moet uitwijzen wat er concreet is gebeurd.”
Disaster recovery
Volgens Van Brink kwamen er eerst verontwaardigde berichten van klanten, maar dat veranderde al snel. “We hebben heel veel en heel open gecommuniceerd en als je kijkt naar de omvang van het incident en het feit dat we daadwerkelijk disaster recovery hebben moeten doen, konden we de storing relatief snel oplossen.” Uiteindelijk bleef het aantal gedupeerde klanten beperkt doordat er de hoster terugviel op off-site backups. Bovendien was binnen 24 uur zo goed als alle data van het verstoorde platform weer toegankelijk om te restoren.
“We hebben in het verloop van de maandag nog wel een aantal onderbrekingen en verminderde prestatie gezien, maar sinds de nacht van maandag op dinsdag (18 juni, red.) zijn we onafgebroken online geweest”, aldus Van Brink. “Wel is de prestatie nog niet optimaal maar daar brengen de genoemde migraties gelukkig verandering in.”
Voor de provider is nu wel gebleken dat in het geval van een storing open, snelle en eerlijke communicatie van het grootste belang is. Dat heeft goed uitgewerkt, aldus Van Brink.