Journalistiek

Onpartijdig, onafhankelijk nieuws, uitsluitend in dienst van het branchebelang.

Zeer ernstige storing SIDN DRS

  • Door
  • Arnout Veenman
  • geplaatst op
  • 1 december 2010 08:01 uur

Na anderhalf jaar storingsvrij te zijn, heeft SIDN nu te maken met  een zeer ernstige storing aan het domeinregistratiesysteem (DRS), waarbij zowel de productie als de failover omgeving niet functioneren. Als gevolg hiervan was het vanaf maandagmiddag 16:00 uur tot 22:00 uur en vervolgens vanaf dinsdagmorgen 7:30 uur niet mogelijk om nieuwe .nl-domeinnamen te registreren.

Storing productie omgeving
De storing begon maandagmiddag aan een switch in het BIT datacentrum in Ede, waar de DRS productie omgeving draait. Door problemen met een switch was het noodzakelijk om de database server te rebooten. Na de reboot bleek de switch echter volledig defect. In verband met de drukte op de weg als gevolg van de sneeuwval werd besloten om over te schakelen op de failover omgeving in een ander datacentrum in plaats van om de switch te vervangen.

Storing failover
Na enkele uren van testen of de failover omgeving stabiel was, werd daar naar overgeschakeld en kwam DRS weer beschikbaar. Dinsdagochtend om 7:30 uur blijkt het echter weer fout te zijn gegaan. De failover omgevingwerktniet meer. Oorzaak zou zijn gelegen in een defecte hardeschijf. Daarnaast zou er ook een bug in het Oracle platform zitten dat als gevolg van de problemen is geactiveerd. Als gevolg hiervan is de database van de failover omgeving (die op dat moment als productie draaide) corrupt geraakt en wilde niet meer opstarten. De storing werd pas relatief laat opgemerkt door dat ook de monitoring van SIDN niet goed functioneerde.

Oplossing
SIDN is hierop gaan werken aan een work-around met betrekking tot de bug in Oracle. Uiteindelijk heeft SIDN besloten om de switch bij de productie omgeving te vervangen en de failover omgeving te herstellen en te proberen woensdagochtend om 8:30 uur weer in bedrijf te zijn. Om 6:45 uur liet SIDN via Twitter weten dat de zogenaamde intaketest succesvol was verlopen en dat DRS om 8:30 uur daadwerkelijk weer in bedrijf zal zijn. Indien dat gehaald wordt heeft de storing alsnog maar liefst 40,5 uur geduurd, waarvan er 30 uur lang geen .nl-domeinnamen konden worden geregistreerd of gemuteerd.

Reactie SIDN
In een reactie laat SIDN woordvoerster Lycke Hoogeveen gisteravond weten dat men druk bezig is om het probleem te verhelpen van de storing. Zodra de storing is verholpen volgt een uitgebreide rapportage van hoe het zo mis kon gaan en wat daar de oorzaak van is. Hoogeveen voegt daar wel aan toe dat het probleem op zichzelf niet aan DRS lijkt toe te schrijven, maar  dat het probleem voornamelijk is toe te schrijven aan het platform waar DRS op draait. Hoogeveen stelt terecht dat ook het ontwerp en beheer daarvan ook de verantwoordelijkheid van SIDN is.

Laurens van Alphen (Keenondots), 1 december 2010 8:19 am

Grappig, of juist niet:
http://www.ispam.nl/archives/9980/sidn-infrastructuur-uren-plat-door-storing-bit-datacentrum/

"...op 25 mei 2009...dat het mogelijk maakt om zonder downtime over te schakelen op de andere productie locatie."

Max, 1 december 2010 10:38 am

wat een gepruts..
waarom is er geen backup switch/materiaal on-site voor zo'n systeem?
kapotte hd, database die niet meer wil opstarten? komaan! Het is ondertussen 2010! ;-)

sidn is mij wat te druk met allerlij awards en 'favoriete .nl' programma's terwijl ze 1 duidelijk kerntaak hebben en op dat punt niet presteren.

patrick, 1 december 2010 12:42 pm

Ach Max, je kan even geen .nl domeinen registeren, heel erg vervelend natuurlijk, ben ik met je eens. Ook is het natuurlijk van de zotte dat het zo lang moet duren. Maar hoeveel mensenlevens heeft dit gekost ? en is het echt noodzakelijk een infrastructuur te bouwen die de nl domeinen tot de duurste in de wereld gaan maken, omdat alles nog complexer moet. (wat overigens de kans op fouten niet alleen groter zal maken, maar ook moeilijker om op te lossen).

Uiteraard heeft de SIDN geblunderd, voor mij niet zo zeer dat het fout is gegaan (dat kan bij IEDEREEN gebeuren) maar vooral de lange downtime is natuurlijk bezwaarlijk.

Johan, 1 december 2010 2:01 pm

dat er storingen op kunnen treden is begrijpelijk maar dat je dan (failover....high availablity systeem!!) 1 1/2 dag geheel down bent? en dit met een miljoenen verslindend systeem.
Sorry maar dit is toch echt PRUTSWERK van de bovenste plank.

Max, 1 december 2010 3:49 pm

@Patrick, tuurlijk geen ramp inderdaad, daar gaat het ook niet om.
Ik denk niet dat een degelijke infrastuctuur invloed heeft op de prijs van .nl. Iets minder organistatie en minder andere activiteiten en je hebt die redundant switch er hangen..

En als je weet waar je mee bezig bent en hoeven complexe systemen zeker niet meer fouten te veroorzaken! Wat mij verontrust is dat er 'een defecte hardeschijf' roet in het eten kan gooien en dat daarna een database server niet meer gestart kan worden..
Sorry, maar als het echt waar is wat er is gebeurd zoals hierboven beschreven dan moeten ze zich bij de sidn kapot schamen..

Groet,
Max

Pronation-IT, 6 december 2010 7:35 pm

Erg belachelijk dat dit een hele dag heeft geduurd. Nu maar hopen dat het niet meer voorkomt.

Laatste reacties

Bedankt voor het succes van ISPam.nl
Koen Stegeman, Editor-in-Chief & founder Hostingjournalist.com: Jammer Arnout, maar je hebt een mooie bijdrage aan de hosting industrie geleverd, en dat jaren lang....

Bedankt voor het succes van ISPam.nl
Dillard Blom: Jammer dat een 'instituut' verdwijnt, en daarmee een bron van informatie over actuele zaken (en opin...

Bedankt voor het succes van ISPam.nl
L.: Uit automatisme kijk ik toch nog steeds elke dag naar ispam.nl, toch de hoop dat er nog een berichtj...

Bedankt voor het succes van ISPam.nl
Toni Donkers: Arnout bedankt! ik ga het missen dat is een feit!

Bedankt voor het succes van ISPam.nl
Marcel Stegeman: Ik zie het nu pas. Inderdaad jammer maar ik kijk nu al uit naar het volgende project.