Journalistiek

Onpartijdig, onafhankelijk nieuws, uitsluitend in dienst van het branchebelang.

Onderhoud SIDN legt .nl-domeinregistratiesysteem 19 uur lang plat

  • Door
  • Arnout Veenman
  • geplaatst op
  • 11 februari 2013 08:00 uur

sidn_logoAfgelopen zaterdag werd er door de SIDN onderhoud gepleegd aan het Domeinregistratiessysteem (DRS) van het .nl-domein. Om 7:00 uur begon het onderhoud en dat moest om 14:00 uur afgerond zijn. Het onderhoud liep door problemen echter uit, als gevolg daarvan duurde het maar liefst tot zondagnacht 2:00 uur voordat het onderhoud was afgerond. Daardoor was het gedurende 19 uur niet mogelijk om een .nl-domeinnaam aan te vragen of te wijzigen. Drie weken geleden was dat ook al 7 uur lang niet mogelijk. Moet dat consequenties voor de SIDN top hebben?

Tijdsverloop
Om 13:30 uur liet de SIDN in een eerste update aan de registrars weten dat bij de migratie van de database van het .nl-domeinregistratiesysteem naar Oracle 11g een corruptie was opgetreden. Naar aanleiding van de corruptie werd besloten om een restore van de database uit te voeren. Om 16:00 uur liet de SIDN weten dat restore bezig was en het probleem dat deze veroorzaakt had was gevonden en verholpen. Er kon echter nog geen eindtijd worden gegeven, binnen drie uur zou er een update volgen. Die kwam zaterdag om 19:00 uur, maar nog steeds geen inhoudelijke mededeling, behalve dat het de verwachting was de database recovery rond middernacht zou zijn afgerond.

De koek was echter nog niet op bij de SIDN want om 23:00 uur volgde het bericht dat ‘de migratie van de database wederom is vastgelopen op de Oracle-scripts, waardoor we ons nu genoodzaakt zien terug te gaan naar de vorige versie. We herstellen de oude situatie weer en hebben de openstelling van de applicatie gepland op 02.00 uur’. Zondagnacht om 2:02 uur precies wist de SIDN per e-mail te melden dat  de werkzaamheden en de aansluitende test waren afgerond en de diensten weer beschikbaar zijn.

In de laatste e-mail excuseert de SIDN zich voor de lange onderbreking van de dienstverlening. Daarnaast belooft de registry in de mail in de loop van de week op de registrarwebsite een uitgebreide toelichting te geven over het verloop van het onderhoudsvenster.

In een reactie tegenover ISPam.nl laat Cees Toet, Manager ICT van SIDN weten dat SIDN het uiteraard zeer betreurd dat het onderhoud van afgelopen zaterdag zo is uitgelopen en dat daarnaast de oude situatie moest worden hersteld. Toet stelt dat SIDN de afgelopen jaren er juist hard aan gewerkt heeft om de betrouwbaarheid van DRS verder te vergroten, met DRS5 is de tevredenheid van registrars over het systeem dan ook zeer toegenomen.

Over het onderhoud van afgelopen zaterdag dat tot 19 uur downtime van het DRS leidde, stelt Toet dat: “Er vele upgrades van omgevingen en productie-like omgevingen van te voren uitgevoerd zijn om te voorkomen wat zaterdag is gebeurd. Geen omgeving is echter gelijk. Dat de eerste poging niet gelukt is kon worden verklaard en op basis daarvan is besloten om nogmaals de upgrade te starten. Dat daarna de Oracle upgrade programmatuur bleef hangen was niet te verwachten, was niet te voorzien en was ook tijdens eerdere (test) upgrades niet voorgekomen. Over de verklaring daarvan bestaat inmiddels (14 uur na de openstelling) wel een theorie maar is niet definitief vastgesteld, laat staan ook grondig getest.”

Jaarlijks meer dan 1,6 miljoen euro uitgegeven aan IT-infrastructuur
Uit de jaarrekening 2011 van de SIDN (pdf) blijkt dat de organisatie in 2011 maar liefst 1,6 miljoen euro heeft uitgegeven aan ‘systeemkosten’, het totale bedrag dat de organisatie uitgeeft aan zijn IT-infrastructuur voor het .nl-domeinnaam is waarschijnlijk zelfs nog hoger, doordat hier ook nog personeelskosten en internetverbindingen bij moeten worden opgeteld. In dat licht is het zeer merkwaardig om te zien dat het onderhoud van de SIDN-infrastructuur niet zonder al te veel downtime kan doorvoeren.

Manager ICT Toet stelt over deze kosten dat dit genuanceerder ligt omdat hier ook investeringen in DNS(sec), de verhuizing en DRS er onder zouden vallen. Echter staat er in de jaarrekening ook een post “Advieskosten nieuw geautomatiseerd systeem” en “Advieskosten projecten”, dus het is maar de vraag in hoeverre die kosten al niet uitgesplitst zijn. En ook al vallen de kosten lager uit, dan gaat het nog steeds om enorme bedragen.

Op zaterdag 19 januari pleegde de SIDN ook al onderhoud aan het domeinregistratiesysteem van 8:00 uur tot 15:00 uur, dat wel zonder problemen werd afgesloten. Samen met het onderhoudsvenster van afgelopen zaterdag is het DRS daarmee in 2013 maar liefst 26 uur onbereikbaar geweest. Daarmee heeft het DRS tot en met 10 februari dit jaar een uptime van 97,35%. Wanneer het de SIDN geen seconde meer down is dit jaar, dan kan het maximaal een uptime halen van 99,7%. Voor de gemiddelde managed hoster is dat al nauwelijks acceptabel te noemen en we hebben het hier nota bene over het DRS van ons nationale .nl-domein, een publieke dienst, die door een semi-publieke organisatie wordt aangeboden en miljoenen uitgeeft aan zijn IT-infrastructuur!

Consequenties
Gezien de lange geschiedenis met problemen met het DRS van de SIDN die teruggaan tot 2006, begin ik me serieus af te vragen of dit geen consequenties zou moeten hebben voor de top van SIDN en er niet spreekwoordelijk koppen moeten gaan rollen. Wat vinden jullie?

Jorick Astrego, 11 februari 2013 9:52 am

Er vele upgrades van omgevingen en productie-like omgevingen van te voren uitgevoerd zijn om te voorkomen wat zaterdag is gebeurd. Geen omgeving is echter gelijk.

Ongelofelijk, nooit van OTAP gehoord bij SIDN??? Ontwikkeling, Test, Acceptatie en Productie. De laatste 2 omgevingen horen identiek te zijn zodat je altijd weet dat wat je doet in acceptatie ook in productie zo zal gaan.

Je zou denken dat ze geld genoeg zouden moeten hebben om de boel een beetje fatsoenlijk in te richten.

Arjan, 12 februari 2013 12:39 am

@Arnout: Spreekwoordelijk valt dit misschien wel een beetje onder het erg hoog uit de toren blazen? De top van SIDN functioneert naar mijn mening prima! Cees en zijn team hebben in de laatste jaren veel verbeteringen in DRS door weten te voeren en de meeste wensen van registrars alsmaar ingewilligd. Terecht stelt SIDN dat een overgroot deel van de registrars zeer tevreden is over DRS.

De downtime is uiteraard erg jammer maar om direct koppen te laten rollen voor een situatie waarbij enorm hard is gewerkt aan het oplossen? We hebben allemaal productie en test omgevingen en iedere eerlijke beheerder weet dat tussen beide stiekem toch nog wel eens verschillen kunnen optreden. De gene welke beweerd dat dit niet zo is liegt! Een kleine fout met grote gevolgen zit in een klein hoekje.

De laatste jaren heeft SIDN naar mijn mening goed haar best gedaan ons allen zoveel mogelijk tevreden te stellen... Jammer dat het deze maand even goed mis is gelopen, de komende maanden beter! Men valt, leert en verbeterd :-).

Arjan, 12 februari 2013 12:50 am

Rest mijn enkel om nog even mijn petje voor Cees en zijn team af te nemen. Men is tot laat in de nacht doorgegaan met het oplossen van de problemen en daarbij het doel te behalen om ons toch van de updates te voorzien. Ik ken enkele grote partijen welke bij een storing toch gewoon naar huis gingen om eerst even wat uit te rusten en de volgende ochtend aan een oplossing verder te werken.

Vooral de onderste helft van Nederland liet zich tijdens de storing heerlijk vollopen met bier en vierde carnaval. Ik ben er van overtuigt dat de impact van de storing sowieso al een heel stuk kleiner is. De mannen van SIDN hebben dit aan zich voorbij laten gaan.

Jeroen, 12 februari 2013 6:23 pm

@Arjan: de hoeveelheid productieverstorend onderhoud is ronduit belachelijk, zowel deze maand als vorig jaar. Een partij die dermate belangrijke dienstverlening levert en daar fors geld voor vraagt hoor mijn inziens gewoon netjes een HA omgeving te hebben, daarop zijn applicatie te draaien en in geval van onderhoud zo min mogelijk down te gooien. De whois bijvoorbeeld kan prima online blijven als men aan het DRS werkt, aangezien dit toch statische content is zolang het DRS plat ligt. Neemt niet alle downtime weg maar wel een hele hoop. Dan heb ik het niet eens over een twin datacenter oplossing.

Arjan, 12 februari 2013 8:56 pm

@Jeroen: Misschien wat om een open sollicitatie bij SIDN te doen? Met jou aan boord moeten ze zeker 100% uptime behalen. Lijkt me een mooie voorwaarden als je dit no-cure, no-pay doet!

Jeroen, 13 februari 2013 10:21 am

@Arjan: daar heb ik inderdaad al aan gedacht. Helaas ligt Arnhem niet in de buurt van Amsterdam en voel ik er weinig voor om te verhuizen naar het platteland :-)

patrick, 13 februari 2013 10:02 pm

Arjan, je hebt gewoon gelijk, als je uit grote omgevingen komt zie je dit altijd wel ergens gebeuren, maakt niet uit wat voor een procedures er zijn, waar mensen werken zijn de systemen 'altijd' net even iets anders. Zou niet mogen, maar het is wel zo.

Als ze niet terug hadden kunnen gaan naar de oude omgeving, dan waren het pas prutsers geweest. Doorwerken tot laat in de nacht om het op te lossen is i.d.d. iets waar we met z'n allen respect voor moeten hebben, iedereen in de business heeft dit wel eens en iedereen die om zijn of haar bedrijf geeft doet er alles aan om het op te lossen.

iets met de beste stuurlui ... wal .. enzo.

Arnout Veenman, 15 februari 2013 8:59 am

Arjan, Patrick, jullie vinden het acceptabel c.q. normaal als een high availability platform binnen amper anderhalve maand tijd 26 uur plat ligt? Vrijwel elke managed hosters geven op elke applicatie een uptime garantie af van minimaal 99,9%, vaak zelfs 99,99% en maken dat ook waar. Het feit dat SIDN niet eens meer dan 99,7% kan halen dit jaar (met nog 10 maanden te gaan), zegt daarom genoeg over de (wan)prestatie van SIDN.

Wouter, 15 februari 2013 10:55 am

Arnout, ik ben het met je eens dat SIDN hier een wanprestatie geleverd heeft, maar je uptime berekening i.c.m. een uptime garantie klopt volgens mij niet. In elke uptime garantie wordt vooraf aangekondigd onderhoud uitgesloten en niet meegenomen in de telling...

Arnout Veenman, 15 februari 2013 11:17 am

Wouter, in het topsegment wordt onderhoud vaak ook meegenomen in de uptime garantie. Daarnaast kun je je ook afvragen of de hoeveelheid tijd aan gepland onderhoud wél acceptabel is.

Alexander, 15 februari 2013 11:52 am

Nou 19 uur dus duidelijk niet. Als SIDN nou zelf eens met excuses en compensatie zou komen waren we alweer een stap verder geweest.

Wouter, 15 februari 2013 10:04 pm

Ik werk voornamelijk in het top- (of in iedergeval hogere-)segment en heb heel wat overeenkomsten gezien, maar nooit dat onderhoud onder de uptimegarantie valt. Er zitten regelmatig wel gevolgen aan het overschrijden van de geplande tijd in een onderhoudsvenster. En dat is hier natuurlijk ook het geval...dus linksom of rechtsom kom je er toch weer :-)

Maar ja, wat is hier de oplossing? Zou een vertrek van Roelof (ik zeg sowieso...DOEN!) dit oplossen? Er zal meer nodig zijn om het probleem echt op te lossen...dat zal grotendeels een kwestie van geld zijn. Niet dat dat bij SIDN een probleem hoeft te zijn als je de jaarstukken bekijkt...

Wouter, 15 februari 2013 10:06 pm

En dan heb ik het voornamelijk over kosten voor kundig personeel...dat nog niet bij het bedrag genoemd in het artikel zit schijnbaar.

Arjan, 16 februari 2013 7:23 pm

@Arnout: Als ik over het topsegment van de markt spreek kom ik snel uit bij enkele bedrijven zoals Atos en T-Systems. Sta met beide vrij nauw in contact en doorgaans staan onderhoud en de uptime garantie ook hier los van elkaar.

Hier worden overigens systemen onderhouden welke nog kritischer zijn als het DRS systeem van SIDN en ook daar kan een onderhoud wel eens flink uitlopen.

Laatste reacties

Bedankt voor het succes van ISPam.nl
Koen Stegeman, Editor-in-Chief & founder Hostingjournalist.com: Jammer Arnout, maar je hebt een mooie bijdrage aan de hosting industrie geleverd, en dat jaren lang....

Bedankt voor het succes van ISPam.nl
Dillard Blom: Jammer dat een 'instituut' verdwijnt, en daarmee een bron van informatie over actuele zaken (en opin...

Bedankt voor het succes van ISPam.nl
L.: Uit automatisme kijk ik toch nog steeds elke dag naar ispam.nl, toch de hoop dat er nog een berichtj...

Bedankt voor het succes van ISPam.nl
Toni Donkers: Arnout bedankt! ik ga het missen dat is een feit!

Bedankt voor het succes van ISPam.nl
Marcel Stegeman: Ik zie het nu pas. Inderdaad jammer maar ik kijk nu al uit naar het volgende project.