Journalistiek

Onpartijdig, onafhankelijk nieuws, uitsluitend in dienst van het branchebelang.

SIDN maakte geen backup voorafgaand aan mislukte database migratie

  • Door
  • Arnout Veenman
  • geplaatst op
  • 18 februari 2013 08:10 uur

sidn_logoDe SIDN had voorafgaan aan het uitvoeren van de database migratie vorige week zaterdag geen snapshot (backup) gemaakt van de database van het .nl-domeinregistratiesysteem. Dat blijkt uit het verslag dat de SIDN over het onderhoud aan .nl-registrars heeft gestuurd. Toen de database migratie mislukte bleek er enkel een backup beschikbaar te zijn van 5 dagen oud. De wijzigingen in de database sindsdien moesten worden berekend aan de hand van de ‘archive logs’ die na het maken van de backup waren gegenereerd.

Verloop onderhoud
Het onderhoud op zaterdag 9 februari was door de SIDN aangekondigd en zou oorspronkelijk van 7:00 uur tot 14:00 uur duren, maar duurde uiteindelijk tot 2:00 uur de volgende morgen. Als gevolg hiervan was het totaal 19 uur lang niet mogelijk om .nl-domeinnamen te registeren of te muteren. Nu blijkt dus dat de reden dat dit zo lang heeft geduurd gelegen is in het feit dat niet alleen de migratie mislukte, maar ook dat de .nlregistry in het draaiboek te zetten om een snapshot (backup) van de database te maken voor dat de migratie van Oracle 10g naar 11g zou worden uitgevoerd.

Uit het verslag dat de SIDN naar zijn registrars heeft gestuurd, blijkt verder dat de migratie pas werd afgebroken nadat was gebleken dat de migratie van de database van het .nl-domeinregistratiesysteem van Oracle 10g naar 11g leek te falen. Daarna probeerde men terug te keren naar de oorspronkelijke uitgangssituatie, hetgeen niet mogelijk bleek door dat de migratie al half was uitgevoerd. Daarna bleek echter dat er ook geen ‘consistente copy (snapshot)’ (backup) van de database te zijn gemaakt voorafgaand aan het uitvoeren van de database migratie.

Backup van 5 dagen oud
Gezien er ook geen andere mogelijkheden waren om de database te herstellen, moest er worden teruggegrepen op een 5 dagen oude backup die op de maandag ervoor was gemaakt. Het duurde uiteindelijk 3,5 uur om de verouderde backup terug te zetten. Daarna duurde het nog eens 3,5 uur om op basis van de ‘archive logs’ om de database weer bij te werken tot de situatie van voor dat de migratie werd gestart.

Na het herstel van de database in de oude situatie en er nu wel een snapshot was gemaakt van de database, werd een tweede poging gedaan om de database te migreren. Ook deze poging mislukte. Als gevolg hiervan zal het binnenkort noodzakelijk zijn om een derde migratie poging te doen. De SIDN stelt het draaiboek hiervoor te hebben aangepast, waarbij de belangrijkste aanvulling waarschijnlijk het maken van een snapshot zal zijn.

Reactie SIDN
In een nadere reactie laat SIDN-woordvoerder Lycke Hoogeveen tegenover ISPam.nl weten dat er geregeld backups worden gemaakt. “Informatie over hoe vaak precies geven we niet aangezien dat onze interne bedrijfsvoering betreft.” Op basis van de gegevens uit het verslag lijkt het er op dat de SIDN één keer per week een (volledige) backup van de database van het .nl-domeinregistratiesysteem maakt.

In het verslag schrijft de SIDN over het feit dat er geen snapshot is gemaakt voorafgaand aan de database migratie: “Het ontbreken van de snapshot kan hierbij worden aangemerkt als een nalatigheid in de gehele procedure welke bij een migratie verwacht mag worden.”. In de nadere reactie laat de SIDN-woordvoerder over de vraag of de SIDN hiermee een brevet van onvermogen heeft ten toon gespreid?: “Zoals in het verslag aangegeven betreuren wij ten zeerste dat door een menselijke fout, in tegenstelling tot wat de procedure voorschrijft, de snapshot niet is gemaakt en dat het draaiboek is aangepast.

Wouter, 18 februari 2013 8:43 am

Dit kan echt niet voor een professionele partij, dit is zoiets basics, wat zo'n beetje stap 1 is in de opleiding van elke IT-er. Het zou niet meer dan terecht zijn als de IT verantwoordelijke hieruit zijn conclusies trekt en de eer aan zichzelf houdt. Hij heeft als verantwoordelijke gefaald, en niet zo'n beetje ook. Ik zou mezelf geen eens IT-er durven noemen met zo'n flater op mijn naam.

Martijn, 18 februari 2013 9:15 am

In een nadere reactie laat SIDN-woordvoerder Lycke Hoogeveen tegenover ISPam.nl weten dat er geregeld backups worden gemaakt. “Informatie over hoe vaak precies geven we niet aangezien dat onze interne bedrijfsvoering betreft.”

Mag ik een ieder er op wijzen dat de interne bedrijfsvoering, en het falen daarvan, impact heeft op de bedrijfsvoering van de hedenochtend 1686 vermelde registrars. Natuurlijk in meer en mindere mate afhankelijk van de registrar.

Derhalve ben ik van mening dat de interne bedrijfsvoering wel degelijk een aangelegenheid is van/voor de registrars. Als het SIDN 12 uur plat is, houdt dat in dat 1686 partijen geen .NL domeinnaam kan vastleggen. De interne bedrijfsvoering wordt ansich goed gefinancieerd door de registrars. Wij mogen dus stellen dat we toch zeker wel een bepaalde verwachting mogen hebben. Des te vervelender is het dat SIDN keer op keer de verwachtingen (die al lang niet meer zo hoog zijn bij de meeste registrars) niet halen.

Maurice, 18 februari 2013 4:24 pm

@Wouter, waar mensen werken worden fouten gemaakt. Ik zou mezelf geen ITer durven noemen als ik nog nooit een storing van dichtbij heb gezien. Dat kan hooguit betekenen dat je nog nooit met bedrijfskritische processen hebt gewerkt. De ervaring die je daardoor mist van een storing of problemen van andere aard is onontbeerlijk voor elke ITer. Dingen gaan mis en daar leer je van.

Ik vind dat het allemaal wel een beetje (erg) opgeblazen wordt hoor. Lees ook flink wat overtrokken reacties hier en daar. Martijn, ook zo boos geweest op de ING waar je als zakelijke bankier 17 uur lang geen transacties kon verwerken omdat internet bankieren plat lag? 650.000 (!!!) zakelijke klanten die GEEN betalingsverkeer konden laten plaatsvinden. Dan hebben we het nog niet over de persoonlijke fuckup bij Amazon een maand of 2 geleden die 24 uur lang kampte met een storing op het AWS platform door een foutje van een ontwikkelaar. Dan hebben we het nog niet over KPN, waarbij vorig jaar de voltallige backupdienst 6 weken (!) lang niet bereikbaar is geweest.

Zo kunnen we nog wel even doorgaan met partijen die een veelvuldig budget van de volledige omzet van de SIDN beschikbaar hebben voor de IT, maar óók last hebben van technisch en menselijk falen. Shit happens, comes with the job. Als je er niet tegen kan zou je het in de accountancy eens kunnen proberen. Elke dag lekker hetzelfde, nooit last van storingen en om precies om 5 uur naar huis en je werk achter je laten :)

Niet zo opblazen heren! Ook de website van ispam ligt er met enige regelmaat uit... hoe moeilijk zou een website hosten kunnen zijn right!? ;)

Maurice, 18 februari 2013 4:26 pm

Zou fijn zijn als je je eigen reactie zou kunnen editen en hier en daar taalkundig wat bijschaven. We houden het maar op de maandag... :)

max, 18 februari 2013 4:30 pm

Stel je voor dat ze echt 5 dagen teruggezet zouden zijn.. stel dat ze geen archive log hadden..
"kunt u uw domeinnaam aanvraag opnieuw versturen?"

Maurice, 18 februari 2013 4:35 pm

Maar dat was niet zo. Stel dat de SIDN gisteren failliet was gegaan of erger, die meteoriet in Rusland in Amsterdam was gevallen... lag heel internettend Nederland plat. Dát zou pas een serieuze ramp zijn. Kunnen we allemaal bijna wel inpakken.

Martijn, 18 februari 2013 9:26 pm

@Maurice, ja ik ben ook boos geweest op de ING, een van de redenen dat zij nu niet meer onze huisbankier zijn.
Die keuze kan ik bij het SIDN niet maken omdat zij een monopolie positie hebben.

Wouter, 18 februari 2013 9:27 pm

Maurice, een fout maken, een storing hebben...allemaal nog mogelijk, want inderdaad, waar mensen werken...

MAAR....geen backup maken voor een migratie...dat is een brevet van onvermogen en hoe dan ook niet goed te praten!

Arjan, 19 februari 2013 1:32 am

Wat een perfecte wereld zouden we hebben als we allemaal van die perfecte mensen als die hier spreken hadden zeg!

@Maurice, sluit me helemaal bij jou mening aan.

Martijn, 19 februari 2013 6:39 am

@Arjan en @Maurice,
Jullie vinden het dus normaal dat een aangekondigd onderhoudsvenster (overdag ivm goedkopere ondersteuning Oracle?) van 7 uurtjes (7:00 tot 14:00) verlengd wordt met nog eens 12 uur omdat iemand de procedure letterlijk heeft gevolgd zonder verder nadenken. Het is al stom dat men een procedure weet te schrijven zonder het benoemen van een backup.

Ik zeg niet dat er geen onderhoud uitgevoerd mag worden, maar het onderhoud dat dan uitgevoerd wordt dient snel en volgens de procedures uitgevoerd te worden.
Ontstaat er een fout waardoor je opnieuw moet beginnen dan is dat volgens mij een signaal om een rollback te doen en je upgrade opnieuw te plannen en te testen. Immers er is een situatie die je klaarblijkelijk niet hebt overzien.

Het is goed bedoeld om het onderhoud te verlengen en het probleem direct te verhelpen, maar zoals omschreven de bedrijfsvoering van het SIDN treft wel 1686 registrars die op dat moment geen registraties kunnen aanvragen of enige mutaties kunnen uitvoeren.

Laatste reacties

Bedankt voor het succes van ISPam.nl
Koen Stegeman, Editor-in-Chief & founder Hostingjournalist.com: Jammer Arnout, maar je hebt een mooie bijdrage aan de hosting industrie geleverd, en dat jaren lang....

Bedankt voor het succes van ISPam.nl
Dillard Blom: Jammer dat een 'instituut' verdwijnt, en daarmee een bron van informatie over actuele zaken (en opin...

Bedankt voor het succes van ISPam.nl
L.: Uit automatisme kijk ik toch nog steeds elke dag naar ispam.nl, toch de hoop dat er nog een berichtj...

Bedankt voor het succes van ISPam.nl
Toni Donkers: Arnout bedankt! ik ga het missen dat is een feit!

Bedankt voor het succes van ISPam.nl
Marcel Stegeman: Ik zie het nu pas. Inderdaad jammer maar ik kijk nu al uit naar het volgende project.