- Door
- Arnout Veenman
- geplaatst op
- 17 december 2010 08:07 uur
Het rapport (pdf) over de zeer ernstige storing bij SIDN van zowel het primaire als de fallback van het domeinregistratie systeem bevatte in de ogen van de ISPam.nl redactie te weinig achtergrondinformatie. Daarom hebben wij SIDN zeven kritische vragen gesteld, die door SIDN-manager Sieger Springer per e-mail zijn beantwoord. Om de lezer een zo goed mogelijk beeld te geven publiceren wij de vragen en antwoorden hier integraal en zonder bewerking.
1. Hoe kan het zijn dat de configuratie-fout niet eerder is ontdekt?
In de infrastructuur van SIDN is onder meer sprake van scheiding op basis van VLAN’s. Een aantal systemen is op meerdere VLAN’s aangesloten, waarbij elk VLAN zijn eigen gebruiksdoel heeft. Afhankelijk van dit gebruiksdoel is er sprake van wel of geen redundantie in de vorm van dubbele switches en netwerk-interfaces. De genoemde configuratie-fout had betrekking op een dergelijke VLAN-configuratie. Hoewel de betreffende systemen voorafgaand aan de storing goede connectiviteit hadden, verliep deze connectiviteit niet over het daarvoor bedoelde redundante VLAN. In plaats daarvan verliep de connectiviteit over een ander VLAN dat niet redundant was uitgevoerd. Toen dit VLAN tijdens de storing werd uitgeschakeld middels het herstarten van een switch, in de veronderstelling dat hier geen belangrijk verkeer over werd afgehandeld, kwam aan het licht dat dit onbedoeld wel het geval was.
Om te verklaren waarom deze configuratie-fout niet eerder werd ontdekt kan het beste de vergelijking met een software-bug worden gemaakt. Die sluipt in de software en blijft onopgemerkt, totdat zich bepaalde een situatie voordoet. Tot die tijd functioneert het programma in kwestie normaal. Dit was ook het geval met DRS.
2. Waarom was er helemaal geen (identieke) spare switch aanwezig?
Redundantie in het netwerk maakt cold stand-by ter plaatse overbodig. Mocht er apparatuur uitvallen, dan neemt andere apparatuur de taken over, totdat de defecte hardware is vervangen. Voor vervanging van defecte hardware is voorzien in een combinatie van hardware op voorraad en goede servicecontracten met leveranciers. Vervanging duurt dus in de regel maximaal enkele uren maar zou vanwege de beschikbare redundantie geen verstoring van het systeem tot gevolg moeten hebben.
3. Waarom worden de logs, waar op basis van eventuele fouten in het systeem worden hersteld naar het zelfde volume weggeschreven, waardoor beide in het geval van corruptie dan wel vollopen van het volume vatbaar is?
De zogenaamde ‘archive logs’ worden wel degelijk naar een ander volume geschreven, dat op zijn beurt onderdeel uitmaakt van een RAID-configuratie. Dit geldt ook voor de zogenaamde alert logs.
4. Blijkt uit de storing dat in de architectuur van het systeem dat nou DRS is of het onderliggende (hardwmatige en/of softwarematige) platform, ontwerp-fouten bevat?
Nee, de architectuur en het ontwerp daarvan is in orde, ware het niet dat de configuratie en het ontwerp uiteenliepen. SIDN streeft naar een robuust en onfeilbaar systeem. Daarvoor worden kosten noch moeite gespaard. Er is voorzien in redundantie en ‘high availability’ in de ruimste zin van het woord.
5. De belangrijkste vraag, die niet uit het rapport blijkt is, wat de rol van SIDN hierin is. Hoe heeft dit zou fout kunnen gaan. Waarom heeft SIDN deze problematiek niet eerder kunnen voorkomen/voorzien?
In het rapport staat wel degelijk wat de rol van SIDN is en het rapport geeft ook aan dat het om een opeenstapeling van tegenslagen ging.
6. Erkent SIDN dat ze niet alleen een inspanningsverplichting maar ook een resultaatsverplichting naar de registrars en via de registrars naar alle .nl-stakeholders heeft om er voor te zorgen dat DRS daadwerkelijk highly available is (99.99%+)?
Vanzelfsprekend streeft SIDN naar een zo hoog mogelijke beschikbaarheid van haar systemen. Hierin heeft de beschikbaarheid van de .nl-zone (resolving) de hoogste prioriteit. Ook ten aanzien van de beschikbaarheid van het registratiesysteem en verwante diensten (Whois) wordt naar een zo hoog mogelijke beschikbaarheid gestreefd.
Op dit moment heeft SIDN geen concrete service levels met haar registrars afgesproken. Wat ons betreft zou dit een goed onderwerp van gesprek zijn met de komende Vereniging van Registrars.
7. Hoe kijkt SIDN in het licht van de storing naar haar eigen competentie met betrekking tot het beheren en beschikbaar houden van het systeem waarmee domeinnamen worden geregistreerd?
Het .nl-domein behoort tot de selecte groep van meest betrouwbare, stabiele en veilige top level domeinen. Dit wordt ook internationaal erkend. Dat zegt genoeg over (de competentheid van) SIDN als beheerder van het .nl-domein.
Over de twee laatste vragen hebben we nadere uitleg gevraagd, met name wilden wij een ja- of nee-antwoord op de vraag of de SIDN erkent dat men een resultaatverplichting heeft om het DRS daadwerkelijk high available te houden. SIDN-manager Sieger Springer gaf echter aan dat men bij de SIDN van mening is afdoende informatie te hebben verstrekt over de verstoring middels het RFO en de antwoorden op onze vragen.