- Door
- Arnout Veenman
- geplaatst op
- 23 maart 2015 10:00 uur
Door een storing was het Serverius netwerk zondagochtend slecht bereikbaar. Op Twitter lieten verschillende hosters weten door de storing getroffen te zijn. Om de storing te verhelpen, werd in eerste instantie de hardware van een router vervangen. Hiermee was de storing echter ook nog niet opgelost. Het probleem bleek namelijk een bug in de routersoftware te zijn.
Noodonderhoud
De storing begon rond 9:40 uur. Uit onderzoek van Serverius bleek dat de interne fallback van de router die de storing veroorzaakte, niet functioneerde. Ook het handmatig overschakelen naar de tweede cpu van de router lukte niet. Daarom liet Serverius om 11:05 uur weten dat de bewuste linecard zou worden vervangen. Om 13:25 werd gemeld dat door de vervanging de meeste problemen waren opgelost.
Om 14:45 uur maakte Serverius echter melding dat men waarschijnlijk te maken heeft met een bug in Cisco OS, die verholpen is in de nieuwste versie van het routerbesturingssysteem:
Update: Emergency maintenance.
Because we probably facing a Cisco OS bug what is fixed with the newest software release, we will now software update one routing engine at router 2 (at DC1). For this a small amount of BGP sessions need to be shut down (for sure to avoid long downtime) so it could be possible that you will experience some packet loss during this emergency maintenance. Sorry for the inconvenience, but we want to rule out that this bug causing more or same problems.
Om 15:10 uur wist Serverius te melden dat de softwareupgrade op één van de routers succesvol was doorgevoerd en een uur later dat door de upgrade de oorzaak van de storing eerder die dag, verholpen leek te zijn. Uit die laatste update blijkt dat het probleem te maken had met TCAM-geheugen in de routingengine dat door de bug niet goed functioneerde en gecrasht was.
Smokeping
Uit Smokeping-statistieken, zowel gezien vanuit Serverius naar andere netwerken als vanuit een ander netwerk dat Serverius in de gaten houdt, blijkt dat de absolute hoeveelheid downtime relatief beperkt is gebleven. In totaal gaat het om ongeveer één uur downtime. Echter is die wel verdeeld over drie incidenten in drieënhalf uur tijd.
Tweede storing in een week
Vorige week werd Serverius ook al getroffen door een storing, toen bleek het te gaan om een defecte geheugenmodule in een router. Op Twitter meldde zondagochtend daarom een relatief groot aantal hosters getroffen te zijn door de storing. Met name het woord ‘wederom’ en ‘again’ voor het woord ‘storing’ valt in een aantal van de tweets op.
https://twitter.com/wrhosting/status/579572068787847168
#Serverius is experiencing network issues again, some of our services are affected. We hope it will be resolved shortly by Serverius
— Key4ce (@key4ce) March 22, 2015
Serverius heeft aangekondigd vandaag met een RFO (Reason For Outage) van de netwerkstoring van gisteren te komen. Wanneer daar nieuwe informatie uit blijkt, dan zal dit artikel worden aangevuld.