- Door
- Arnout Veenman
- geplaatst op
- 14 april 2016 13:35 uur
Het Google Compute Engine platform was afgelopen dinsdag tussen 5:09 en 5:27 uur Nederlandse tijd 18 minuten lang volledig onbereikbaar. De storing werd veroorzaakt door een combinatie van bugs in de systemen van Google die ervoor zorgde dat alle IP-blokken die door Compute Engine worden gebruikt niet langer meer werden geadverteerd in BGP. Een handmatige rollback van de laatst bekende router configureerde zorgde ervoor dat de storing tot 18 minuten beperkt bleef.
Doordat het netwerk van Google Compute Engine geen enkel IP-blok meer adverteerde, werd het platform compleet onbereikbaar voor de buitenwereld. Ook andere diensten van Google die gebruikmaken van het platform zoals de Cloud VPN dienst en L3 network load balancers werden onbereikbaar door de storing.
De storing ontstond doordat netwerkengineers een ongebruikt IP-blok uit de routerconfiguratie verwijderde. Dat was op zichzelf een gebruikelijke en onschuldige actie. Door een probleem binnen de systemen van Google werd de verandering niet weggeschreven naar een tweede configuratiebestand. Deze inconsistentie werd automatisch gedetecteerd en de bedoeling was dat de oude routerconfiguratie werd hersteld. Door een bug gebeurde dat echter niet en in plaats daarvan werden alle IP-blokken uit de routerconfiguratie verwijderd.
Om te voorkomen dat dit soort bugs leidt tot het compleet onbereikbaar worden van het netwerk van Google Compute Engine, wordt een gewijzigde routerconfiguratie eerste enkel naar één van de sites gepusht. Daarna wordt gekeken of het netwerk nog steeds via die site bereikbaar is. De systemen constateerde dat dit niet het geval was maar koppelde deze constatering niet terug. Als gevolg daarvan werd de foutieve routerconfiguratie toch naar alle sites gepusht en werd het Google Compute Engine platform gedurende 18 minuten compleet onbereikbaar.
Direct na het ontdekken van de storing is door de Google engineers de laatst goed functioneerde routerconfiguratie teruggezet. Daardoor duurde de storing totaal maar 18 minuten. De storing begon om 5:09 uur en eindigde om 5:27 uur. In een verklaring over de storing schrijft Benjamin Treynor Sloss, VP 24×7 bij Google dat er bewust voor gekozen is om een extra gedetailieerde verklaring over de storing te geven om volledig transparant te zijn, gezien dat recht doet aan de ernstigheid van deze storing.