- Door
- Jeroen Mulder
- geplaatst op
- 24 september 2015 08:00 uur
Amazon Web Services had afgelopen zondag een probleem. Een storing zorgde ervoor dat veel services een paar uur uit de lucht waren. Die storing vond plaats in de nacht van zaterdag op zondag, van twee tot acht uur ’s ochtends. Vervelend. Kan gebeuren. Het is techniek en het kan kapot. Toch is er nu ophef over juist die storing. De reden: het maakte pijnlijk duidelijk hoe afhankelijk heel veel webservices zijn van deze ene grote cloudprovider. Heel veel. En dus is er ineens de vraag of we niet te afhankelijk zijn van AWS. Die vraag is niet alleen relevant voor de VS.
Het is al lang duidelijk dat de IaaS-markt 100% wordt gedomineerd door een paar grote spelers, ook in Europa. AWS en Azure zijn de onbetwiste marktleiders. Ze groeien bovendien als kool. Steeds meer bedrijven denken er serieus over om omgevingen naar de publieke cloud te brengen. Veel webservices die wij elke dag gebruiken, worden gehost op EC2 – waaronder Netflix, Reddit en Pocket. Die diensten gingen afgelopen zondag uit de lucht. Probleem was niet eens het datacenter zelf. Een van de vele schakels in AWS stopte ermee, in dit geval DynamoDB, de NoSQL-databaseservice van Amazon.
Vervolgens bleek hoeveel andere schakels in AWS afhankelijk zijn van één component. Vrijwel alle AWS-services ondervonden hinder van de outage, inclusief EC2, maar ook diensten die Amazon gebruikt om applicaties te schalen en te deployen op servers. Dat is een voortdurend proces binnen AWS: om de infrastructuur zo optimaal mogelijk te benutten, worden de workloads die op het platform worden gehost, voortdurend ‘verschoven’ en gedimensioneerd. Hiervoor zijn diensten als ElastiCache, Auto Scaling en CodeDeploy ontworpen. Je zou verwachten dat deze diensten volledig redundant zijn, maar dat is blijkbaar niet het geval.
Sterker: op Twitter ontstond direct na de outage een discussie over het feit dat Amazon een single point of failure is geworden. Een paar klanten wezen er fijntjes op dat ze wel voor redundantie betalen, maar een fout in een database ervoor kan zorgen dat een heel IaaS-platform onbereikbaar wordt. Dit is precies de reden waarom grotere bedrijven hun kritische workloads niet in een public cloud-infrastructuur willen onderbrengen. Dit soort ervaringen gaan zeker niet helpen: grote public cloud-omgevingen zijn niet bedrijfszeker, ondanks alle beloften van de aanbieders. Hybrid: vooruit. Development en testsystemen in public cloud – natuurlijk. Productie? Nee. Dat blijft op eigen servers, in dubbele datacenters waar je die systemen daadwerkelijk kunt aanraken. Die zekerheid kan een public cloud niet bieden.