- Door
- dr. Serge Gielkens
- geplaatst op
- 8 december 2015 08:00 uur
Voor deze storage story hebben we een gesprek met Gerben van de Ven, directeur en mede-eigenaar van Tilaa. Tilaa bestaat sinds 2008 en is specialist in VPS. Onder haar klanten mag Tilaa bedrijven als ESA en Philips rekenen. Betrouwbaarheid van de storage is dan ook de zwaarste afweging voor Tilaa.
Local storage
Al meteen aan het begin van het gesprek maakt Van de Ven duidelijk wat het uitgangspunt van Tilaa is: “Wij kiezen voor simplicity: local storage met hardware RAID-10.” Voor Tilaa biedt RAID-10 de juiste verhouding tussen redundantie en performance. In het begin heeft Tilaa ook tests gedaan met software RAID maar dat bleek in de praktijk minder betrouwbaar dan hardware RAID. De performance was eveneens lager. De conclusie was dan ook vlug gemaakt volgens Van de Ven: “We willen geen concessies doen aan betrouwbaarheid en performance, dus we zagen al heel snel in dat software RAID niks voor ons was.”
Iedere server heeft een RAID-kaart met hot spare disk om automatisch het uitvallen van een disk op te vangen. Voor een eventuele stroomuitval is iedere kaart uitgerust met een battery back-up. “Op deze manier lopen we niet het risico dat integraal het storage platform onderuit gaat”, vertelt Van de Ven. Bij shared storage is dat risico er wel.
“Concullega’s die high availability VPS aanbieden op een shared storage platform voorzien in het onderuitgaan van een virtualisatie node door de virtualisatie server op een andere node op te starten. Maar als het hele shared storage cluster onderuit gaat, gaan duizenden VPS’en ook onderuit. Als bij ons iets fout gaat, zijn de failure domains heel klein. Hoogstens enkele tientallen servers worden geraakt maar de rest draait door.”
Om de impact voor de klant verder te beperken hangt in ieder rack een hot spare server. “Bij een probleem brengen we alle schijven van de kapotte server over naar de hot spare. Binnen 20 minuten hebben we die weer in de lucht. De klant kan verder en wij kijken wel wat er stuk is.”
Tilaa heeft twee datacenters, een in Amsterdam en een in Haarlem. De storage is niet gekoppeld maar voor ieder datacenter apart gebruikt Tilaa wel een verdeelalgoritme dat ervoor zorgt dat als een klant meerdere VPS’en bestelt, ze op verschillende hardware terechtkomen. “Dat zijn echte HA-oplossingen. Je zorgt ervoor dat je uitval kunt hebben door het falen van hardware in te calculeren in de software”, aldus Van de Ven.
Als virtualisatietechniek wordt KVM gebruikt. Voorheen gebruikte Tilaa Xen maar op een gegeven moment leken de ontwikkelingen daar langzaam te stoppen terwijl KVM juist sterk evolueerde. Eigen tests lieten bovendien zien dat voor de omgeving van Tilaa KVM beter presteerde en te onderhouden was. Ook speelde mee dat Tilaa toentertijd Fedora, de community versie van RHEL, gebruikte en Red Hat zelf ging inzetten op KVM. Overigens is Tilaa inmiddels overgestapt op Scientific Linux. Deze distributie is ontwikkeld door het Fermilab samen met CERN en is net als CentOS een vrije variant van RHEL.
Shared en distributed storage
Met shared storage is het wel heel gemakkelijk om een VPS op een andere machine te starten. “Voor onderhoud van hardware was dit vroeger een argument voor shared storage, maar dit is al lang achterhaald door de techniek”, volgens Van de Ven. “We gebruiken live migration om de VM zonder onderbreking te verplaatsen van de ene machine met local storage naar de andere met local storage. Live migration was vroeger een bottleneck met local storage maar nu niet meer.”
Toch biedt Tilaa ook shared storage in de vorm van NFS aan. Van de Ven legt uit dat dit wordt gebruikt voor clusters met gedeelde data die continu veranderen zoals cookies en sessiedata van een webcluster. “Met local storage is dat lastig in sync te houden. De VPS’en zijn dan meer tijd kwijt om constant veranderende data op hun lokale disks in sync te houden dan aan het leveren van webservices.” Tilaa gebruikt het NFS-cluster niet voor het OS. Als NFS down gaat, blijven alle VPS’en draaien. Omdat maar zo’n 1 à 2 procent van de klanten deze service gebruikt, is het NFS cluster kleinschalig en eenvoudig van opzet. Het is een apart stukje hardware bestaande uit twee servers die verbonden zijn met een JBOD. Eén server is actief terwijl de andere passief is. Als een node hapert, neemt de andere het in minder dan een seconde over.
Tilaa houdt de technische ontwikkelingen nauwlettend in de gaten. Met name het distributed storage platform Ceph is interessant voor Tilaa omdat het ervoor zorgt dat er geen single point of failure is. Dat is precies waarom Tilaa nu local storage gebruikt. Tilaa voert al tests uit met Ceph maar ondervindt nog een aantal tekortkomingen. “Ceph voldoet nog niet aan de maatstaven die Tilaa nastreeft op het gebied van performance en betrouwbaarheid. Als dat soort zaken opgelost zijn, dan kunnen we ons voorstellen dat we het beginnen in te zetten voor back-ups. We vinden dat Ceph nu nog niet ver genoeg is om er VM’s op te draaien”, verklaart Van de Ven.
Tot slot
De tip die Van de Ven voor ons heeft, is die waar we ook het gesprek mee zijn begonnen: keep it simple. “Hiermee hebben we al jarenlang bewezen een goede stabiliteit en performance te bieden. We hebben geen integrale storingen. We hebben enige beperkingen zoals het in sync houden van servers maar dat weegt volgens ons niet op tegen de voordelen qua stabiliteit en simplicity van local storage.”