NL
EN
Google Cloud

Snel handelen, met tevreden klanten

Nu veel sectoren zijn ontwricht, moeten organisaties voldoen aan nieuwe voorschriften. Daardoor ontstaat een behoefte om snel te kunnen bewegen, zonder dat de betrouwbaarheid voor klanten eronder lijdt. Dat kan lastig zijn als de omgeving waarin de toepassingen gebouwd complex is. 


Site Reliability Engineering (SRE) is een strategie die jou kan helpen om die uitdaging aan te gaan. Met SRE creëer je betrouwbare systemen voor zowel je klanten als je operationele team. Op die manier worden je teams en systemen beide wendbaarder en betrouwbaar en kun je kostbare tijd vrijmaken voor innovatie. En dat zonder dat de klanttevredenheid afneemt.

Ben je nieuwsgierig geworden? In dit artikel vertellen we je over SRE. Over hoe het Blameless innovatiever maakt, en hoe Netflix het gebruikt om hun klanten streamend en tevreden te houden.

Wat is SRE?

Het concept van SRE werd bij ons in 2003 voor het eerst opgezet. Het is een combinatie van mensen, praktijken en producten waarmee je betrouwbare systemen en diensten kunt bouwen, die de klant voorop stellen. Bij Google doen we dat door operations te zien als een softwareprobleem. Het doel daarvan is om de softwaresystemen achter de openbare diensten te beschermen, te faciliteren en uit te voeren door ze voortdurend te controleren op beschikbaarheid, vertraging, prestatie en capaciteit. Daarom gebruiken we het concept van blameless postmortems. Dat betekent dat we fouten zien als onvermijdelijk. We geven noch een systeem, noch een medewerker de schuld, maar concentreren ons op het proces en de technologie om te kijken waar het mis ging en hoe we het kunnen oplossen. Hieronder leggen we uit waarom het handig is om op deze manier te werken.

  SRE als redder in nood

De belangrijkste eigenschap van SRE is betrouwbaarheid. Wij denken dat je daar altijd aan moet werken, en niet alleen als er een storing is. Door de betrouwbaarheid van onze diensten continu samen te controleren en te verbeteren, zorgen we ervoor dat ze stabiel blijven. Dat werkt uiteindelijk voor iedereen beter; je klanten hebben een betere ervaring en je team hoeft zich geen zorgen te maken over wie de schuld krijgt van een fout. Omdat je grote storingen voorkomt, kun je veel sneller aanpassingen doen. Zo hoef je je niet meer in het zweet te werken met handmatige aanpassingen en wordt de klantervaring beter. En dat niet alleen: je kunt heel veel geld besparen. Gartner schat dat de onkosten voor een bedrijf bij een systeemonderbreking gemiddeld kunnen oplopen tot $ 300.000 per uur. SRE is dus essentieel als je een groter bedrijf runt dat bij onverwachte veranderingen niet alleen snel moet kunnen handelen, maar ook nog de klantervaring in de gaten moet houden.

  Blameless

Een van de bedrijven die alles weet van SRE is de Google Startup Blameless, een SRE-platform dat teams in staat stelt om de betrouwbaarheid van hun systemen te verbeteren zonder dat dat ten koste gaat van innovatietijd. Volgens hun CEO, Ashar Rizqi, heeft SRE het bedrijf tijdens de pandemie geholpen om te voldoen aan de stijgende vraag van klanten naar online betrouwbaarheid en aan de behoefte om snel te kunnen bijsturen onder de veranderende omstandigheden. Het implementeren van SRE kan volgens hun ook heel nuttig zijn voor snelgroeiende bedrijven die zeker willen weten dat hun team alles in huis heeft om succesvol en betrouwbaar te zijn. Bovendien gebruikt Blameless verschillende Google Cloud-tools, zoals Kubernetes, om zelf ook volgens de SRE-principes te kunnen werken. Hoe Blameless omgaat met SRE, zie je in het filmpje hieronder (startknop zit midden in het plaatje).

Blijf streamen

Een van de bedrijven die je ongetwijfeld kent en dat SRE succesvol gebruikt, is Netflix. Het is een feit dat we tijdens de lockdown allemaal wat meer tijd zijn gaan besteden aan het kijken van onze favoriete series. Netflix in de lucht houden was dus erg belangrijk. Om dat te realiseren, gaf het SRE-team van Netflix prioriteit aan het systematisch identificeren van risico's, het aanpakken en inzichtelijk maken van het verloop van problemen en het testen van de betrouwbaarheid. 

Ze implementeerden ook het shared ownership model; het team werkte dus met wat ze zelf bouwden. Op die manier konden ze problemen herkennen nog voordat klanten er last van konden krijgen. Volgens Netflix betekent werken aan hun betrouwbaarheid met SRE “hulp bij het blootleggen van bedrijfskritische, socio-technische risico’s, bij het effectief reageren op die risico’s en bij het garanderen dat zij hun klanten tevreden konden blijven houden.” 

Wil je meer weten over SRE, lees dan onze boeken over dit onderwerp of bekijk een van de fimpjes in onze SRE-serie. 

Bronnen: