Belangrijkste afhaalrestaurants
- De technische problemen van Facebook waren jammer, maar het probleem zou waarschijnlijk veel sneller zijn opgelost als het niet op zoveel onderling verbonden systemen had gerekend.
- Er is geen manier om systeemstoringen volledig te voorkomen, maar er zijn manieren om ze minder waarschijnlijk te maken.
- Het hebben van back-upplannen voor wanneer (niet als, wanneer) een systeem fa alt, kan het verschil maken tussen 'vervelend' en 'catastrofaal'.
Het recente Facebook-debacle laat zien hoe onderling verbonden systemen gedoemd zijn te mislukken en waarom we ze niet voor alles zouden moeten gebruiken.
Facebook, WhatsApp en Instagram maandag enkele uren kwijtraken was onhandig, schadelijk voor bedrijven en in sommige gevallen bijna catastrofaal. Volgens Facebook was dit allemaal te wijten aan configuratiewijzigingen in de netwerkcoördinerende routers.
Het is een redelijke verklaring, maar het feit dat zo'n enkele fout niet alleen Facebook, maar ook andere systemen van Facebook tot stilstand zou kunnen brengen, is een beetje alarmerend.
Een verkeerde wijziging van de routerconfiguratie zorgde ervoor dat meerdere services, en zelfs VR-headsets, helemaal niet meer werkten. Bovendien had Facebook, zoals Facebook zelf toegeeft, ook een trapsgewijze effect op de manier waarop de datacenters van het bedrijf communiceren, waardoor al hun diensten werden stopgezet.
"De afhankelijkheid van onderling verbonden systemen brengt een inherent risico met zich mee van systeem- of zelfs servicestoringen", zegt Francesco Altomare, senior technisch verkoopingenieur bij GlobalDots, in een e-mailinterview met Lifewire, "Om dit enorme risico tegen te gaan, gebruiken bedrijven het principe van SRE (System Reliability Engineering), evenals andere tools, die allemaal omgaan met verschillende niveaus van redundantie ingebouwd in elke laag van de infrastructuur van een systeem."
Wat kan er fout gaan
Het is de moeite waard om op te merken dat wanneer een dergelijk systeem fa alt, het meestal een perfecte storm van dingen vereist die fout gaan. Het is minder als een kaartenhuis dat wacht om te vallen en meer als een blootliggende thermische uitlaatpoort op een ruimtestation ter grootte van een kleine maan.
De meeste bedrijven ondernemen stappen om ervoor te zorgen dat het enige dat alles in chaos zou kunnen storten, nooit gebeurt, maar hoe dan ook, het kan gebeuren.
"Onverwachte storingen maken deel uit van het bedrijfsleven en kunnen ontstaan als gevolg van nalatigheid van werknemers, fouten in het netwerk van internetproviders of zelfs problemen met cloudopslagservices", zegt Sally Stevens, mede-oprichter van FastPeopleSearch, in een e-mailinterview.
"…Zolang de nodige stappen om het systeem te beschermen, zoals back-ups, on-site router en gelaagde toegang, worden uitgevoerd, zijn deze storingen vrij onwaarschijnlijk." Hoewel zelfs met een leger van fail-safes, is het nog steeds mogelijk dat de spil fa alt.
Als het systeem dat zaken als primaire vormen van contact, apparaten, deuren, enz. bestuurt, fa alt, kunnen de resultaten aanzienlijk zijn. Van mild ongemak tot volledig catastrofaal, afhankelijk van hoeveel individuen en bedrijven erop vertrouwen.
"Er is ook het risico dat hackers het systeem binnendringen vanaf een van de minst beschermde apparaten, zoals koelkasten en broodroosters," voegde Stevens toe, "wat kan leiden tot gegevensdiefstal en ransomware."
Hoe kunnen we ons voorbereiden
Er is geen manier om te garanderen dat een systeem nooit zal falen, maar er zijn stappen die genomen kunnen worden om ofwel de kans op een storing te verkleinen of om een storing soepeler aan te pakken. Een combinatie van de twee benaderingen die fail-safes en tegenmaatregelen combineert met rampenplannen en back-upsystemen zou ideaal zijn.
"Voor het elimineren van deze gevaren die worden veroorzaakt door producten en diensten van derden die effectief worden afgehandeld, moeten de rollen en plichten met betrekking tot risicobeheer door derden strikt worden omschreven", zegt Daniela Sawyer, oprichter en chief technology officer van FindPeopleFast, in een e-mailinterview: "Om in deze nieuwe omgeving te kunnen bloeien, moeten risicomanagers de essentiële onderdelen van zo'n geavanceerd ecosysteem begrijpen."
Wat er gebeurde met Facebook, WhatsApp en Instagram was ongelukkig, maar hopelijk ook een eye-opener. Mensen die afhankelijk zijn van onderling verbonden systemen, moeten begrijpen dat het juiste ding dat fout gaat, alles kan verstoren. En er moeten maatregelen worden genomen (of onderzocht en verfijnd) om dergelijke verstoringen minder waarschijnlijk en minder impactvol te maken.
In het geval van Facebook was het probleem niet de routerproblemen, maar eerder dat bijna het hele ecosysteem met al het andere was verbonden. Dus met Facebook (de dienst) uit de lucht, moest Facebook (het bedrijf) veel meer tijd en energie besteden aan het organiseren en aanpakken van het probleem. Als het ofwel niet zo'n diepgeworteld, onderling verbonden systeem had gebruikt of back-upplannen had om een dergelijke storing op te lossen, zou het waarschijnlijk veel minder tijd hebben gekost om het op te lossen.