Waarschijnlijk is het u afgelopen vrijdag niet ontgaan dat wereldwijd sectoren stil lagen door een storing bij het softwarebedrijf CrowdStrike. Maar liefst 8,5 miljoen Windows-computers werden zwaar getroffen door de inmiddels welbekende “blue screen of death”. De impact was groots en zo begon de zoektocht, ook bij ons op kantoor, naar een oplossing. Die uren later beschikbaar was.
In de tussentijd ontplofte de media met uitleg over de impact en speculaties over de oorzaak en schuldige. Wat leidde tot veel verschillende en tegenstrijdige informatie. Nu het inmiddels weer wat rustiger is en het probleem onder controle. Is het tijd om alles duidelijk op een rijtje te zetten, zodat u ook precies weet wat er is gebeurd.
Wat is CrowdStrike en hoe werken de updates van Falcon?
CrowdStrike is een bekend cybersecuritybedrijf in de VS, dat organisaties helpt beschermen tegen cyberbedreigingen zoals hackeraanvallen en datalekken. Dit doen ze via een cloudplatform genaamd Falcon, wat gebruik maakt van realtime monitoring met machine learning (ML) en AI. In simpele woorden: de software verwerkt niet alleen historische data, maar ook gebeurtenissen die op dit moment plaatsvinden. Dit betekent dat CrowdStrike eigenlijk elke dag, of zelfs elk uur, configuratie-updates uitvoert naar de sensor van Falcon als reactie op “nieuw ontdekte tactieken, technieken en procedures”, zegt CrowdStrike. Zo kan de sensor op zijn tijd weer goed zoeken naar en reageren op realtime cyberbedreigingen.
Wat veroorzaakte de storing bij CrowdStrike?
Precies in dié configuratieupdates zat de fout, en niet in de kernel-driverupdates zoals eerst werd gedacht. In het rapport, dat CrowdStrike inmiddels zelf heeft uitgebracht, geven ze aan dat de update die vrijdag ochtend leidde tot de storing, bedoeld was om pas ontdekte kwaadaardige named pipes te identificeren. Dit zijn kortgezegd virtuele communicatiekanalen tussen programma’s en computers, en worden vaak gebruikt in cyberaanvallen. CrowdStrike wilde in simpele taal dus die named pipes opsporen en blokkeren, door middel van de nieuwe update en het configuratiebestand C-00000291.
Helaas zat er een fout in dit bestand, waardoor de sensor in plaats van de opsporing en blokkering, een logicafout veroorzaakte bij Windows-apparaten die waren geüpdatet. Dit leidde tot systeemcrashes en Blue Screens. Wat die logicafout precies inhoudt, heeft CrowdStrike nog niet bekendgemaakt. De storing kwam dus niet door Microsoft zelf, zoals veel media in het begin beweerden. Andere merken zijn mogelijk niet getroffen doordat elk systeem uniek is en anders reageert op updates van CrowdStrike.
Waarom werden niet alle Windows-apparaten getroffen?
Het probleem betrof alleen Windows-apparaten met Falcon-versie 7.11 of hoger die tussen 6:09 en 7:27 de update installeerden. Na 7:27 draaide CrowdStrike de update alweer terug. Als de laptop in die periode niet was aangesloten, heeft het apparaat de update niet ontvangen en dus geen problemen ondervonden.
Wat was de oplossing voor het probleem?
De oplossing bleek achteraf eenvoudig te zijn, nadat diverse ICT-partijen en CrowdStrike zelf deze hadden gevonden: Verwijder het configuratiebestand C-00000291 in Windows veilige modus, start de computer opnieuw op en de blue screen is weg. Er was echter een heel groot nadeel: dit moest handmatig gebeuren. En dat is makkelijker gezegd dan gedaan als je 8,5 miljoen computers moet resetten met een gering aantal ICT’ers. Inmiddels zegt CrowdStrike een nieuwe oplossing te hebben bedacht om de getroffen computers sneller weer operationeel te krijgen en Microsoft heeft een hersteltool uitgebracht. Volledig herstel kan echter nog weken duren.
Wat betekende dit voor de klanten van WH2A en WH2A zelf?
Onze consignatiedienst controleerde, zoals elke ochtend, ons monitoringsysteem op afwijkingen en ontdekte toen een afwijkende situatie bij een van onze klanten. Ons team begon onmiddellijk met het onderzoeken van het probleem en ontdekte rond 7:30 dat de oorzaak bij CrowdStrike lag. Er werd direct contact opgenomen met het moederbedrijf van de klant, en werd er naar een oplossing gezocht. Rond 10:30 waren alle servers weer operationeel en konden de gebruikers na goedkeuring van het moederbedrijf vanaf 12:00 weer inloggen. Enkele losse werkstations, waar de patch niet automatisch werkte, werden handmatig hersteld.
Onze andere klanten, die met SentinelOne werken, werden niet getroffen door dit probleem.
We willen al onze klanten bedanken voor hun geduld en begrip afgelopen vrijdag. Dankzij hun medewerking konden wij snel handelen en het probleem oplossen. We hebben dit uiteraard afgesloten met een welverdiende Vrijmibo. Nu hopen we dat de rest van de wereld ook snel weer up and running is en dat dit nooit meer voorkomt.